SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
TEMA 4: REGRESIÓN Y CORRELACIÓN.

4.1. Regresión y correlación lineal simple.................................................. 1
4.2. El método de los mínimos cuadrados y las ecuaciones normales. ........ 3
4.3. Regresión lineal: recta de regresión (mínimos cuadrados). ................. 4
4.3.1. Propiedades de las rectas de regresion. ........................................ 6
4.4. Regresión no lineal. ............................................................................. 6
4.4.1. Ajuste parabólico........................................................................... 6
4.4.2. Ajuste Hiperbólico. ........................................................................ 7
4.4.3. Ajuste Exponencial. ....................................................................... 8
4.4.4. Ajuste Potencial............................................................................. 8
4.5. El coeficiente de determinación correlación. El coeficiente de
correlación lineal. ..................................................................................... 10
4.5.1. La varianza residual. Coeficiente de determinación. .................... 10
4.5.2. Valores del coeficiente de determinación. ................................... 12
4.5.3. Valores del coeficiente de correlación lineal: Posiciones relativas
de las rectas de regresión. .................................................................... 12
4.6. Predicción.......................................................................................... 15

4.1. Regresión y correlación lineal simple.
Uno de los objetivos de toda ciencia es encontrar relaciones entre los hechos que
estudia. Estas relaciones se traducen en expresiones matemáticas. Así si
observamos varias veces el tiempo que tarda un móvil en recorrer una distancia y
su velocidad (supuesto que se desplaza con velocidad uniforme), los valores
observados están claramente relacionados y esa relación puede expresarse
matemáticamente como v = s / t (v t = s).
No obstante, existen otras variables como inflación y tipo de interés, oferta y
demanda, ahorro y renta, etc., entre las que no cabe duda de que existe una
relación, pero no existe una función matemática que verifiquen rigurosamente.
Pues bien en el primero de los casos (tiempo y velocidad) diremos que existe una
dependencia funcional, y en el segundo (inflación y tipo de interés) una
dependencia estadística.
La diferencia es que en la primera la relación entre las variables es estricta y
perfecta, y en la segunda el modelo matemático al que lleguemos deberá aproximar
la relación entre variables razonablemente, por lo que deberemos determinar su
forma y contrastar su “bondad”.
Las dependencias de tipo estadístico, son muy frecuentes en economía, y en
general en todas las ciencias sociales.
A las técnicas estadísticas utilizadas para determinar modelos o expresiones que
relacionen el comportamiento de varias variables se les denomina técnicas de
regresión.
Previamente a la aplicación de técnicas de regresión, se requiere un análisis teórico,
que relacione las variables objeto de estudio, que de consistencia al análisis
estadístico:
Este análisis es necesario porque es posible distinguir distintos tipos de
dependencia entre variables:
A) Al azar: a la vista de la información disponible se plantea una relación absurda
entre variables.
Ejemplo: los ciclos económicos y las manchas solares:
Una de las teorías cíclicas mas atrevidas fue puesta sobre la mesa por Stanley
Jewons a finales del siglo xix; esta (avanzada) teoría atribuía las causas ultimas del
desarrollo de los ciclos económicos a la evolución de las manchas solares.

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
1-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

A este respecto jewons hizo notar que el sol tiene unos ciclos de actividad que,
cuando están en su fase álgida, generan un mayor numero de manchas solares que
inducen alteraciones meteorológicas en latierra; estos ciclos de actividad solar que
– según lo calculado – tenían una duración media de 10,45 años y precisamente la
misma duración media (10,46 años) que los ciclos económicos habidos entre 1.721
y 1.878, de acuerdo conlos cálculos de Jewons. Obviamente tal coincidencia en
cuanto a la dimensión temporal de estos fenómenos, se debe a la casualidad, ya
que la correlación, no tiene por que implicar necesariamente causalidad. Sin
embargo Jewons pensó que la correlación entre los dos ciclos era demasiado
estrecha para ser accidental, y en función de ello sugirió la causalidad generadora
de los ciclos, es decir la evolución de la actividad solar, determinaría la evolución de
la actividad económica.
B) Una tercera variable influye sobre las dos variables consideradas: cuando dos
variables se ponen en dependencia, se supone que una explicara el
comportamiento de la otra, pero es posible que exista una tercera variable, que
actúe como motor de esa relación. Así es evidente la relación entre consumo y
ahorro de las familias, pero ello no implica que una explique la otra, ya que es
una tercera variable (la renta), la que determina su relación. (no hay relación
causa-efecto entre las dos primeras variables consideradas).
C) Una variable influye en la otra: así por ejemplo el gasto en carne de una familia
vendrá determinado (aunque no de modo exclusivo) por el numero de
miembros de la unidad familiar.

Si dos variables presentan una dependencia estadística, es decir, no funcional, no
es posible encontrar una ecuación, tal que los valores que puedan presentar dichas
variables la satisfagan. Gráficamente, equivale al hecho de que no es posible
encontrar una función, tal que su grafica pase por todos los puntos
correspondientes al diagrama de dispersión asociado a las variables observadas.
35

3

EDAD

30
25

1

20
15
10
5
0
30

40

50

60

2

70

80

90

100

PESO

*el diagrama de dispersión consiste en representar gráficamente nuestros pares
de observaciones (xi , yi).
Representaremos en el eje de abcisas los posibles valores de una variable(x), en el
eje de ordenada los posibles valores de la otra variable (y). Los puntos del grafico
serán las intersecciones (xi , yi) obtenidas de nuestras observaciones. Al conjunto
de puntos obtenido se le denomina nube de puntos.
Ante la imposibilidad de encontrar una grafica que pase por todos los puntos de la
nube, la función cuya grafica más se aproxime a los datos observados expresara
mejor la relación entre los mismos. En nuestro ejemplo la función grafica (1)
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
2-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

expresa mejor la relación que la (2), pero si tenemos que decidir entre la (1) y la
(3), la elección no seria tan elemental. Esto indica que el método grafico puede ser
de gran ayuda, pero no es suficiente para determinar la mejor función, por ello
recurriremos a métodos matemáticos, que no dependan de opiniones subjetivas.
A la variable que se quiere predecir se le denomina dependiente o endógena y a
la variable a partir de la cual queremos hacer la predicción, se le llama
independiente, exógena o explicativa.
Cuando solo utilicemos una variable independiente, estaremos ante la
regresión y correlación simple. Si interviene más de una la regresión o
correlación se denomina múltiple.
Una de las aplicaciones mas interesantes de la regresión en economía es la de
predecir, esto es, conociendo el valor de una de las variables, estimar el valor que
presentara otra variable relacionada con la primera.
Hay que advertir, que una relación estadística fuerte entre variables, no implica la
existencia de una relación causa-efecto entre ellas.
Por ejemplo existe una fuerte correlación entre el número de burros (de 4 patas) y
el número de licenciados universitarios. Ello es fruto de la dependencia común de
ambas variables de una tercera variable (el desarrollo económico industrial), sin
que en ningún caso podamos afirmar que una es causa de la otra.
4.2. El método de los mínimos cuadrados y las ecuaciones normales.

EDAD

Hacer regresión, consiste en ajustar lo mejor posible una función a una serie de
valores observados, gráficamente equivale a encontrar una curva (recta) que
aunque no pase por todos los puntos de la nube, al menos este lo mas próxima
posible a ellos. Supongamos que para poder predecir “y” en base al conocimiento
de “x”, se ha ajustado una función que expresa de la mejor forma posible el
comportamiento de “Y” en función de “X” (Y = f(X)):

y=f(x)

35
30
25
20
15
10
5
0
30

40

50

60

70

80

90

100

PESO

Pues bien utilizando la mencionada función, pronosticaríamos que si X= xi entonces
ˆ
la variable Y tendría una valor esperado y i = f ( x i ) . Este valor posiblemente no
coincidirá con el que realmente ha presentado la variable Y, yi, de manera que en
dicha predicción se habrá cometido un error;

ˆ
ei = y i − y i

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
3-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

Esta diferencia se denomina residuo, y nos da una medida del error cometido en el
ajuste para cada punto del diagrama de dispersión.
Un criterio para obtener un buen ajuste que evite que se compensen residuos de
signo positivo con residuos de signo negativo y que sea manejable
(algebraicamente), seria minimizar la suma de los cuadrados de los residuos, es
decir, hacer mínima la suma:
n

n

n

i =1

i =1

i =1

ˆ
∑ ei2 = ∑ ( yi − yi ) 2 = ∑ ( yi − f ( xi )) 2
Este criterio de minimizar la suma de cuadrados es el conocido como criterio de
mínimos cuadrados.
Se puede observar que el desarrollo anterior consiste en la búsqueda de un
procedimiento para medir la distancia de un conjunto finito de puntos a una curva.
Las funciones que se ajustan con más frecuencia y sus ecuaciones generales, son:
Recta:
y = ax + b
Parábola:
y = a + bx + cx2
Polinomio de grado n :
y = a + bx + cx2 + dx3 + ... + zxn
Hipérbola equilátera:
y = a + b/x
Función potencial:
y =axb
Función exponencial:
y = abx
Curva logística:
y = a/(1 + be-cx)
Exponencial modificada:
y = a + be cx
Si la función es una recta, la regresión se denomina lineal.
4.3. Regresión lineal: recta de regresión (mínimos cuadrados).
Vamos a encontrar entre todas las rectas, cuya ecuación general es y = a + bx,
cual es la que según el método de mínimos cuadrados mejor se ajusta a los datos
observados para una variable bidimensional (x, y).
Conocido el valor xi de la variable X, el valor esperado de y será:

ˆ
y i = a +bxi,

cometiéndose un error respecto del valor observado de ei = yi – a – bxi.
El método de mínimos cuadrados, en el caso de la recta, trata de encontrar los
coeficientes a y b que hagan mínima la expresión:

S ( a, b ) = Σ ei2 = Σ( yi – a – bxi )2
Para que exista un mínimo en el punto (a0, b0) la condición necesaria, es que se
anulen las derivadas parciales de primer orden en dicho punto, es decir:

δS ( a0 , b0 ) = - 2 Σ( yi – a – bxi ) = 0
δa

(1)

δS( a0 , b0 ) = - 2 Σ( yi – a – bxi ) xi = 0
δb

(2)

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
4-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

A las dos ecuaciones anteriores (1) y (2), se les denomina ecuaciones normales
de la recta, y la solución del sistema que forman (sistema de 2 ecuaciones con dos
incógnitas) será un punto (a0, b0) donde S(a,b) se hace mínima.
Este sistema también lo podemos escribir como:

Σ yi = n a + b Σxi
Σ yi xi = a Σxi+ b Σxi2

Vamos a despejar los valores de a y b solución del sistema.
Para ello dividimos las dos ecuaciones por n y nos encontramos con:

⎧ y = a + bx
⎨
⎩a11 = ax + ba X 2
Despejando “a” de la primera ecuación:

a = y − bx
Y sustituyendo en la segunda ecuación:
2
a11 = ( y − bx ) x + ba X 2 = yx − bx 2 + ba X 2 = yx + b(a X 2 − x 2 ) = yx + bS X

Si ahora despejamos “b” en esta expresión, tenemos;

b=

a11 − yx S XY
= 2
2
SX
SX

Pues bien, si sustituimos los valores a y b que hemos calculado en la ecuación
general de la recta (y=a+bx), obtenemos;

y = (y −

S
S XY
x ) + XY x
2
2
SX
SX

Que podemos expresar como;

y− y =

S XY
(x − x)
2
SX

A la expresión dentro del recuadro se le llama recta de regresión de Y/X.
De modo análogo podríamos haber obtenido la recta de regresión de X/Y llegando a
una expresión de la forma;
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
5-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

x−x =

S XY
( y − y)
S Y2

De las ecuaciones de las dos rectas de regresión se deduce que ambas pasan por el
punto ( x , y ) , pudiéndose dar dos alternativas: que coincidan (sus pendientes
deberán ser iguales) o que se corten solo en dicho punto.
4.3.1. Propiedades de las rectas de regresion.
Propiedad 1: la suma de los residuos ei vale 0 (y por tanto su media también),
esto es:
Demostración:

Σ ei = 0

Σ ei = Σ( yi – a – bxi ) = Σ yi - Σ a – b Σ xi= Σ yi - n a – b Σ xi = 0
Ya que a y b son solución de la primera ecuación del sistema.
Propiedad 2: Si la dependencia existente entre las dos variables es funcional, las
dos rectas de regresión son coincidentes.
Propiedad 3: La covarianza de las variables Y y e vale 0.

Sey= 0

Sey = a11 –a01 a10, y sabemos por la propiedad 1 que a10= 0, entonces bastará
demostrar que a11 = 0 (sin demostración).

4.4. Regresión no lineal.
Aunque la regresión lineal, tiene aplicación en muchos problemas, en algunos
casos, la relación que liga las variables exige la utilización de ajustes no lineales. No
obstante incluso en estas ultimas situaciones, por su sencillez, suele aplicarse la
regresión lineal aprovechando el que casi toda función (curva) puede aproximarse
por una recta en un pequeño dominio.

4.4.1. Ajuste parabólico.
Si predecimos la variable y mediante una parábola de ecuación general y = a + b x
+ c x2 el valor esperado será:

ˆ
y i = a + b xi + c xi 2
ˆ
Y el error cometido será: ei = yi - y i = yi – a - b xi - c xi 2.

El método de mínimos cuadrados nos conduce a la parábola que hace mínima la
función:
S( a, b, c ) = Σ ei2 = Σ( yi – a – bxi - c xi 2)2
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
6-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

Para que esa función suma S(a,b,c,) alcance un mínimo, sus derivadas parciales
deberán valer 0:

(1)
(2)
(3)

δS( a0 , b0, c0 )

= - 2

Σ( yi – a – bxi - c xi 2) = 0

δa
δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi
δb
δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi

2

2

) xi = 0
) xi2 = 0

δc

Si dividimos las tres ecuaciones (sistema de ecuaciones normales) por n obtenemos
un sistema de tres ecuaciones con tres incógnitas, cuya resolución nos
proporcionara los coeficientes a, b, y c de nuestra parábola de ajuste:

y = a + b x + c a20
a11 = a x + b a20+ c a30
a21 = a a20 + b a30+ c a40
Este tipo de ajuste se utiliza por ejemplo en microeconomía para la curva de costes
marginales en función del volumen de producción (que tiene forma de “U”).
Este ajuste se puede generalizar, si queremos ajustar por un polinomio de grado
superior a 2, que tendrá una expresión general: y = b0 + b1 x + b2 x2 +.....+ bn xn
El método de mínimos cuadrados nos conducirá a un sistema similar al anterior,
pero con n ecuaciones y n incógnitas, cuya resolución nos proporcionara los valores
de b0, b1, b2,....., bn
4.4.2. Ajuste Hiperbólico.
Si predecimos la variable y mediante una hipérbola de ecuación general:
y = a + b (1/x)
El valor esperado será:

ˆ
yi

= a + b (1/xi )

Y el error cometido será: ei = yi -

ˆ
y i = yi – a – b (1/ xi).

El método de mínimos cuadrados nos conduce a la hipérbola que hace mínima la
función:
S( a, b ) = Σ ei2 = Σ( yi – a – b(1/xi ))2
Ahora podemos razonar de forma alternativa a la empleada hasta ahora definiendo
la variable z = 1 /x con lo que transformamos la hipérbola en la recta y = a + bz
obteniendo un sistema de ecuaciones normales:

Σ yi = n a + b Σ(1/xi )
Σ yi (1/xi )= a Σ(1/xi )+ b Σ(1/xi2)

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
7-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

Que resolveremos de modo análogo al realizado en el ajuste lineal.
Esta es una manera alternativa, pero podíamos haber efectuado el mismo
razonamiento que para el ajuste parabólico.
La curva de Engel que expresa la demanda de un bien en función de la renta,
adopta en ocasiones la forma de una hipérbola equilátera.
4.4.3. Ajuste Exponencial.
Si predecimos la variable y mediante una exponencial de ecuación general:
y = a ebx
El valor esperado será:

ˆ
y i = ae bx
bx
ˆ
Y el error cometido será: ei = y i − y i = y i − ae
i

i

Al igual que en el caso anterior tenemos dos alternativas:
Bien obtener el mínimo de la función:
S( a, b ) = Σ ei2 = Σ( yi – a – ebx )2
(Este método nos conduce a un sistema de ecuaciones imposible de resolver).
O bien transforma la función exponencial en una función lineal. Esto se hace
tomando logaritmos en la ecuación general.
Nos decantamos por este procedimiento:

Lny = Ln(ae bx ) = Lna + Lne bx = Lna + bx
Llamando:
Y = ln y

;

A = ln a

;

b=b

;

x=x

Podemos presentar la ecuación:
Y=A+bx
Cuyo sistema de ecuaciones normales seria:
Σ ln yi = n Lna + b Σxi
Σ xi ln yi = Lna Σxi + b Σxi2
4.4.4. Ajuste Potencial.
Si predecimos la variable y mediante una potencial de ecuación general y = a xb el
valor esperado será:
Y el error cometido será: ei =

ˆ
y i = ax ib
ˆ
y i − y i = y i − ax ib

Nuevamente tenemos dos alternativas:
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
8-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

A) Hacer mínima la suma de los cuadrados de los residuos (da lugar a un sistema
de ecuaciones que no podemos resolver).
B) Transformar la función en una función lineal (tomando logaritmos):
Ln y =ln( a xb) = ln a + b lnx
Llamando:
Y = ln y

;

A = ln a

;

b=b

;

X = ln x

Podemos presentar la ecuación:
Y=A+bX
Cuyo sistema de ecuaciones normales seria:
Σ ln yi = n Ln a + b Σln xi
Σ lnxi ln yi = Lna Σlnxi + b Σ(ln xi)2
Ejercicio: ajustar a una función potencial y a una función exponencial, los siguientes
datos:
2
4
3
1
Xi
Yi
6
5
1
3
Para ajustar a una función potencial:
A) y = a xb ⇒ ln y = ln a + b ln x⇒ Y= A + b X
Para ajustar a una función exponencial:
B) y = a ebx ⇒ ln y = ln a + bx ⇒ Y = A + b x
Ampliamos nuestra tabla con los datos que faltan:
Yi
Ln xi
Ln yi
Lnxiln yi Xi ln yi
Xi
2
6 0.693
1.79
1.24
3.58
4
5 1.386
1.61
2.23
6.44
3
1 1.099
0
0
0
1
3
0 1.099
0
1.099
10 Sumas
3.178
4.5
3.47 11.119

Xi2

4
16
9
1
30

(ln xi)2

0.48
1.92
1.21
0
3.61

a) FUNCION POTENCIAL:

SLn x Ln y
Ln x Ln y
B = b = ------- = -0.0967 ; A= Ln a = Ln y- ------- Ln x = 1.202;a = Exp A=3.326
S2 Ln x
S2 Ln x
SUSTITUYENDO ESTOS COEFICIENTES EN y = a xb TENEMOS NUESTRA FUNCION
DE AJUSTE POTENCIAL:
Y = 3.326 X-0.0967
b)

FUNCION EXPONENCIAL:
S x Ln y
Sx Ln y
B = b = ------- = -0.0262 ; A= Ln a = Ln y - ------ x = 1.190
S2 x
S2x

a = Exp A=3.289

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
9-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

SUSTITUYENDO ESTOS COEFICIENTES EN y = a ebx TENEMOS NUESTRA FUNCION
DE AJUSTE EXPONENCIAL:
Y = 3.289 e-0.0262 X

4.5. El coeficiente
correlación lineal.

de

determinación

correlación.

El

coeficiente

de

Antes de enunciar y describir brevemente otras formas de ajuste deberemos
plantearnos lo siguiente:
La regresión nos permite ajustar una nube de puntos a una recta (ajuste lineal) o
curva (ajuste no lineal), lo que equivale a conocer la forma en la que se relacionan
las variables. De otra manera, la regresión determina la mejor de las rectas o
curvas establece una relación entre dos variables, pero el hecho de que sea la
mejor posible, no quiere decir que sea “buena” (puede ocurrir que los errores que
estemos cometiendo sean elevados), ya que es posible que exista otra función
matemática que modelice mejor la relación entre las variables.
Por tanto tan importante será conocer la forma en que se relacionan las variables
(de eso se ocupa la regresión), como conocer el grado de asociación/dependencia
de dichas variables (de esto se ocupa la correlación), y encontrar alguna medida o
coeficiente que nos mida el grado de bondad o de representatividad de la relación
que hemos establecido mediante técnicas de regresión.
4.5.1. La varianza residual. Coeficiente de determinación.
El método de mínimos cuadrados toma como medida del error que se comete,
cuando ajustamos a una curva/recta, la suma de los residuos al cuadrado:
n

∑e
i =1

n

2
i

n

i =1

i =1

ˆ
= ∑ ( y i − y i ) 2 = ∑ ( y i − f ( xi )) 2

Esa cantidad dividida por n se utiliza como medida de la bondad del ajuste.
En el caso de funciones lineales (recta, parábola, hipérbola, etc.), la media de los
residuos es 0(propiedad 1), por lo que la suma de los cuadrados de los residuos
dividida por n no es otra cosa que la varianza de la variable “e”y se denomina
varianza residual:
n

∑ ei2
i =1

n

n

=

∑ (e
i =1

i

− e)

n

= S e2

Veamos el significado de esta varianza residual:

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
10-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

2
2
ˆ
ˆ
e i = y i − y i ⇒ y i = y i + ei ⇒ S y = S y + S e2
ˆ

El primer sumando a la derecha de la igualdad se denomina varianza explicada por
la regresión y nos indica en qué medida queda explicada la variable dependiente (y)
mediante el modelo de ajuste, pudiéndose interpretar el segundo sumando -que es
la varianza residual- como una medida de lo que queda sin explicar después de
haber efectuado la regresión.
Esta varianza residual presenta el problema de determinar a partir de que valores
es suficientemente pequeña o grande como para admitir un buen o mal ajuste: la
respuesta a este interrogante nos la dará el coeficiente de determinación R2.

R =
2

2
Sy
ˆ

=

2
Sy

2
S y − S e2
2
Sy

= 1−

S e2
2
Sy

Antes de estudiar el rango de variación de este coeficiente, veamos una forma
cómoda de calcular se 2 para el caso particular de un ajuste lineal:
n

n

n

2
∑ y i − a ∑ y i − b ∑ xi y i

R =
2

2
Sy
ˆ
2
Sy

=

2
S y − S e2
2
Sy

=

2
S y − i =1

i =1

i =1

n
2
Sy

Si sustituimos a y b por sus valores: a = y − bx ; b =

S xy
S x2

y tenemos en cuenta

que:
n

∑y

i =1

n

2
i

n

∑x y

n

=S +y
2
y

2

∑ yi

i =1

;

n

=y

i

i =1

;

n

i

= S xy + x y

Tenemos que:
n

R2 =

2
Sy
ˆ

S

2
y

=

2
S y − S e2

S

2
y

S −
=

2
y

∑ y i2 − ( y −
i =1

S XY
2
SX

n

x )∑ y i −
i =1

n
S

2
y

S XY
2
SX

n

∑x y
i =1

i

i

=

⎡
⎤
S
S
S
S
S
2
S y − ⎢( S Y2 + y 2 ) − ( y − XY x ) y − XY ( S xy + x y )⎥ − XY x y + XY S xy + XY x y )
2
2
2
2
2
SX
SX
SX
SX
SX
⎣
⎦
=
=
2
2
Sy
Sy
⎛ S
= ⎜ XY
2
2
S X SY ⎜ S X SY
⎝
2
S XY

⎞
⎟
⎟
⎠

2

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
11-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

A

S xy
SxS y

se le denomina coeficiente de correlación lineal y se denota con la letra

“r”:

r=

S xy
Sx Sy

Por tanto, en el caso (y únicamente en este caso) de un ajuste lineal, se tiene que:

R2 = r 2
4.5.2. Valores del coeficiente de determinación.
El coeficiente de determinación toma valores entre 0 y 1;
•

Toma el valor “0” cuando la regresión no explica nada de la variabilidad de
los valores observados y por tanto el ajuste obtenido no modeliza
adecuadamente (ni siquiera minimamente) la relación entre variables.

R =
2

•

S yˆ2
S

2
y

= 0 ⇒ S yˆ2 = 0 ⇔ S y2 = S e2

Toma el valor “1” cuando el ajuste efectuado recoge toda la variabilidad de
la variable original, y por tanto el ajuste es perfecto.

R =
2

•

0 ≤ R2 ≤ 1

S yˆ2
S

2
y

= 1 ⇒ S yˆ2 = S y2 ⇒ S e2 = 0

Para valores entre “0” y “1”, el ajuste es tanto mejor cuanto más se
aproxima a 1 el coeficiente de determinación. Los ajustes se consideran
razonables cuando R ≥ 0,75 .
2

4.5.3. Valores del coeficiente de correlación lineal: Posiciones relativas de
las rectas de regresión.
El coeficiente de correlación lineal puede utilizarse como medida
alternativa al coeficiente de determinación para evaluar la bondad del
ajuste exclusivamente en el caso de regresión lineal. Veamos las posiciones
relativas de las rectas de regresión de Y/X y de X/Y y su relación con los valores del
coeficiente de correlación lineal.
Dado que el coeficiente de correlación lineal se define como:

r=

Podemos asegurar que:

S xy
Sx Sy

con

R2 = r 2

0 ≤ r 2 ≤ 1 ⇒ −1 ≤ r ≤ 1

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
12-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

A) Cuando r = 0, esto supone únicamente que no existe relación lineal alguna entre
x e y, sin embargo pueden estar estrechamente ligadas de acuerdo con otro tipo de
función por ejemplo x2 + y2 = 1(ver figura).
Y/X

X/Y

Conclusión: por tanto cuando r = 0 el ajuste lineal no será el indicado.
Esta conclusión y la exposición son también aplicables al ajuste hiperbólico,
considerando en lugar de las variables x e y, las variables z e y, siendo z = 1/x.
B) r = ±1. Cuando r = ±1, ⇒ r2 = 1, entonces la varianza residual s2e=0
Esto implica que todos los errores o residuos son nulos y que las rectas de
regresión pasan por todos los puntos que se han observado. Por tanto las dos
rectas coinciden. Si r=1 la pendiente de las rectas será positiva y si r=-1 la
pendiente de las rectas será negativa (ver figura).

r = 1(corr.perfecta +)

r = -1(corr.perfecta -)

C) –1 < r < 0 ó 0 < r < 1. Estas situaciones intermedias serán las que mas veces
se presenten en la práctica. A medida que r se aleja de 0 mejor será el ajuste por
una recta de mínimos cuadrados.
NOTAS:
* Si consideramos las rectas de regresión Y / X ≡ Y = aX + b y X / Y ≡ X = cY + d
sus pendientes son respectivamente a =

S xy
2
Sx

;c =

S xy
2
Sy

y por tanto el coeficiente de

correlación lineal al cuadrado viene determinado como el producto de las
pendientes de las dos recta de regresión:

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
13-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

⎛ S xy
r =⎜
⎜S S
⎝ x y
2

2

⎞
S S
⎟ = xy xy = bc
2
2
⎟
Sx Sy
⎠

(

)

* Ambas rectas se cortan en el punto x, y . Es decir las dos rectas de regresión
siempre se cortan y lo hacen en ese punto:

y

x
* Las dos rectas tienen pendientes con el mismo signo por lo que no es posible la
siguiente situación:

y

x
* Si las variables son independientes su covarianza valdrá 0 y por tanto las dos
rectas de regresión serán de la forma: Y / X ≡ y = y y X / Y ≡ x = x

y

x
* Bondad del ajuste de la parábola.
Debido a que la recta es un caso particular de parábola (la parábola tiene por
ecuación y = a + bx +cx2 .la recta es el caso particular cuando c = 0), se
obtendrán siempre mejores ajustes mediante parábolas que mediante funciones
lineales (rectas), siendo el coeficiente de determinación para la parábola siempre
mayor que el de la recta (recordemos que en la recta r2 = R2).

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
14-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.

Por este mismo razonamiento puede pensarse que considerando polinomios de
mayor grado se consiguen mejores ajustes (recordemos que la parábola es un
polinomio de grado 2). Pero no debe pensarse que simplemente con incrementar el
orden del polinomio de ajuste se puede llegar a obtener un ajuste tan bueno como
se quiera. La bondad del ajuste dependerá del mayor o menor grado de asociación
entre las variables en estudio, si estas no presentan apenas relación (de cualquier
tipo) no podremos encontrar funciones que ajusten bien los datos observados.
4.6. Predicción.
Como ya indicamos, la predicción es una de las aplicaciones más importantes de la
regresión. La predicción consiste en determinar(a partir del modelo ajustado), el
valor de la variable dependiente para un valor dado de la variable independiente.
Cuando la estimación/predicción se hace para un valor de la variable independiente
dentro del rango de nuestras observaciones se denomina interpolación y si se hace
para un valor de la variable fuera del rango se denomina extrapolación.
Para la interpolación la fiabilidad de los valores pronosticados será tanto mayor
cuanto mejor sea el ajuste (cuanto mayor sea R2), en el supuesto, claro esta, de
que exista relación/asociación entre las variables.
Cuando hacemos predicciones para valores de la variable muy alejados del rango
de variación de la variable independiente, se corre el riesgo de que el modelo
ajustado no sea valido para dichos valores en la medida dada por R2.
Bibliografía básica
* Mª Angeles palacios, Fernando A. López Hernández , José García Córdoba y
Manuel Ruiz Marín. “INTRODUCCIÓN A LA ESTADÍSTICA PARA LA EMPRESA”.
Librería Escarabajal
* Martín-Pliego López, Fco. “Introducción a la estadística económica y empresarial”.
Ed. Thomson
* Casas, J. M., Callealta, J., Núñez, J., Toledo, M. y Ureña, C. (1986). Curso Básico
de Estadística Descriptiva. I.N.A.P.
* Hermoso Gutiérrez, J. A. y Hernández Bastida, A. (1997). Curso Básico de
Estadística Descriptiva y Probabilidad. Ed. Némesis.
Para saber más o aclarar dudas:
http://www.monografias.com/trabajos26/estadistica-inferencial/estadisticainferencial.shtml
http://descartes.cnice.mecd.es/Bach_CNST_1/Variables_estadisticas_bidimensionales_regre
sion_correlacion/Indice.htm
http://campusvirtual.uma.es/estadcomp/Cap2.pdf
http://www.elprisma.com/apuntes/curso.asp?id=5946
http://isi-eh.usc.es/eipc1/MATERIALES/331102886.pdf
http://www.eui.upm.es/~acorral/material/regresion.pdf
http://www3.uji.es/~mateu/t2-ig12.doc

DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
15-15

Contenu connexe

Tendances

Estadistica para la investigación (sesión6)
Estadistica para la investigación (sesión6)Estadistica para la investigación (sesión6)
Estadistica para la investigación (sesión6)Zarlenin docente
 
5 regresion y correlacion
5 regresion y correlacion5 regresion y correlacion
5 regresion y correlacionYuliMita
 
Revista ent #2 densidades probabilisticas
Revista ent #2   densidades probabilisticasRevista ent #2   densidades probabilisticas
Revista ent #2 densidades probabilisticasGERENCIA MTTO 3ER CORTE
 
Correlacion de Pearson
Correlacion de PearsonCorrelacion de Pearson
Correlacion de PearsonValentina
 
Tarea 1 correlación y regresión lineal
Tarea 1 correlación y regresión linealTarea 1 correlación y regresión lineal
Tarea 1 correlación y regresión linealMaría Gordón
 
Regresión Lineal
Regresión LinealRegresión Lineal
Regresión LinealEdgar Ortiz
 
Exposición trabajo de spss
Exposición trabajo de spssExposición trabajo de spss
Exposición trabajo de spssEvelin Naranjo
 
Correlacion lineal 2019
Correlacion lineal 2019Correlacion lineal 2019
Correlacion lineal 2019franciscoe71
 
Presentacion final estadistica
Presentacion final estadisticaPresentacion final estadistica
Presentacion final estadisticaanibal rodas
 
Heterocedasticidad
HeterocedasticidadHeterocedasticidad
Heterocedasticidadfranbf66
 
Concepto
ConceptoConcepto
ConceptoPPEPPE2
 
Coeficiente de deteminacion clase
Coeficiente de deteminacion claseCoeficiente de deteminacion clase
Coeficiente de deteminacion claseanil_1
 
5 ejercicios de correlación
5 ejercicios de correlación5 ejercicios de correlación
5 ejercicios de correlación1010karen
 
Coeficiented e Correlacion Pearson y Spearman
Coeficiented e Correlacion Pearson y SpearmanCoeficiented e Correlacion Pearson y Spearman
Coeficiented e Correlacion Pearson y SpearmanJCMENESESV
 

Tendances (20)

Estadistica para la investigación (sesión6)
Estadistica para la investigación (sesión6)Estadistica para la investigación (sesión6)
Estadistica para la investigación (sesión6)
 
Serie de tiempo
Serie de tiempoSerie de tiempo
Serie de tiempo
 
5 regresion y correlacion
5 regresion y correlacion5 regresion y correlacion
5 regresion y correlacion
 
Análisis de Correlacion Lineal
Análisis de Correlacion LinealAnálisis de Correlacion Lineal
Análisis de Correlacion Lineal
 
Revista ent #2 densidades probabilisticas
Revista ent #2   densidades probabilisticasRevista ent #2   densidades probabilisticas
Revista ent #2 densidades probabilisticas
 
Correlacion de Pearson
Correlacion de PearsonCorrelacion de Pearson
Correlacion de Pearson
 
Tarea 1 correlación y regresión lineal
Tarea 1 correlación y regresión linealTarea 1 correlación y regresión lineal
Tarea 1 correlación y regresión lineal
 
Correlacion
CorrelacionCorrelacion
Correlacion
 
Regresión Lineal
Regresión LinealRegresión Lineal
Regresión Lineal
 
ANALISIS DE CORRELACION
ANALISIS DE CORRELACIONANALISIS DE CORRELACION
ANALISIS DE CORRELACION
 
Box jenkins
Box jenkinsBox jenkins
Box jenkins
 
Exposición trabajo de spss
Exposición trabajo de spssExposición trabajo de spss
Exposición trabajo de spss
 
Correlacion lineal 2019
Correlacion lineal 2019Correlacion lineal 2019
Correlacion lineal 2019
 
Presentacion final estadistica
Presentacion final estadisticaPresentacion final estadistica
Presentacion final estadistica
 
Heterocedasticidad
HeterocedasticidadHeterocedasticidad
Heterocedasticidad
 
Concepto
ConceptoConcepto
Concepto
 
Correlación
CorrelaciónCorrelación
Correlación
 
Coeficiente de deteminacion clase
Coeficiente de deteminacion claseCoeficiente de deteminacion clase
Coeficiente de deteminacion clase
 
5 ejercicios de correlación
5 ejercicios de correlación5 ejercicios de correlación
5 ejercicios de correlación
 
Coeficiented e Correlacion Pearson y Spearman
Coeficiented e Correlacion Pearson y SpearmanCoeficiented e Correlacion Pearson y Spearman
Coeficiented e Correlacion Pearson y Spearman
 

Similaire à Regresión y correlación lineal simple

Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguezthomas669
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguezthomas669
 
Regresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión linealRegresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión linealmiguelescobarrivero
 
Metodo cualitativo de_analisis_graficos
Metodo cualitativo de_analisis_graficosMetodo cualitativo de_analisis_graficos
Metodo cualitativo de_analisis_graficosWilliam Bahoque
 
Trabajo investigación estadística
Trabajo investigación estadísticaTrabajo investigación estadística
Trabajo investigación estadísticaMarita Alvarez
 
Curso de-econometria-basica
Curso de-econometria-basicaCurso de-econometria-basica
Curso de-econometria-basicavestaoriginal
 
Econometriamoderna.pdf
Econometriamoderna.pdfEconometriamoderna.pdf
Econometriamoderna.pdfcarmenpando1
 
Monografia de matematica
Monografia de matematicaMonografia de matematica
Monografia de matematicatalitakumiluli
 
Tema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptxTema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptxosdalysmar
 
Unidad 3- paso 4 - Descripcion de la informacion.docx
Unidad 3- paso 4 - Descripcion de la informacion.docxUnidad 3- paso 4 - Descripcion de la informacion.docx
Unidad 3- paso 4 - Descripcion de la informacion.docxyency yasnith niño rosas
 
Tema 9.pdf
Tema 9.pdfTema 9.pdf
Tema 9.pdfRenanPM1
 
Paso 4 descripción de la información.
Paso 4 descripción de la información.Paso 4 descripción de la información.
Paso 4 descripción de la información.MarlyTenorio
 
Investigación tema 5
Investigación tema 5Investigación tema 5
Investigación tema 5CarmenAlonzo7
 
Metodos numericos1
Metodos numericos1Metodos numericos1
Metodos numericos1jennifer
 
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...JOSUEELIASLOPEZHERNA
 
Bueno de regresion lineal[1]
Bueno de regresion lineal[1]Bueno de regresion lineal[1]
Bueno de regresion lineal[1]EQUIPO7
 

Similaire à Regresión y correlación lineal simple (20)

Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguez
 
Regresión lineal multiple autores grillet montaño rodríguez
Regresión lineal multiple  autores grillet montaño rodríguezRegresión lineal multiple  autores grillet montaño rodríguez
Regresión lineal multiple autores grillet montaño rodríguez
 
Regresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión linealRegresión lineal,ajuste de curva,tipos de regresión lineal
Regresión lineal,ajuste de curva,tipos de regresión lineal
 
Metodo cualitativo de_analisis_graficos
Metodo cualitativo de_analisis_graficosMetodo cualitativo de_analisis_graficos
Metodo cualitativo de_analisis_graficos
 
Trabajo investigación estadística
Trabajo investigación estadísticaTrabajo investigación estadística
Trabajo investigación estadística
 
Regresion lineal simple
Regresion lineal simpleRegresion lineal simple
Regresion lineal simple
 
Curso de-econometria-basica
Curso de-econometria-basicaCurso de-econometria-basica
Curso de-econometria-basica
 
Econometriamoderna.pdf
Econometriamoderna.pdfEconometriamoderna.pdf
Econometriamoderna.pdf
 
Monografia de matematica
Monografia de matematicaMonografia de matematica
Monografia de matematica
 
Analisis grafico
Analisis graficoAnalisis grafico
Analisis grafico
 
Tema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptxTema IV Tecnicas de Pronostico Grupo 6.pptx
Tema IV Tecnicas de Pronostico Grupo 6.pptx
 
Unidad 3- paso 4 - Descripcion de la informacion.docx
Unidad 3- paso 4 - Descripcion de la informacion.docxUnidad 3- paso 4 - Descripcion de la informacion.docx
Unidad 3- paso 4 - Descripcion de la informacion.docx
 
Tema 9.pdf
Tema 9.pdfTema 9.pdf
Tema 9.pdf
 
gráficas lineales
gráficas linealesgráficas lineales
gráficas lineales
 
Paso 4 descripción de la información.
Paso 4 descripción de la información.Paso 4 descripción de la información.
Paso 4 descripción de la información.
 
Investigación tema 5
Investigación tema 5Investigación tema 5
Investigación tema 5
 
Regresion estadistica
Regresion estadisticaRegresion estadistica
Regresion estadistica
 
Metodos numericos1
Metodos numericos1Metodos numericos1
Metodos numericos1
 
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...
CLASE 1 Conceptos de interpolación y ajuste de curvas METODO DE MINIMOS CUADR...
 
Bueno de regresion lineal[1]
Bueno de regresion lineal[1]Bueno de regresion lineal[1]
Bueno de regresion lineal[1]
 

Plus de Victor Jurado Mamani (11)

Ar843s
Ar843sAr843s
Ar843s
 
Data pmax
Data pmaxData pmax
Data pmax
 
Anotaciones
AnotacionesAnotaciones
Anotaciones
 
Isoclinasycamposdirecciones 130307132412-phpapp02
Isoclinasycamposdirecciones 130307132412-phpapp02Isoclinasycamposdirecciones 130307132412-phpapp02
Isoclinasycamposdirecciones 130307132412-phpapp02
 
4.globalizacion
4.globalizacion4.globalizacion
4.globalizacion
 
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
Pdf impacto-ecomonico-de-actividad-minera-en-el-peru-junio-2012
 
Impacto ambiental
Impacto ambientalImpacto ambiental
Impacto ambiental
 
Timoshenko resistencia-de-materiales-tomo-ii
Timoshenko resistencia-de-materiales-tomo-iiTimoshenko resistencia-de-materiales-tomo-ii
Timoshenko resistencia-de-materiales-tomo-ii
 
Ad2 tema3-12
Ad2 tema3-12Ad2 tema3-12
Ad2 tema3-12
 
____ccgg u
  ____ccgg u  ____ccgg u
____ccgg u
 
Puntofijo
PuntofijoPuntofijo
Puntofijo
 

Dernier

PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2Eliseo Delgado
 
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfFichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfssuser50d1252
 
Desarrollo de habilidades del siglo XXI - Práctica Educativa en una Unidad-Ca...
Desarrollo de habilidades del siglo XXI - Práctica Educativa en una Unidad-Ca...Desarrollo de habilidades del siglo XXI - Práctica Educativa en una Unidad-Ca...
Desarrollo de habilidades del siglo XXI - Práctica Educativa en una Unidad-Ca...Carol Andrea Eraso Guerrero
 
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOCUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOEveliaHernandez8
 
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...YobanaZevallosSantil1
 
PPT_ Prefijo homo tema para trabajar los prefijos en razonamiento verbal
PPT_ Prefijo homo tema para trabajar los prefijos en razonamiento verbalPPT_ Prefijo homo tema para trabajar los prefijos en razonamiento verbal
PPT_ Prefijo homo tema para trabajar los prefijos en razonamiento verbalRosarioChoque3
 
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...GIANCARLOORDINOLAORD
 
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADO
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADOPLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADO
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADOMARIBEL DIAZ
 
Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024Rosabel UA
 
Amor o egoísmo, esa es la cuestión por definir.pdf
Amor o egoísmo, esa es la cuestión por definir.pdfAmor o egoísmo, esa es la cuestión por definir.pdf
Amor o egoísmo, esa es la cuestión por definir.pdfAlejandrino Halire Ccahuana
 
NUEVO PLAN Y PROGRAMAS DE ESTUDIO 2022.pdf
NUEVO PLAN Y PROGRAMAS DE ESTUDIO  2022.pdfNUEVO PLAN Y PROGRAMAS DE ESTUDIO  2022.pdf
NUEVO PLAN Y PROGRAMAS DE ESTUDIO 2022.pdfEDNAMONICARUIZNIETO
 
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdfBITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdfsolidalilaalvaradoro
 
Si cuidamos el mundo, tendremos un mundo mejor.
Si cuidamos el mundo, tendremos un mundo mejor.Si cuidamos el mundo, tendremos un mundo mejor.
Si cuidamos el mundo, tendremos un mundo mejor.monthuerta17
 
El PROGRAMA DE TUTORÍAS PARA EL APRENDIZAJE Y LA FORMACIÓN INTEGRAL PTA/F
El PROGRAMA DE TUTORÍAS PARA EL APRENDIZAJE Y LA FORMACIÓN INTEGRAL PTA/FEl PROGRAMA DE TUTORÍAS PARA EL APRENDIZAJE Y LA FORMACIÓN INTEGRAL PTA/F
El PROGRAMA DE TUTORÍAS PARA EL APRENDIZAJE Y LA FORMACIÓN INTEGRAL PTA/FJulio Lozano
 
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfFichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfssuser50d1252
 
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdfPRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdfGabrieldeJesusLopezG
 
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.karlazoegarciagarcia
 

Dernier (20)

PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
PÉNSUM ENFERMERIA 2024 - ECUGENIUS S.A. V2
 
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfFichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
 
Desarrollo de habilidades del siglo XXI - Práctica Educativa en una Unidad-Ca...
Desarrollo de habilidades del siglo XXI - Práctica Educativa en una Unidad-Ca...Desarrollo de habilidades del siglo XXI - Práctica Educativa en una Unidad-Ca...
Desarrollo de habilidades del siglo XXI - Práctica Educativa en una Unidad-Ca...
 
¿Amor o egoísmo? Esa es la cuestión.pptx
¿Amor o egoísmo? Esa es la cuestión.pptx¿Amor o egoísmo? Esa es la cuestión.pptx
¿Amor o egoísmo? Esa es la cuestión.pptx
 
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOCUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
 
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...
 
PPT_ Prefijo homo tema para trabajar los prefijos en razonamiento verbal
PPT_ Prefijo homo tema para trabajar los prefijos en razonamiento verbalPPT_ Prefijo homo tema para trabajar los prefijos en razonamiento verbal
PPT_ Prefijo homo tema para trabajar los prefijos en razonamiento verbal
 
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
 
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADO
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADOPLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADO
PLAN DE TUTORIA- PARA NIVEL PRIMARIA CUARTO GRADO
 
Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024
 
Amor o egoísmo, esa es la cuestión por definir.pdf
Amor o egoísmo, esa es la cuestión por definir.pdfAmor o egoísmo, esa es la cuestión por definir.pdf
Amor o egoísmo, esa es la cuestión por definir.pdf
 
NUEVO PLAN Y PROGRAMAS DE ESTUDIO 2022.pdf
NUEVO PLAN Y PROGRAMAS DE ESTUDIO  2022.pdfNUEVO PLAN Y PROGRAMAS DE ESTUDIO  2022.pdf
NUEVO PLAN Y PROGRAMAS DE ESTUDIO 2022.pdf
 
Aedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptxAedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptx
 
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdfBITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
BITÁCORA DE ESTUDIO DE PROBLEMÁTICA. TUTORÍA V. PDF 2 UNIDAD.pdf
 
Si cuidamos el mundo, tendremos un mundo mejor.
Si cuidamos el mundo, tendremos un mundo mejor.Si cuidamos el mundo, tendremos un mundo mejor.
Si cuidamos el mundo, tendremos un mundo mejor.
 
El PROGRAMA DE TUTORÍAS PARA EL APRENDIZAJE Y LA FORMACIÓN INTEGRAL PTA/F
El PROGRAMA DE TUTORÍAS PARA EL APRENDIZAJE Y LA FORMACIÓN INTEGRAL PTA/FEl PROGRAMA DE TUTORÍAS PARA EL APRENDIZAJE Y LA FORMACIÓN INTEGRAL PTA/F
El PROGRAMA DE TUTORÍAS PARA EL APRENDIZAJE Y LA FORMACIÓN INTEGRAL PTA/F
 
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfFichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
 
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdfPRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdf
 
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.ENSEÑAR ACUIDAR  EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
ENSEÑAR ACUIDAR EL MEDIO AMBIENTE ES ENSEÑAR A VALORAR LA VIDA.
 
El Bullying.
El Bullying.El Bullying.
El Bullying.
 

Regresión y correlación lineal simple

  • 1. TEMA 4: REGRESIÓN Y CORRELACIÓN. 4.1. Regresión y correlación lineal simple.................................................. 1 4.2. El método de los mínimos cuadrados y las ecuaciones normales. ........ 3 4.3. Regresión lineal: recta de regresión (mínimos cuadrados). ................. 4 4.3.1. Propiedades de las rectas de regresion. ........................................ 6 4.4. Regresión no lineal. ............................................................................. 6 4.4.1. Ajuste parabólico........................................................................... 6 4.4.2. Ajuste Hiperbólico. ........................................................................ 7 4.4.3. Ajuste Exponencial. ....................................................................... 8 4.4.4. Ajuste Potencial............................................................................. 8 4.5. El coeficiente de determinación correlación. El coeficiente de correlación lineal. ..................................................................................... 10 4.5.1. La varianza residual. Coeficiente de determinación. .................... 10 4.5.2. Valores del coeficiente de determinación. ................................... 12 4.5.3. Valores del coeficiente de correlación lineal: Posiciones relativas de las rectas de regresión. .................................................................... 12 4.6. Predicción.......................................................................................... 15 4.1. Regresión y correlación lineal simple. Uno de los objetivos de toda ciencia es encontrar relaciones entre los hechos que estudia. Estas relaciones se traducen en expresiones matemáticas. Así si observamos varias veces el tiempo que tarda un móvil en recorrer una distancia y su velocidad (supuesto que se desplaza con velocidad uniforme), los valores observados están claramente relacionados y esa relación puede expresarse matemáticamente como v = s / t (v t = s). No obstante, existen otras variables como inflación y tipo de interés, oferta y demanda, ahorro y renta, etc., entre las que no cabe duda de que existe una relación, pero no existe una función matemática que verifiquen rigurosamente. Pues bien en el primero de los casos (tiempo y velocidad) diremos que existe una dependencia funcional, y en el segundo (inflación y tipo de interés) una dependencia estadística. La diferencia es que en la primera la relación entre las variables es estricta y perfecta, y en la segunda el modelo matemático al que lleguemos deberá aproximar la relación entre variables razonablemente, por lo que deberemos determinar su forma y contrastar su “bondad”. Las dependencias de tipo estadístico, son muy frecuentes en economía, y en general en todas las ciencias sociales. A las técnicas estadísticas utilizadas para determinar modelos o expresiones que relacionen el comportamiento de varias variables se les denomina técnicas de regresión. Previamente a la aplicación de técnicas de regresión, se requiere un análisis teórico, que relacione las variables objeto de estudio, que de consistencia al análisis estadístico: Este análisis es necesario porque es posible distinguir distintos tipos de dependencia entre variables: A) Al azar: a la vista de la información disponible se plantea una relación absurda entre variables. Ejemplo: los ciclos económicos y las manchas solares: Una de las teorías cíclicas mas atrevidas fue puesta sobre la mesa por Stanley Jewons a finales del siglo xix; esta (avanzada) teoría atribuía las causas ultimas del desarrollo de los ciclos económicos a la evolución de las manchas solares. DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 1-15
  • 2. TEMA 4: REGRESIÓN Y CORRELACIÓN. A este respecto jewons hizo notar que el sol tiene unos ciclos de actividad que, cuando están en su fase álgida, generan un mayor numero de manchas solares que inducen alteraciones meteorológicas en latierra; estos ciclos de actividad solar que – según lo calculado – tenían una duración media de 10,45 años y precisamente la misma duración media (10,46 años) que los ciclos económicos habidos entre 1.721 y 1.878, de acuerdo conlos cálculos de Jewons. Obviamente tal coincidencia en cuanto a la dimensión temporal de estos fenómenos, se debe a la casualidad, ya que la correlación, no tiene por que implicar necesariamente causalidad. Sin embargo Jewons pensó que la correlación entre los dos ciclos era demasiado estrecha para ser accidental, y en función de ello sugirió la causalidad generadora de los ciclos, es decir la evolución de la actividad solar, determinaría la evolución de la actividad económica. B) Una tercera variable influye sobre las dos variables consideradas: cuando dos variables se ponen en dependencia, se supone que una explicara el comportamiento de la otra, pero es posible que exista una tercera variable, que actúe como motor de esa relación. Así es evidente la relación entre consumo y ahorro de las familias, pero ello no implica que una explique la otra, ya que es una tercera variable (la renta), la que determina su relación. (no hay relación causa-efecto entre las dos primeras variables consideradas). C) Una variable influye en la otra: así por ejemplo el gasto en carne de una familia vendrá determinado (aunque no de modo exclusivo) por el numero de miembros de la unidad familiar. Si dos variables presentan una dependencia estadística, es decir, no funcional, no es posible encontrar una ecuación, tal que los valores que puedan presentar dichas variables la satisfagan. Gráficamente, equivale al hecho de que no es posible encontrar una función, tal que su grafica pase por todos los puntos correspondientes al diagrama de dispersión asociado a las variables observadas. 35 3 EDAD 30 25 1 20 15 10 5 0 30 40 50 60 2 70 80 90 100 PESO *el diagrama de dispersión consiste en representar gráficamente nuestros pares de observaciones (xi , yi). Representaremos en el eje de abcisas los posibles valores de una variable(x), en el eje de ordenada los posibles valores de la otra variable (y). Los puntos del grafico serán las intersecciones (xi , yi) obtenidas de nuestras observaciones. Al conjunto de puntos obtenido se le denomina nube de puntos. Ante la imposibilidad de encontrar una grafica que pase por todos los puntos de la nube, la función cuya grafica más se aproxime a los datos observados expresara mejor la relación entre los mismos. En nuestro ejemplo la función grafica (1) DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 2-15
  • 3. TEMA 4: REGRESIÓN Y CORRELACIÓN. expresa mejor la relación que la (2), pero si tenemos que decidir entre la (1) y la (3), la elección no seria tan elemental. Esto indica que el método grafico puede ser de gran ayuda, pero no es suficiente para determinar la mejor función, por ello recurriremos a métodos matemáticos, que no dependan de opiniones subjetivas. A la variable que se quiere predecir se le denomina dependiente o endógena y a la variable a partir de la cual queremos hacer la predicción, se le llama independiente, exógena o explicativa. Cuando solo utilicemos una variable independiente, estaremos ante la regresión y correlación simple. Si interviene más de una la regresión o correlación se denomina múltiple. Una de las aplicaciones mas interesantes de la regresión en economía es la de predecir, esto es, conociendo el valor de una de las variables, estimar el valor que presentara otra variable relacionada con la primera. Hay que advertir, que una relación estadística fuerte entre variables, no implica la existencia de una relación causa-efecto entre ellas. Por ejemplo existe una fuerte correlación entre el número de burros (de 4 patas) y el número de licenciados universitarios. Ello es fruto de la dependencia común de ambas variables de una tercera variable (el desarrollo económico industrial), sin que en ningún caso podamos afirmar que una es causa de la otra. 4.2. El método de los mínimos cuadrados y las ecuaciones normales. EDAD Hacer regresión, consiste en ajustar lo mejor posible una función a una serie de valores observados, gráficamente equivale a encontrar una curva (recta) que aunque no pase por todos los puntos de la nube, al menos este lo mas próxima posible a ellos. Supongamos que para poder predecir “y” en base al conocimiento de “x”, se ha ajustado una función que expresa de la mejor forma posible el comportamiento de “Y” en función de “X” (Y = f(X)): y=f(x) 35 30 25 20 15 10 5 0 30 40 50 60 70 80 90 100 PESO Pues bien utilizando la mencionada función, pronosticaríamos que si X= xi entonces ˆ la variable Y tendría una valor esperado y i = f ( x i ) . Este valor posiblemente no coincidirá con el que realmente ha presentado la variable Y, yi, de manera que en dicha predicción se habrá cometido un error; ˆ ei = y i − y i DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 3-15
  • 4. TEMA 4: REGRESIÓN Y CORRELACIÓN. Esta diferencia se denomina residuo, y nos da una medida del error cometido en el ajuste para cada punto del diagrama de dispersión. Un criterio para obtener un buen ajuste que evite que se compensen residuos de signo positivo con residuos de signo negativo y que sea manejable (algebraicamente), seria minimizar la suma de los cuadrados de los residuos, es decir, hacer mínima la suma: n n n i =1 i =1 i =1 ˆ ∑ ei2 = ∑ ( yi − yi ) 2 = ∑ ( yi − f ( xi )) 2 Este criterio de minimizar la suma de cuadrados es el conocido como criterio de mínimos cuadrados. Se puede observar que el desarrollo anterior consiste en la búsqueda de un procedimiento para medir la distancia de un conjunto finito de puntos a una curva. Las funciones que se ajustan con más frecuencia y sus ecuaciones generales, son: Recta: y = ax + b Parábola: y = a + bx + cx2 Polinomio de grado n : y = a + bx + cx2 + dx3 + ... + zxn Hipérbola equilátera: y = a + b/x Función potencial: y =axb Función exponencial: y = abx Curva logística: y = a/(1 + be-cx) Exponencial modificada: y = a + be cx Si la función es una recta, la regresión se denomina lineal. 4.3. Regresión lineal: recta de regresión (mínimos cuadrados). Vamos a encontrar entre todas las rectas, cuya ecuación general es y = a + bx, cual es la que según el método de mínimos cuadrados mejor se ajusta a los datos observados para una variable bidimensional (x, y). Conocido el valor xi de la variable X, el valor esperado de y será: ˆ y i = a +bxi, cometiéndose un error respecto del valor observado de ei = yi – a – bxi. El método de mínimos cuadrados, en el caso de la recta, trata de encontrar los coeficientes a y b que hagan mínima la expresión: S ( a, b ) = Σ ei2 = Σ( yi – a – bxi )2 Para que exista un mínimo en el punto (a0, b0) la condición necesaria, es que se anulen las derivadas parciales de primer orden en dicho punto, es decir: δS ( a0 , b0 ) = - 2 Σ( yi – a – bxi ) = 0 δa (1) δS( a0 , b0 ) = - 2 Σ( yi – a – bxi ) xi = 0 δb (2) DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 4-15
  • 5. TEMA 4: REGRESIÓN Y CORRELACIÓN. A las dos ecuaciones anteriores (1) y (2), se les denomina ecuaciones normales de la recta, y la solución del sistema que forman (sistema de 2 ecuaciones con dos incógnitas) será un punto (a0, b0) donde S(a,b) se hace mínima. Este sistema también lo podemos escribir como: Σ yi = n a + b Σxi Σ yi xi = a Σxi+ b Σxi2 Vamos a despejar los valores de a y b solución del sistema. Para ello dividimos las dos ecuaciones por n y nos encontramos con: ⎧ y = a + bx ⎨ ⎩a11 = ax + ba X 2 Despejando “a” de la primera ecuación: a = y − bx Y sustituyendo en la segunda ecuación: 2 a11 = ( y − bx ) x + ba X 2 = yx − bx 2 + ba X 2 = yx + b(a X 2 − x 2 ) = yx + bS X Si ahora despejamos “b” en esta expresión, tenemos; b= a11 − yx S XY = 2 2 SX SX Pues bien, si sustituimos los valores a y b que hemos calculado en la ecuación general de la recta (y=a+bx), obtenemos; y = (y − S S XY x ) + XY x 2 2 SX SX Que podemos expresar como; y− y = S XY (x − x) 2 SX A la expresión dentro del recuadro se le llama recta de regresión de Y/X. De modo análogo podríamos haber obtenido la recta de regresión de X/Y llegando a una expresión de la forma; DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 5-15
  • 6. TEMA 4: REGRESIÓN Y CORRELACIÓN. x−x = S XY ( y − y) S Y2 De las ecuaciones de las dos rectas de regresión se deduce que ambas pasan por el punto ( x , y ) , pudiéndose dar dos alternativas: que coincidan (sus pendientes deberán ser iguales) o que se corten solo en dicho punto. 4.3.1. Propiedades de las rectas de regresion. Propiedad 1: la suma de los residuos ei vale 0 (y por tanto su media también), esto es: Demostración: Σ ei = 0 Σ ei = Σ( yi – a – bxi ) = Σ yi - Σ a – b Σ xi= Σ yi - n a – b Σ xi = 0 Ya que a y b son solución de la primera ecuación del sistema. Propiedad 2: Si la dependencia existente entre las dos variables es funcional, las dos rectas de regresión son coincidentes. Propiedad 3: La covarianza de las variables Y y e vale 0. Sey= 0 Sey = a11 –a01 a10, y sabemos por la propiedad 1 que a10= 0, entonces bastará demostrar que a11 = 0 (sin demostración). 4.4. Regresión no lineal. Aunque la regresión lineal, tiene aplicación en muchos problemas, en algunos casos, la relación que liga las variables exige la utilización de ajustes no lineales. No obstante incluso en estas ultimas situaciones, por su sencillez, suele aplicarse la regresión lineal aprovechando el que casi toda función (curva) puede aproximarse por una recta en un pequeño dominio. 4.4.1. Ajuste parabólico. Si predecimos la variable y mediante una parábola de ecuación general y = a + b x + c x2 el valor esperado será: ˆ y i = a + b xi + c xi 2 ˆ Y el error cometido será: ei = yi - y i = yi – a - b xi - c xi 2. El método de mínimos cuadrados nos conduce a la parábola que hace mínima la función: S( a, b, c ) = Σ ei2 = Σ( yi – a – bxi - c xi 2)2 DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 6-15
  • 7. TEMA 4: REGRESIÓN Y CORRELACIÓN. Para que esa función suma S(a,b,c,) alcance un mínimo, sus derivadas parciales deberán valer 0: (1) (2) (3) δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi 2) = 0 δa δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi δb δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi 2 2 ) xi = 0 ) xi2 = 0 δc Si dividimos las tres ecuaciones (sistema de ecuaciones normales) por n obtenemos un sistema de tres ecuaciones con tres incógnitas, cuya resolución nos proporcionara los coeficientes a, b, y c de nuestra parábola de ajuste: y = a + b x + c a20 a11 = a x + b a20+ c a30 a21 = a a20 + b a30+ c a40 Este tipo de ajuste se utiliza por ejemplo en microeconomía para la curva de costes marginales en función del volumen de producción (que tiene forma de “U”). Este ajuste se puede generalizar, si queremos ajustar por un polinomio de grado superior a 2, que tendrá una expresión general: y = b0 + b1 x + b2 x2 +.....+ bn xn El método de mínimos cuadrados nos conducirá a un sistema similar al anterior, pero con n ecuaciones y n incógnitas, cuya resolución nos proporcionara los valores de b0, b1, b2,....., bn 4.4.2. Ajuste Hiperbólico. Si predecimos la variable y mediante una hipérbola de ecuación general: y = a + b (1/x) El valor esperado será: ˆ yi = a + b (1/xi ) Y el error cometido será: ei = yi - ˆ y i = yi – a – b (1/ xi). El método de mínimos cuadrados nos conduce a la hipérbola que hace mínima la función: S( a, b ) = Σ ei2 = Σ( yi – a – b(1/xi ))2 Ahora podemos razonar de forma alternativa a la empleada hasta ahora definiendo la variable z = 1 /x con lo que transformamos la hipérbola en la recta y = a + bz obteniendo un sistema de ecuaciones normales: Σ yi = n a + b Σ(1/xi ) Σ yi (1/xi )= a Σ(1/xi )+ b Σ(1/xi2) DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 7-15
  • 8. TEMA 4: REGRESIÓN Y CORRELACIÓN. Que resolveremos de modo análogo al realizado en el ajuste lineal. Esta es una manera alternativa, pero podíamos haber efectuado el mismo razonamiento que para el ajuste parabólico. La curva de Engel que expresa la demanda de un bien en función de la renta, adopta en ocasiones la forma de una hipérbola equilátera. 4.4.3. Ajuste Exponencial. Si predecimos la variable y mediante una exponencial de ecuación general: y = a ebx El valor esperado será: ˆ y i = ae bx bx ˆ Y el error cometido será: ei = y i − y i = y i − ae i i Al igual que en el caso anterior tenemos dos alternativas: Bien obtener el mínimo de la función: S( a, b ) = Σ ei2 = Σ( yi – a – ebx )2 (Este método nos conduce a un sistema de ecuaciones imposible de resolver). O bien transforma la función exponencial en una función lineal. Esto se hace tomando logaritmos en la ecuación general. Nos decantamos por este procedimiento: Lny = Ln(ae bx ) = Lna + Lne bx = Lna + bx Llamando: Y = ln y ; A = ln a ; b=b ; x=x Podemos presentar la ecuación: Y=A+bx Cuyo sistema de ecuaciones normales seria: Σ ln yi = n Lna + b Σxi Σ xi ln yi = Lna Σxi + b Σxi2 4.4.4. Ajuste Potencial. Si predecimos la variable y mediante una potencial de ecuación general y = a xb el valor esperado será: Y el error cometido será: ei = ˆ y i = ax ib ˆ y i − y i = y i − ax ib Nuevamente tenemos dos alternativas: DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 8-15
  • 9. TEMA 4: REGRESIÓN Y CORRELACIÓN. A) Hacer mínima la suma de los cuadrados de los residuos (da lugar a un sistema de ecuaciones que no podemos resolver). B) Transformar la función en una función lineal (tomando logaritmos): Ln y =ln( a xb) = ln a + b lnx Llamando: Y = ln y ; A = ln a ; b=b ; X = ln x Podemos presentar la ecuación: Y=A+bX Cuyo sistema de ecuaciones normales seria: Σ ln yi = n Ln a + b Σln xi Σ lnxi ln yi = Lna Σlnxi + b Σ(ln xi)2 Ejercicio: ajustar a una función potencial y a una función exponencial, los siguientes datos: 2 4 3 1 Xi Yi 6 5 1 3 Para ajustar a una función potencial: A) y = a xb ⇒ ln y = ln a + b ln x⇒ Y= A + b X Para ajustar a una función exponencial: B) y = a ebx ⇒ ln y = ln a + bx ⇒ Y = A + b x Ampliamos nuestra tabla con los datos que faltan: Yi Ln xi Ln yi Lnxiln yi Xi ln yi Xi 2 6 0.693 1.79 1.24 3.58 4 5 1.386 1.61 2.23 6.44 3 1 1.099 0 0 0 1 3 0 1.099 0 1.099 10 Sumas 3.178 4.5 3.47 11.119 Xi2 4 16 9 1 30 (ln xi)2 0.48 1.92 1.21 0 3.61 a) FUNCION POTENCIAL: SLn x Ln y Ln x Ln y B = b = ------- = -0.0967 ; A= Ln a = Ln y- ------- Ln x = 1.202;a = Exp A=3.326 S2 Ln x S2 Ln x SUSTITUYENDO ESTOS COEFICIENTES EN y = a xb TENEMOS NUESTRA FUNCION DE AJUSTE POTENCIAL: Y = 3.326 X-0.0967 b) FUNCION EXPONENCIAL: S x Ln y Sx Ln y B = b = ------- = -0.0262 ; A= Ln a = Ln y - ------ x = 1.190 S2 x S2x a = Exp A=3.289 DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 9-15
  • 10. TEMA 4: REGRESIÓN Y CORRELACIÓN. SUSTITUYENDO ESTOS COEFICIENTES EN y = a ebx TENEMOS NUESTRA FUNCION DE AJUSTE EXPONENCIAL: Y = 3.289 e-0.0262 X 4.5. El coeficiente correlación lineal. de determinación correlación. El coeficiente de Antes de enunciar y describir brevemente otras formas de ajuste deberemos plantearnos lo siguiente: La regresión nos permite ajustar una nube de puntos a una recta (ajuste lineal) o curva (ajuste no lineal), lo que equivale a conocer la forma en la que se relacionan las variables. De otra manera, la regresión determina la mejor de las rectas o curvas establece una relación entre dos variables, pero el hecho de que sea la mejor posible, no quiere decir que sea “buena” (puede ocurrir que los errores que estemos cometiendo sean elevados), ya que es posible que exista otra función matemática que modelice mejor la relación entre las variables. Por tanto tan importante será conocer la forma en que se relacionan las variables (de eso se ocupa la regresión), como conocer el grado de asociación/dependencia de dichas variables (de esto se ocupa la correlación), y encontrar alguna medida o coeficiente que nos mida el grado de bondad o de representatividad de la relación que hemos establecido mediante técnicas de regresión. 4.5.1. La varianza residual. Coeficiente de determinación. El método de mínimos cuadrados toma como medida del error que se comete, cuando ajustamos a una curva/recta, la suma de los residuos al cuadrado: n ∑e i =1 n 2 i n i =1 i =1 ˆ = ∑ ( y i − y i ) 2 = ∑ ( y i − f ( xi )) 2 Esa cantidad dividida por n se utiliza como medida de la bondad del ajuste. En el caso de funciones lineales (recta, parábola, hipérbola, etc.), la media de los residuos es 0(propiedad 1), por lo que la suma de los cuadrados de los residuos dividida por n no es otra cosa que la varianza de la variable “e”y se denomina varianza residual: n ∑ ei2 i =1 n n = ∑ (e i =1 i − e) n = S e2 Veamos el significado de esta varianza residual: DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 10-15
  • 11. TEMA 4: REGRESIÓN Y CORRELACIÓN. 2 2 ˆ ˆ e i = y i − y i ⇒ y i = y i + ei ⇒ S y = S y + S e2 ˆ El primer sumando a la derecha de la igualdad se denomina varianza explicada por la regresión y nos indica en qué medida queda explicada la variable dependiente (y) mediante el modelo de ajuste, pudiéndose interpretar el segundo sumando -que es la varianza residual- como una medida de lo que queda sin explicar después de haber efectuado la regresión. Esta varianza residual presenta el problema de determinar a partir de que valores es suficientemente pequeña o grande como para admitir un buen o mal ajuste: la respuesta a este interrogante nos la dará el coeficiente de determinación R2. R = 2 2 Sy ˆ = 2 Sy 2 S y − S e2 2 Sy = 1− S e2 2 Sy Antes de estudiar el rango de variación de este coeficiente, veamos una forma cómoda de calcular se 2 para el caso particular de un ajuste lineal: n n n 2 ∑ y i − a ∑ y i − b ∑ xi y i R = 2 2 Sy ˆ 2 Sy = 2 S y − S e2 2 Sy = 2 S y − i =1 i =1 i =1 n 2 Sy Si sustituimos a y b por sus valores: a = y − bx ; b = S xy S x2 y tenemos en cuenta que: n ∑y i =1 n 2 i n ∑x y n =S +y 2 y 2 ∑ yi i =1 ; n =y i i =1 ; n i = S xy + x y Tenemos que: n R2 = 2 Sy ˆ S 2 y = 2 S y − S e2 S 2 y S − = 2 y ∑ y i2 − ( y − i =1 S XY 2 SX n x )∑ y i − i =1 n S 2 y S XY 2 SX n ∑x y i =1 i i = ⎡ ⎤ S S S S S 2 S y − ⎢( S Y2 + y 2 ) − ( y − XY x ) y − XY ( S xy + x y )⎥ − XY x y + XY S xy + XY x y ) 2 2 2 2 2 SX SX SX SX SX ⎣ ⎦ = = 2 2 Sy Sy ⎛ S = ⎜ XY 2 2 S X SY ⎜ S X SY ⎝ 2 S XY ⎞ ⎟ ⎟ ⎠ 2 DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 11-15
  • 12. TEMA 4: REGRESIÓN Y CORRELACIÓN. A S xy SxS y se le denomina coeficiente de correlación lineal y se denota con la letra “r”: r= S xy Sx Sy Por tanto, en el caso (y únicamente en este caso) de un ajuste lineal, se tiene que: R2 = r 2 4.5.2. Valores del coeficiente de determinación. El coeficiente de determinación toma valores entre 0 y 1; • Toma el valor “0” cuando la regresión no explica nada de la variabilidad de los valores observados y por tanto el ajuste obtenido no modeliza adecuadamente (ni siquiera minimamente) la relación entre variables. R = 2 • S yˆ2 S 2 y = 0 ⇒ S yˆ2 = 0 ⇔ S y2 = S e2 Toma el valor “1” cuando el ajuste efectuado recoge toda la variabilidad de la variable original, y por tanto el ajuste es perfecto. R = 2 • 0 ≤ R2 ≤ 1 S yˆ2 S 2 y = 1 ⇒ S yˆ2 = S y2 ⇒ S e2 = 0 Para valores entre “0” y “1”, el ajuste es tanto mejor cuanto más se aproxima a 1 el coeficiente de determinación. Los ajustes se consideran razonables cuando R ≥ 0,75 . 2 4.5.3. Valores del coeficiente de correlación lineal: Posiciones relativas de las rectas de regresión. El coeficiente de correlación lineal puede utilizarse como medida alternativa al coeficiente de determinación para evaluar la bondad del ajuste exclusivamente en el caso de regresión lineal. Veamos las posiciones relativas de las rectas de regresión de Y/X y de X/Y y su relación con los valores del coeficiente de correlación lineal. Dado que el coeficiente de correlación lineal se define como: r= Podemos asegurar que: S xy Sx Sy con R2 = r 2 0 ≤ r 2 ≤ 1 ⇒ −1 ≤ r ≤ 1 DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 12-15
  • 13. TEMA 4: REGRESIÓN Y CORRELACIÓN. A) Cuando r = 0, esto supone únicamente que no existe relación lineal alguna entre x e y, sin embargo pueden estar estrechamente ligadas de acuerdo con otro tipo de función por ejemplo x2 + y2 = 1(ver figura). Y/X X/Y Conclusión: por tanto cuando r = 0 el ajuste lineal no será el indicado. Esta conclusión y la exposición son también aplicables al ajuste hiperbólico, considerando en lugar de las variables x e y, las variables z e y, siendo z = 1/x. B) r = ±1. Cuando r = ±1, ⇒ r2 = 1, entonces la varianza residual s2e=0 Esto implica que todos los errores o residuos son nulos y que las rectas de regresión pasan por todos los puntos que se han observado. Por tanto las dos rectas coinciden. Si r=1 la pendiente de las rectas será positiva y si r=-1 la pendiente de las rectas será negativa (ver figura). r = 1(corr.perfecta +) r = -1(corr.perfecta -) C) –1 < r < 0 ó 0 < r < 1. Estas situaciones intermedias serán las que mas veces se presenten en la práctica. A medida que r se aleja de 0 mejor será el ajuste por una recta de mínimos cuadrados. NOTAS: * Si consideramos las rectas de regresión Y / X ≡ Y = aX + b y X / Y ≡ X = cY + d sus pendientes son respectivamente a = S xy 2 Sx ;c = S xy 2 Sy y por tanto el coeficiente de correlación lineal al cuadrado viene determinado como el producto de las pendientes de las dos recta de regresión: DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 13-15
  • 14. TEMA 4: REGRESIÓN Y CORRELACIÓN. ⎛ S xy r =⎜ ⎜S S ⎝ x y 2 2 ⎞ S S ⎟ = xy xy = bc 2 2 ⎟ Sx Sy ⎠ ( ) * Ambas rectas se cortan en el punto x, y . Es decir las dos rectas de regresión siempre se cortan y lo hacen en ese punto: y x * Las dos rectas tienen pendientes con el mismo signo por lo que no es posible la siguiente situación: y x * Si las variables son independientes su covarianza valdrá 0 y por tanto las dos rectas de regresión serán de la forma: Y / X ≡ y = y y X / Y ≡ x = x y x * Bondad del ajuste de la parábola. Debido a que la recta es un caso particular de parábola (la parábola tiene por ecuación y = a + bx +cx2 .la recta es el caso particular cuando c = 0), se obtendrán siempre mejores ajustes mediante parábolas que mediante funciones lineales (rectas), siendo el coeficiente de determinación para la parábola siempre mayor que el de la recta (recordemos que en la recta r2 = R2). DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 14-15
  • 15. TEMA 4: REGRESIÓN Y CORRELACIÓN. Por este mismo razonamiento puede pensarse que considerando polinomios de mayor grado se consiguen mejores ajustes (recordemos que la parábola es un polinomio de grado 2). Pero no debe pensarse que simplemente con incrementar el orden del polinomio de ajuste se puede llegar a obtener un ajuste tan bueno como se quiera. La bondad del ajuste dependerá del mayor o menor grado de asociación entre las variables en estudio, si estas no presentan apenas relación (de cualquier tipo) no podremos encontrar funciones que ajusten bien los datos observados. 4.6. Predicción. Como ya indicamos, la predicción es una de las aplicaciones más importantes de la regresión. La predicción consiste en determinar(a partir del modelo ajustado), el valor de la variable dependiente para un valor dado de la variable independiente. Cuando la estimación/predicción se hace para un valor de la variable independiente dentro del rango de nuestras observaciones se denomina interpolación y si se hace para un valor de la variable fuera del rango se denomina extrapolación. Para la interpolación la fiabilidad de los valores pronosticados será tanto mayor cuanto mejor sea el ajuste (cuanto mayor sea R2), en el supuesto, claro esta, de que exista relación/asociación entre las variables. Cuando hacemos predicciones para valores de la variable muy alejados del rango de variación de la variable independiente, se corre el riesgo de que el modelo ajustado no sea valido para dichos valores en la medida dada por R2. Bibliografía básica * Mª Angeles palacios, Fernando A. López Hernández , José García Córdoba y Manuel Ruiz Marín. “INTRODUCCIÓN A LA ESTADÍSTICA PARA LA EMPRESA”. Librería Escarabajal * Martín-Pliego López, Fco. “Introducción a la estadística económica y empresarial”. Ed. Thomson * Casas, J. M., Callealta, J., Núñez, J., Toledo, M. y Ureña, C. (1986). Curso Básico de Estadística Descriptiva. I.N.A.P. * Hermoso Gutiérrez, J. A. y Hernández Bastida, A. (1997). Curso Básico de Estadística Descriptiva y Probabilidad. Ed. Némesis. Para saber más o aclarar dudas: http://www.monografias.com/trabajos26/estadistica-inferencial/estadisticainferencial.shtml http://descartes.cnice.mecd.es/Bach_CNST_1/Variables_estadisticas_bidimensionales_regre sion_correlacion/Indice.htm http://campusvirtual.uma.es/estadcomp/Cap2.pdf http://www.elprisma.com/apuntes/curso.asp?id=5946 http://isi-eh.usc.es/eipc1/MATERIALES/331102886.pdf http://www.eui.upm.es/~acorral/material/regresion.pdf http://www3.uji.es/~mateu/t2-ig12.doc DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITÉCNICA DE CARTAGENA 15-15