Correlacion y Regresion Simple

INSTITUTO UNIVERSITARIO DE TECNOLOGA INDUSTRIAL
RODOLFO LOERO ARISMENDI

IUTIRLA
EXTENSIN BARCELONA
CORRELACIN Y REGRESIN SIMPLE
AUTORAS:
TUTOR:
Barcelona,
NDICE GENERAL
1
p.p
ndice General. ii
ndice De Grfico........... iii
Introduccin. iv
Concepto de Correlacin.. 5
Concepto de Regresin. 5
Tipos de Correlacin.. 5
Tipos de Regresin 7
Postulados de Regresin.. 8
Tipos de Coeficientes de Correlacin. 9
Error Cuadrtico de Regresin 11
Mtodo Mnimo Cuadrado. 12
Ejercicios Relacionados con su rea.. 20
Diagrama de Dispersin 22
Conclusin.. 23
Referencias Bibliogrficas 24
2
NDICE DE GRFICO
GRAFICO p.p
1 Correlacin Directa 5
2 Correlacin Inversa.. 6
3 Correlacin Nula 6
4 Teorema Limite Central 12
5 Ajuste a un Polinomio 16
6 Ajuste al Polinomio con 1 Parmetro. 17
7 Mnimo Cuadrado con Datos Binados 18
8 Ejemplo 2 21
9 Diagrama de Dispersin.. 22
3
INTRODUCCIN
La regresin y la correlacin son dos tcnicas estrechamente

relacionadas y comprenden una forma de estimacin. En forma ms
especifica el anlisis de correlacin y regresin comprende el anlisis de los
datos muestrales para saber qu es y cmo se relacionan entre s dos o ms
variables en una poblacin. El anlisis de correlacin produce un nmero que
resume el grado de la correlacin entre dos variables; y el anlisis de
regresin da lugar a una ecuacin matemtica que describe dicha relacin.
As mismo la regresin puede utilizadas de diversas formas. Se

emplean en situaciones en la que las dos variables miden aproximadamente
lo mismo, pero en las que una variable es relativamente costosa, o, por el
contrario, es poco interesante trabajar con ella, mientras que con la otra
variable no ocurre lo mismo.
En cuanto ha el anlisis de correlacin generalmente resulta til para un

trabajo de exploracin cuando un investigador o analista trata de determinar
que variables son potenciales importantes, el inters radica bsicamente en
la fuerza de la relacin. La correlacin mide la fuerza de una entre variables;
4
la regresin da lugar a una ecuacin que describe dicha relacin en trminos
matemticos.
Los datos necesarios para anlisis de regresin y correlacin provienen

de observaciones de variables relacionadas.
5
CONCEPTO DE CORRELACIN
La correlacin trata de establecer la relacin o dependencia que existe

entre las dos variables que intervienen en una distribucin bidimensional. Es
decir, determinar si los cambios en una de las variables influyen en los
cambios de la otra. En caso de que suceda, diremos que las variables estn
correlacionadas o que hay correlacin entre ellas.
CONCEPTO DE REGRESIN
La regresin es una tcnica estadstica utilizada para simular la

relacin existente entre dos o ms variables. Por lo tanto se puede
emplear para construir un modelo que permita predecir el comportamiento
de una variable dada. La regresin es muy utilizada para interpretar
situaciones reales, pero comnmente se hace de mala forma, por lo cual
es necesario realizar una seleccin adecuada de las variables que van a
construir las ecuaciones de la regresin, ya que tomar variables que no
tengan relacin en la prctica, nos arrojar un modelo carente de sentido,
es decir ilgico.
TIPOS DE CORRELACIN
6
1 Correlacin directa
La correlacin directa se da cuando al
aumentar una de las variables la otra
aumenta.
La recta correspondiente a la nube de

puntos de la distribucin es una recta
creciente. Grafico N1
2 Correlacin inversa
La correlacin inversa se da cuando al aumentar una de las variables la
otra disminuye.
La recta correspondiente a la nube de puntos de la distribucin es una

recta decreciente.
Grfico N2
3 Correlacin nula
La correlacin nula se da cuando no hay dependencia de ningn tipo
entre las variables.
7
En este caso se dice que las variables son incorreladas y la nube de
puntos tiene una forma redondeada.
Grfico N3
TIPOS DE REGRESIN
La correlacin puede clasificarse en dos tipos dependiendo de la

cantidad de variables analizadas y por el tipo de relacin lineal, en el primer
caso estamos haciendo referencia a:
1. Correlacin simple: se estudia la dependencia nicamente entre dos

variables
2. Correlacin mltiple: se estudia la dependencia entre ms de 2
variables
3. Correlacin parcial: cuando se incluye la influencia de variables
exgenas no consideradas en el clculo de los coeficientes.
Dependiendo del tipo de relacin lineal el coeficiente relaciona:
1. Relacin directa entre las variables: un aumento en la variable

independiente implica un aumento en la variable dependiente.
8
2. Relacin inversa entre las variables: un aumento en la variable
independiente implica una disminucin en la variable dependiente.
Esta clasificacin es muy parecida a la que hace Sote, sin embargo en esta
ltima se incluye la correlacin parcial. Aqu es importante mencionar que el
autor (Sote) nos habla de clasificacin y adems hace alusin a los tipos de
correlacin, haciendo una diferenciacin entre lo que es la clasificacin y los
tipos, lo cual no lo hace el anterior, pues al hablar de tipos de correlacin
menciona a la clasificacin.
Los tipos de correlacin que pueden presentarse son:
Correlacin positiva o directamente proporcional r = (+).

Nos indica que al modificarse en promedio una variable en un sentido, la otra
lo hace en la misma direccin.
Correlacin negativa o inversamente proporcional r = (-).

Nos muestra que al cambiar una variable en una determinada direccin (en
promedio), la otra lo hace en sentido contrario u opuesto.
Incorrelacin r = 0
Cuando la obtencin de dicho indicador r sea exactamente igual a cero, se
dice que no existe alguna relacin, asociacin o dependencia entre las
variables estudiadas, siendo por tanto ellas, variables correlacionadas o
faltes de alguna dependencia lineal.
POSTULADOS DE REGRESIN
9
1. Linealidad. Si no se tiene linealidad se dice que tenemos un error de
especificacin. En el caso de que sean varias variables independientes, la
opcin Analizar-RegresinLineal-Grficos-Generar todos los grficos
parciales nos dan los diagramas de dispersin parcial para cada variable
independiente. En ellos se ha eliminado el efecto proveniente de las otras
variables y as la relacin que muestran es la relacin neta entre las variables
representadas.
2. Independencia de la variable aleatoria residuos (especialmente

importante si los datos se han obtenidos siguiendo una secuencia temporal).
Independencia entre los residuos mediante el estadstico de Durbin-Watson
que toma valor 2 cuando los residuos son completamente independientes
(entre 1.5 y 2.5 se considera que existe independencia), DW2
autocorrelacin negativa
3. Homocedasticidad o igualdad de varianzas de los residuos y los

pronsticos. Esta condicin se estudia utilizando las variables:
ZPRED=pronsticos tipificados y ZRESID=residuos tipificados mediante:
El estadstico de Levene
Un grfico de dispersin .Que se obtiene en Analizar-Regresin-Lineal-

Grficos. El supuesto de homocedasticidad implica que la variacin de los
residuos sea uniforme en todo el rango de valores de los pronsticos (grfico
sin pautas de asociacin).
10
4. Normalidad de los residuos tipificados. Podemos contrastarla mediante:
La prueba de Kolmogorff-Smirnov, con grficos de normalidad de tipo Q-Q

(cuantiles) o P-P(proporciones).
Grficamente en Analizar-Regresin-Lineal-Grficos. La opcin Histograma:

aade una curva N(0,1) Grfico de Probabilidad Normal de tipo P-P:
Representa las proporciones acumuladas de la variable esperada respecto a
las proporciones acumuladas de la variable observada.
5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:

colinealidad perfecta si una de las variables independientes tiene una
relacin lineal con otra/as independientes, colinealidad parcial si entre las
variables independientes existen altas correlaciones
TIPOS DE COEFICIENTES DE CORRELACIN
Existen diversos coeficientes que miden el grado de correlacin,

adaptados a la naturaleza de los datos. El ms conocido es el coeficiente de
correlacin de Pearson (introducido en realidad por Francis Galton), que se
obtiene dividiendo la covarianza de dos variables por el producto de sus
desviaciones estndar. Otros coeficientes son:
Coeficiente de correlacin de Spearman
Correlacin cannica.
11
Coeficiente de correlacin de Pearson
En estadstica, el coeficiente de correlacin de Pearson es un ndice que
mide la relacin lineal entre dos variables aleatorias cuantitativas. A
diferencia de la covarianza, la correlacin de Pearson es independiente de la
escala de medida de las variables.
El coeficiente de correlacin entre dos variables aleatorias X e Y es el
cociente donde XY es la covarianza de (X,Y) y X y Y las desviaciones
tpicas de las distribuciones marginales.
Coeficiente de correlacin de Spearman

En estadstica, el coeficiente de correlacin de Spearman, (ro) es una
medida de la correlacin (la asociacin o interdependencia) entre dos
variables aleatorias continuas. Para calcular , los datos son ordenados y
reemplazados por su respectivo orden.
El estadstico viene dado por la expresin: donde D es la diferencia

entre los correspondientes valores de x - y. N es el nmero de parejas. Se
tiene que considerar la existencia de datos idnticos a la hora de ordenarlos,
aunque si stos son pocos, se puede ignorar tal circunstancia.
La interpretacin de coeficiente de Spearman es igual que la del

coeficiente de correlacin de Pearson. Oscila entre -1 y +1, indicndonos
asociaciones negativas o positivas respectivamente, 0 cero, significa no
correlacin pero no independencia. La tau de Kendall es un coeficiente de
correlacin por rangos, inversiones entre dos ordenaciones de una
distribucin normal bivariante.
12
De esta forma podemos observar cmo se orienta la aplicacin de cada
uno de estos viendo que el primero toma en cuenta dos variables aleatorias
cuantitativas y el segundo entre dos variables aleatorias continuas.
ERROR CUADRATICO DE REGRESIN
Otro criterio razonable para escoger un determinado estimador de un

parmetro es tomar aquel que cometa, en promedio, el menor error en la
estimacin. Como, en principio, queremos penalizar igualmente los errores
por defecto que por exceso podramos establecer como cantidad a minimizar
la esperanza de la diferencia entre el estadstico T y el parmetro (en valor
absoluto para impedir que los errores por defecto y por exceso se anulen
mutuamente):
Aunque este operador resulta razonable, presenta el inconveniente de

que la funcin valor absoluto es complicada de manejar desde un punto de
vista matemtico. Por dicha razn suele utilizarse el error cuadrtico
medio (ECM) de un estimador T, definido como sigue:
Una propiedad interesante del ECM es que puede descomponerse como

la suma de dos componentes: la varianza del estimador ms su sesgo al
cuadrado:
13
Por tanto, en el caso de comparar diversos estimadores centrados de un
parmetro , el ECM coincidir con sus varianzas. Con lo que el estimador
con menor ECM coincidir con el de menor varianza.
Debe quedar claro, sin embargo, que el estimador con menor ECM no
debe ser necesariamente centrado. De hecho, no siempre existir el
estimador con ECM mnimo. En realidad, si no nos restringimos a
estimadores centrados, suele suceder que para unos determinados valores
de sea un estimador el que produzca un ECM menor, mientras que para
otros valores de sea otro estimador el que obtenga un ECM menor.
METODOS MINIMO CUADRADOS
Mnimos cuadrados y mxima verosimilitud
Teorema del lmite central
Una medida y, puede considerarse como un variable aleatoria, distribuida

gausianamente entorno a su valor verdadero , siempre que el error total sea
la suma de un nmero grande de contribuciones pequeas.
Considerar un conjunto y1,y2,...yN de variables aleatorias

independientes relacionadas con otra variable xi que se asume conocida sin
error. Cada yi tiene un valor medio i (desconocido) y una varianza i 2
(conocida) Las N medidas de y i pueden considerarse como la medida de un
vector aleatorio N-dimensional con pdf
14
Grfico N4
Suponer adems que el valor verdadero de las y i es una funcin de la

variable x que depende de un vector de parmetros desconocido en
principio.
15
El objetivo del mtodo de mnimos cuadrados es estimar el vector de
parmetros . Adems, el mtodo permite evaluar la bondad con la que la
funcin (x,) ajusta los datos experimentales. Para establecer el mtodo
tomamos logaritmos en la pdf que describe los datos:
El principio de mxima verosimilitud establece que la pdf conjunta de las

medidas (y por lo tanto la verosimilitud L) es mxima para los parmetros
autnticos. Por lo tanto, para encontrar los parmetros maximizamos log L()
o bien minimizamos la cantidad:
Si las medidas no son independientes, pero pueden describirse por una

pdf conjunta gausiana, con matriz de covarianza conocida, la definicin
anterior se generaliza a:
16
Que reduce a la expresin anterior si la matriz de covarianza es diagonal
(medidas independientes)
Ajuste por mnimos cuadrados en el caso lineal
En el caso ms general, un problema de ajuste se reduce a uno de

minimizacin (del chi2). Sin embargo, cuando (x;) es una funcin lineal de
los parmetros el problema puede tratarse analticamente. Se trata del caso:
donde aj (x) son funciones de x. NB: Requerimos que (x;) sea lineal en
los parmetros, no que las funciones aj (x) sean lineales en x. Por ejemplo:
El valor de la funcin (x;) en un punto dado xi es:
En este caso, la expresin general:
17
reduce a (en notacin matricial):
Para encontrar los parmetros minimizamos el chi2
Si ATV-1A no es singular podemos resolver para los parmetros
Es decir los parmetros son funciones lineales de las medidas y. Para

encontrar la matrix de covarianza de los parmetros propagamos errores
Si (x;) es lineal en el chi 2 es cuadrtico en . Expandiendo en Taylor

entorno a los parmetros (en el mnimo la derivada se anula):
18
Por lo tanto:
Corresponde a los contornos en el espacio de parmetros cuyas

tangentes se separan una desviacin estndar de los parmetros estimados
en el mnimo.
Ejemplo: Ajuste a un polinomio
19
Calidad de un ajuste Si en nuestro problema: Los datos yi, i=1,2,...N son
gausianos la hiptesis (x;) es lineal en los parmetros i , i=1,2,...,m La
pdf que describe la hiptesis (el modelo ) (x;) ) es correcta: Entonces el 2
min sigue una distribucin Chi2 con nd = N-m grados de libertad El valor-P o
nivel de confianza es, por definicin:
Donde f(z;nd) es la distribucin Chi2 con nd grados de libertad.
Ajuste al polinomio con 2 parmetros
20
Simulacin MC del ajuste a 2 parmetros. 26.3 % de las veces el ajustes
tendr un c2min ms alto.
Grfico N5
Ajuste al polinomio con 1 parmetro
Calidad del ajuste vs errores pequeos El hecho de que un ajuste arroje

errores pequeos no implica que el ajuste sea bueno (ni al contrario)
Curvatura del 2 cerca del mnimo --> tamao del error (estadstico) Valor del
c2min --> calidad del ajuste Si en el ajuste polinmico del ejemplo movemos
los puntos para alinearlos ms e concordancia con la hiptesis de una recta
con pendiente nula (manteniendo el tamao de los errores)
21
Grfico N6
La varianza del estimador (su error estadstico) nos dice:
Si el experimento se repite muchas veces cual es la dispersin

entorno al valor estimado q.
No nos dice si la hiptesis es correcta.
El valor-P (nivel de confianza, probablidad del c2) nos dice:
Si la hiptesis es correcta y el experimento se repite muchas veces,

que fraccin de los sucesos arrojar igual o peor acuerdo entre los
datos y la hiptesis, de acuerdo con el c2min.
Un valor pequeo de P implica que la hiptesis es falsa o bien que hay

errores sistemticos que no se han tomado en cuenta.
Mnimos cuadrados con datos binados
22
Considerar un histograma con N bines y n entradas al que queremos
ajustar un cierto modelo (es decir una hipottica pdf f(x; q)
Grfico N7
Ajuste por mnimos cuadrados: Minimiza la cantidad:
Alternativamente (Mnimos cuadrados modificado)
MCM se usa muy a menudo (es ms cmodo) pero el problema es que el

c2min resultante no tiene porqu estar distribuido c2 (podemos perder la
capacidad de decidir sobre la calidad del ajuste
23
Combinacin de medidas por mnimos cuadrados
Suponer que una cantidad de valores desconocido l ha sido medida N

veces (en N experimentos diferentes), resultando en yi, si, i=1,2,...,N
independientes. Puesto que l es el mismo para todos los experimentos, l(x) =
cte y por tanto:
Que no es sino la media pesada de las medidas.
La varianza se obtiene a partir de la segunda derivada:
Cuando las medidas yi no son todas independientes, pero la matriz de

covarianza V se conoce, el procedimiento se generaliza fcilmente. Partiendo
de:
24
Y repitiendo el procedimiento de cancelar la derivada obtenemos:
La varianza se obtiene anlogamente:
EJERCICIOS RELACIONADO CON SU AREA
Ejemplo 1:
Las notas obtenidas por cinco alumnos en Matemticas y Qumica son:
Determinar las rectas de regresin y calcular la nota esperada en Qumica

para un alumno que tiene 7.5 en Matemticas.
25
Ejemplo 2:
A 12 alumnos de un centro se les pregunt a qu distancia estaba su
residencia del Instituto, con fin de estudiar si esta variable estaba relacionada
con la nota media obtenida. Se obtuvieron los datos que figuran en la
siguiente tabla:
26
Grafico N8
Observamos una nube de puntos que no nos sugiere ninguna recta

concreta, porque la correlacin es prcticamente inexistente, es decir, no
tiene nada que ver con el rendimiento acadmico la distancia del domicilio al
instituto,
DIAGRAMA DE DISPERSIN
La primera forma de describir una distribucin bivariante es representar

los pares de valores en el plano cartesiano. El grfico obtenido recibe el
nombre de nube de puntos o diagrama de dispersin.
27
Grafico N9
Un diagrama de dispersin es una representacin grfica de la relacin

entre dos variables, muy utilizada en las fases de Comprobacin de teoras e
identificacin de causas raz y en el Diseo de soluciones y
mantenimiento de los resultados obtenidos. Tres conceptos especialmente
destacables son que el descubrimiento de las verdaderas relaciones de
causa-efecto es la clave de la resolucin eficaz de un problema, que las
relaciones de causa-efecto casi siempre muestran variaciones, y que es ms
fcil ver la relacin en un diagrama de dispersin que en una simple tabla de
nmeros.
28
CONCLUSIN
La regresin lineal simple comprende el intento de desarrollar una lnea

recta o ecuacin matemtica lineal que describe la reaccin entre dos
variables.
La finalidad de una ecuacin de regresin seria estimar los valores de

una variable con base en los valores conocidos de la otra. Otra forma de
emplear una ecuacin de regresin es para explicar los valores de una
variable en trmino de otra. Es decir se puede intuir una relacin de causa y
efecto entre dos variables. El anlisis de regresin nicamente indica qu
relacin matemtica podra haber, de existir una. Ni con regresin ni con la
correlacin se pude establecer si una variable tiene causa ciertos valores
de otra variable.
Las tcnicas de regresin y correlacin cuantifican la asociacin

estadstica entre dos o ms variables. La regresin lineal simple expresa la
relacin entre una variable dependiente Y y una variable independiente X, en
trminos de la pendiente y la interseccin de la lnea que mejor se ajuste a
las variables.
La correlacin simple expresa el grado o la cercana de la relacin entre

las dos variables en trminos de un coeficiente de correlacin que
proporciona una medida indirecta de la variabilidad de los puntos alrededor
de la mejor lnea de ajuste- Ni la regresin ni la correlacin dan pruebas de
relaciones causa efecto.
29
REFERENCIAS BIBLIOGRFICAS
Jos, S. (1991). Introduccin a la Estadstica para Administracin y Direccin

de Empresas. Editorial Universitaria Ramn Areces.
Berenson, M (1991). Estadstica para la Administracin y Economa.

Conceptos y Aplicaciones. Editorial MC. Graw- Hill. Interamericana.
ISBM: 968-713-2. Mxico.
Lind, Mason (2004) Estadstica para Administracin y Economa

(onceava edicin) Grupo editor Alfa omega ISBN: 970-15-0974-
9 Mxico D.F.
http://www.monografias.com/trabajos84/correlacion/correlacion.shtml#ixzz4V
yyRK9ip
30

Correlacion y Regresion Simple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Correlacion y Regresion Simple

Uploaded by

Copyright:

Available Formats

INSTITUTO UNIVERSITARIO DE TECNOLOGA INDUSTRIAL

RODOLFO LOERO ARISMENDI

CORRELACIN Y REGRESIN SIMPLE

La regresin y la correlacin son dos tcnicas estrechamente

As mismo la regresin puede utilizadas de diversas formas. Se

En cuanto ha el anlisis de correlacin generalmente resulta til para un

Los datos necesarios para anlisis de regresin y correlacin provienen

La correlacin trata de establecer la relacin o dependencia que existe

La regresin es una tcnica estadstica utilizada para simular la

La recta correspondiente a la nube de

La recta correspondiente a la nube de puntos de la distribucin es una

La correlacin puede clasificarse en dos tipos dependiendo de la

1. Correlacin simple: se estudia la dependencia nicamente entre dos

Dependiendo del tipo de relacin lineal el coeficiente relaciona:

1. Relacin directa entre las variables: un aumento en la variable

Los tipos de correlacin que pueden presentarse son:

Correlacin positiva o directamente proporcional r = (+).

Correlacin negativa o inversamente proporcional r = (-).

2. Independencia de la variable aleatoria residuos (especialmente

3. Homocedasticidad o igualdad de varianzas de los residuos y los

Un grfico de dispersin .Que se obtiene en Analizar-Regresin-Lineal-

La prueba de Kolmogorff-Smirnov, con grficos de normalidad de tipo Q-Q

Grficamente en Analizar-Regresin-Lineal-Grficos. La opcin Histograma:

5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:

TIPOS DE COEFICIENTES DE CORRELACIN

Existen diversos coeficientes que miden el grado de correlacin,

Coeficiente de correlacin de Spearman

El estadstico viene dado por la expresin: donde D es la diferencia

La interpretacin de coeficiente de Spearman es igual que la del

ERROR CUADRATICO DE REGRESIN

Otro criterio razonable para escoger un determinado estimador de un

Aunque este operador resulta razonable, presenta el inconveniente de

Una propiedad interesante del ECM es que puede descomponerse como

METODOS MINIMO CUADRADOS

Mnimos cuadrados y mxima verosimilitud

Teorema del lmite central

Una medida y, puede considerarse como un variable aleatoria, distribuida

Considerar un conjunto y1,y2,...yN de variables aleatorias

Suponer adems que el valor verdadero de las y i es una funcin de la

El principio de mxima verosimilitud establece que la pdf conjunta de las

Si las medidas no son independientes, pero pueden describirse por una

Ajuste por mnimos cuadrados en el caso lineal

En el caso ms general, un problema de ajuste se reduce a uno de

El valor de la funcin (x;) en un punto dado xi es:

En este caso, la expresin general:

Para encontrar los parmetros minimizamos el chi2

Si ATV-1A no es singular podemos resolver para los parmetros

Es decir los parmetros son funciones lineales de las medidas y. Para

Si (x;) es lineal en el chi 2 es cuadrtico en . Expandiendo en Taylor

Corresponde a los contornos en el espacio de parmetros cuyas

Ejemplo: Ajuste a un polinomio

Donde f(z;nd) es la distribucin Chi2 con nd grados de libertad.

Ajuste al polinomio con 2 parmetros

Ajuste al polinomio con 1 parmetro

Calidad del ajuste vs errores pequeos El hecho de que un ajuste arroje

La varianza del estimador (su error estadstico) nos dice:

Si el experimento se repite muchas veces cual es la dispersin

No nos dice si la hiptesis es correcta.

El valor-P (nivel de confianza, probablidad del c2) nos dice:

Si la hiptesis es correcta y el experimento se repite muchas veces,

Un valor pequeo de P implica que la hiptesis es falsa o bien que hay

Mnimos cuadrados con datos binados

Ajuste por mnimos cuadrados: Minimiza la cantidad:

Alternativamente (Mnimos cuadrados modificado)