You are on page 1of 30

INSTITUTO UNIVERSITARIO DE TECNOLOGA INDUSTRIAL

RODOLFO LOERO ARISMENDI


IUTIRLA
EXTENSIN BARCELONA

CORRELACIN Y REGRESIN SIMPLE

AUTORAS:

TUTOR:

Barcelona,

NDICE GENERAL

1
p.p

ndice General. ii
ndice De Grfico........... iii
Introduccin. iv
Concepto de Correlacin.. 5
Concepto de Regresin. 5
Tipos de Correlacin.. 5
Tipos de Regresin 7
Postulados de Regresin.. 8
Tipos de Coeficientes de Correlacin. 9
Error Cuadrtico de Regresin 11
Mtodo Mnimo Cuadrado. 12
Ejercicios Relacionados con su rea.. 20
Diagrama de Dispersin 22
Conclusin.. 23
Referencias Bibliogrficas 24

2
NDICE DE GRFICO

GRAFICO p.p

1 Correlacin Directa 5
2 Correlacin Inversa.. 6
3 Correlacin Nula 6
4 Teorema Limite Central 12
5 Ajuste a un Polinomio 16
6 Ajuste al Polinomio con 1 Parmetro. 17
7 Mnimo Cuadrado con Datos Binados 18
8 Ejemplo 2 21
9 Diagrama de Dispersin.. 22

3
INTRODUCCIN

La regresin y la correlacin son dos tcnicas estrechamente


relacionadas y comprenden una forma de estimacin. En forma ms
especifica el anlisis de correlacin y regresin comprende el anlisis de los
datos muestrales para saber qu es y cmo se relacionan entre s dos o ms
variables en una poblacin. El anlisis de correlacin produce un nmero que
resume el grado de la correlacin entre dos variables; y el anlisis de
regresin da lugar a una ecuacin matemtica que describe dicha relacin.

As mismo la regresin puede utilizadas de diversas formas. Se


emplean en situaciones en la que las dos variables miden aproximadamente
lo mismo, pero en las que una variable es relativamente costosa, o, por el
contrario, es poco interesante trabajar con ella, mientras que con la otra
variable no ocurre lo mismo.

En cuanto ha el anlisis de correlacin generalmente resulta til para un


trabajo de exploracin cuando un investigador o analista trata de determinar
que variables son potenciales importantes, el inters radica bsicamente en
la fuerza de la relacin. La correlacin mide la fuerza de una entre variables;

4
la regresin da lugar a una ecuacin que describe dicha relacin en trminos
matemticos.

Los datos necesarios para anlisis de regresin y correlacin provienen


de observaciones de variables relacionadas.

5
CONCEPTO DE CORRELACIN

La correlacin trata de establecer la relacin o dependencia que existe


entre las dos variables que intervienen en una distribucin bidimensional. Es
decir, determinar si los cambios en una de las variables influyen en los
cambios de la otra. En caso de que suceda, diremos que las variables estn
correlacionadas o que hay correlacin entre ellas.

CONCEPTO DE REGRESIN

La regresin es una tcnica estadstica utilizada para simular la


relacin existente entre dos o ms variables. Por lo tanto se puede
emplear para construir un modelo que permita predecir el comportamiento
de una variable dada. La regresin es muy utilizada para interpretar
situaciones reales, pero comnmente se hace de mala forma, por lo cual
es necesario realizar una seleccin adecuada de las variables que van a
construir las ecuaciones de la regresin, ya que tomar variables que no
tengan relacin en la prctica, nos arrojar un modelo carente de sentido,
es decir ilgico.

TIPOS DE CORRELACIN

6
1 Correlacin directa
La correlacin directa se da cuando al
aumentar una de las variables la otra
aumenta.

La recta correspondiente a la nube de


puntos de la distribucin es una recta
creciente. Grafico N1

2 Correlacin inversa
La correlacin inversa se da cuando al aumentar una de las variables la
otra disminuye.

La recta correspondiente a la nube de puntos de la distribucin es una


recta decreciente.

Grfico N2

3 Correlacin nula
La correlacin nula se da cuando no hay dependencia de ningn tipo
entre las variables.

7
En este caso se dice que las variables son incorreladas y la nube de
puntos tiene una forma redondeada.

Grfico N3

TIPOS DE REGRESIN

La correlacin puede clasificarse en dos tipos dependiendo de la


cantidad de variables analizadas y por el tipo de relacin lineal, en el primer
caso estamos haciendo referencia a:

1. Correlacin simple: se estudia la dependencia nicamente entre dos


variables
2. Correlacin mltiple: se estudia la dependencia entre ms de 2
variables
3. Correlacin parcial: cuando se incluye la influencia de variables
exgenas no consideradas en el clculo de los coeficientes.

Dependiendo del tipo de relacin lineal el coeficiente relaciona:

1. Relacin directa entre las variables: un aumento en la variable


independiente implica un aumento en la variable dependiente.

8
2. Relacin inversa entre las variables: un aumento en la variable
independiente implica una disminucin en la variable dependiente.

Esta clasificacin es muy parecida a la que hace Sote, sin embargo en esta
ltima se incluye la correlacin parcial. Aqu es importante mencionar que el
autor (Sote) nos habla de clasificacin y adems hace alusin a los tipos de
correlacin, haciendo una diferenciacin entre lo que es la clasificacin y los
tipos, lo cual no lo hace el anterior, pues al hablar de tipos de correlacin
menciona a la clasificacin.

Los tipos de correlacin que pueden presentarse son:

Correlacin positiva o directamente proporcional r = (+).


Nos indica que al modificarse en promedio una variable en un sentido, la otra
lo hace en la misma direccin.

Correlacin negativa o inversamente proporcional r = (-).


Nos muestra que al cambiar una variable en una determinada direccin (en
promedio), la otra lo hace en sentido contrario u opuesto.

Incorrelacin r = 0
Cuando la obtencin de dicho indicador r sea exactamente igual a cero, se
dice que no existe alguna relacin, asociacin o dependencia entre las
variables estudiadas, siendo por tanto ellas, variables correlacionadas o
faltes de alguna dependencia lineal.

POSTULADOS DE REGRESIN

9
1. Linealidad. Si no se tiene linealidad se dice que tenemos un error de
especificacin. En el caso de que sean varias variables independientes, la
opcin Analizar-RegresinLineal-Grficos-Generar todos los grficos
parciales nos dan los diagramas de dispersin parcial para cada variable
independiente. En ellos se ha eliminado el efecto proveniente de las otras
variables y as la relacin que muestran es la relacin neta entre las variables
representadas.

2. Independencia de la variable aleatoria residuos (especialmente


importante si los datos se han obtenidos siguiendo una secuencia temporal).
Independencia entre los residuos mediante el estadstico de Durbin-Watson
que toma valor 2 cuando los residuos son completamente independientes
(entre 1.5 y 2.5 se considera que existe independencia), DW2
autocorrelacin negativa

3. Homocedasticidad o igualdad de varianzas de los residuos y los


pronsticos. Esta condicin se estudia utilizando las variables:
ZPRED=pronsticos tipificados y ZRESID=residuos tipificados mediante:

El estadstico de Levene

Un grfico de dispersin .Que se obtiene en Analizar-Regresin-Lineal-


Grficos. El supuesto de homocedasticidad implica que la variacin de los
residuos sea uniforme en todo el rango de valores de los pronsticos (grfico
sin pautas de asociacin).

10
4. Normalidad de los residuos tipificados. Podemos contrastarla mediante:

La prueba de Kolmogorff-Smirnov, con grficos de normalidad de tipo Q-Q


(cuantiles) o P-P(proporciones).

Grficamente en Analizar-Regresin-Lineal-Grficos. La opcin Histograma:


aade una curva N(0,1) Grfico de Probabilidad Normal de tipo P-P:
Representa las proporciones acumuladas de la variable esperada respecto a
las proporciones acumuladas de la variable observada.

5. No-colinealidad, es decir la inexistencia de colinealidad. Esta puede ser:


colinealidad perfecta si una de las variables independientes tiene una
relacin lineal con otra/as independientes, colinealidad parcial si entre las
variables independientes existen altas correlaciones

TIPOS DE COEFICIENTES DE CORRELACIN

Existen diversos coeficientes que miden el grado de correlacin,


adaptados a la naturaleza de los datos. El ms conocido es el coeficiente de
correlacin de Pearson (introducido en realidad por Francis Galton), que se
obtiene dividiendo la covarianza de dos variables por el producto de sus
desviaciones estndar. Otros coeficientes son:
Coeficiente de correlacin de Spearman
Correlacin cannica.

11
Coeficiente de correlacin de Pearson
En estadstica, el coeficiente de correlacin de Pearson es un ndice que
mide la relacin lineal entre dos variables aleatorias cuantitativas. A
diferencia de la covarianza, la correlacin de Pearson es independiente de la
escala de medida de las variables.
El coeficiente de correlacin entre dos variables aleatorias X e Y es el
cociente donde XY es la covarianza de (X,Y) y X y Y las desviaciones
tpicas de las distribuciones marginales.

Coeficiente de correlacin de Spearman


En estadstica, el coeficiente de correlacin de Spearman, (ro) es una
medida de la correlacin (la asociacin o interdependencia) entre dos
variables aleatorias continuas. Para calcular , los datos son ordenados y
reemplazados por su respectivo orden.

El estadstico viene dado por la expresin: donde D es la diferencia


entre los correspondientes valores de x - y. N es el nmero de parejas. Se
tiene que considerar la existencia de datos idnticos a la hora de ordenarlos,
aunque si stos son pocos, se puede ignorar tal circunstancia.

La interpretacin de coeficiente de Spearman es igual que la del


coeficiente de correlacin de Pearson. Oscila entre -1 y +1, indicndonos
asociaciones negativas o positivas respectivamente, 0 cero, significa no
correlacin pero no independencia. La tau de Kendall es un coeficiente de
correlacin por rangos, inversiones entre dos ordenaciones de una
distribucin normal bivariante.

12
De esta forma podemos observar cmo se orienta la aplicacin de cada
uno de estos viendo que el primero toma en cuenta dos variables aleatorias
cuantitativas y el segundo entre dos variables aleatorias continuas.

ERROR CUADRATICO DE REGRESIN

Otro criterio razonable para escoger un determinado estimador de un


parmetro es tomar aquel que cometa, en promedio, el menor error en la
estimacin. Como, en principio, queremos penalizar igualmente los errores
por defecto que por exceso podramos establecer como cantidad a minimizar
la esperanza de la diferencia entre el estadstico T y el parmetro (en valor
absoluto para impedir que los errores por defecto y por exceso se anulen
mutuamente):

Aunque este operador resulta razonable, presenta el inconveniente de


que la funcin valor absoluto es complicada de manejar desde un punto de
vista matemtico. Por dicha razn suele utilizarse el error cuadrtico
medio (ECM) de un estimador T, definido como sigue:

Una propiedad interesante del ECM es que puede descomponerse como


la suma de dos componentes: la varianza del estimador ms su sesgo al
cuadrado:

13
Por tanto, en el caso de comparar diversos estimadores centrados de un
parmetro , el ECM coincidir con sus varianzas. Con lo que el estimador
con menor ECM coincidir con el de menor varianza.

Debe quedar claro, sin embargo, que el estimador con menor ECM no
debe ser necesariamente centrado. De hecho, no siempre existir el
estimador con ECM mnimo. En realidad, si no nos restringimos a
estimadores centrados, suele suceder que para unos determinados valores
de sea un estimador el que produzca un ECM menor, mientras que para
otros valores de sea otro estimador el que obtenga un ECM menor.

METODOS MINIMO CUADRADOS

Mnimos cuadrados y mxima verosimilitud

Teorema del lmite central

Una medida y, puede considerarse como un variable aleatoria, distribuida


gausianamente entorno a su valor verdadero , siempre que el error total sea
la suma de un nmero grande de contribuciones pequeas.

Considerar un conjunto y1,y2,...yN de variables aleatorias


independientes relacionadas con otra variable xi que se asume conocida sin
error. Cada yi tiene un valor medio i (desconocido) y una varianza i 2
(conocida) Las N medidas de y i pueden considerarse como la medida de un
vector aleatorio N-dimensional con pdf

14
Grfico N4

Suponer adems que el valor verdadero de las y i es una funcin de la


variable x que depende de un vector de parmetros desconocido en
principio.

15
El objetivo del mtodo de mnimos cuadrados es estimar el vector de
parmetros . Adems, el mtodo permite evaluar la bondad con la que la
funcin (x,) ajusta los datos experimentales. Para establecer el mtodo
tomamos logaritmos en la pdf que describe los datos:

El principio de mxima verosimilitud establece que la pdf conjunta de las


medidas (y por lo tanto la verosimilitud L) es mxima para los parmetros
autnticos. Por lo tanto, para encontrar los parmetros maximizamos log L()
o bien minimizamos la cantidad:

Si las medidas no son independientes, pero pueden describirse por una


pdf conjunta gausiana, con matriz de covarianza conocida, la definicin
anterior se generaliza a:

16
Que reduce a la expresin anterior si la matriz de covarianza es diagonal
(medidas independientes)

Ajuste por mnimos cuadrados en el caso lineal

En el caso ms general, un problema de ajuste se reduce a uno de


minimizacin (del chi2). Sin embargo, cuando (x;) es una funcin lineal de
los parmetros el problema puede tratarse analticamente. Se trata del caso:

donde aj (x) son funciones de x. NB: Requerimos que (x;) sea lineal en
los parmetros, no que las funciones aj (x) sean lineales en x. Por ejemplo:

El valor de la funcin (x;) en un punto dado xi es:

En este caso, la expresin general:

17
reduce a (en notacin matricial):

Para encontrar los parmetros minimizamos el chi2

Si ATV-1A no es singular podemos resolver para los parmetros

Es decir los parmetros son funciones lineales de las medidas y. Para


encontrar la matrix de covarianza de los parmetros propagamos errores

Si (x;) es lineal en el chi 2 es cuadrtico en . Expandiendo en Taylor


entorno a los parmetros (en el mnimo la derivada se anula):

18
Por lo tanto:

Corresponde a los contornos en el espacio de parmetros cuyas


tangentes se separan una desviacin estndar de los parmetros estimados
en el mnimo.

Ejemplo: Ajuste a un polinomio

19
Calidad de un ajuste Si en nuestro problema: Los datos yi, i=1,2,...N son
gausianos la hiptesis (x;) es lineal en los parmetros i , i=1,2,...,m La
pdf que describe la hiptesis (el modelo ) (x;) ) es correcta: Entonces el 2
min sigue una distribucin Chi2 con nd = N-m grados de libertad El valor-P o
nivel de confianza es, por definicin:

Donde f(z;nd) es la distribucin Chi2 con nd grados de libertad.

Ajuste al polinomio con 2 parmetros

20
Simulacin MC del ajuste a 2 parmetros. 26.3 % de las veces el ajustes
tendr un c2min ms alto.

Grfico N5

Ajuste al polinomio con 1 parmetro

Calidad del ajuste vs errores pequeos El hecho de que un ajuste arroje


errores pequeos no implica que el ajuste sea bueno (ni al contrario)
Curvatura del 2 cerca del mnimo --> tamao del error (estadstico) Valor del
c2min --> calidad del ajuste Si en el ajuste polinmico del ejemplo movemos
los puntos para alinearlos ms e concordancia con la hiptesis de una recta
con pendiente nula (manteniendo el tamao de los errores)

21
Grfico N6

La varianza del estimador (su error estadstico) nos dice:

Si el experimento se repite muchas veces cual es la dispersin


entorno al valor estimado q.

No nos dice si la hiptesis es correcta.

El valor-P (nivel de confianza, probablidad del c2) nos dice:

Si la hiptesis es correcta y el experimento se repite muchas veces,


que fraccin de los sucesos arrojar igual o peor acuerdo entre los
datos y la hiptesis, de acuerdo con el c2min.

Un valor pequeo de P implica que la hiptesis es falsa o bien que hay


errores sistemticos que no se han tomado en cuenta.

Mnimos cuadrados con datos binados

22
Considerar un histograma con N bines y n entradas al que queremos
ajustar un cierto modelo (es decir una hipottica pdf f(x; q)

Grfico N7

Ajuste por mnimos cuadrados: Minimiza la cantidad:

Alternativamente (Mnimos cuadrados modificado)

MCM se usa muy a menudo (es ms cmodo) pero el problema es que el


c2min resultante no tiene porqu estar distribuido c2 (podemos perder la
capacidad de decidir sobre la calidad del ajuste

23
Combinacin de medidas por mnimos cuadrados

Suponer que una cantidad de valores desconocido l ha sido medida N


veces (en N experimentos diferentes), resultando en yi, si, i=1,2,...,N
independientes. Puesto que l es el mismo para todos los experimentos, l(x) =
cte y por tanto:

Que no es sino la media pesada de las medidas.

La varianza se obtiene a partir de la segunda derivada:

Cuando las medidas yi no son todas independientes, pero la matriz de


covarianza V se conoce, el procedimiento se generaliza fcilmente. Partiendo
de:

24
Y repitiendo el procedimiento de cancelar la derivada obtenemos:

La varianza se obtiene anlogamente:

EJERCICIOS RELACIONADO CON SU AREA

Ejemplo 1:
Las notas obtenidas por cinco alumnos en Matemticas y Qumica son:

Determinar las rectas de regresin y calcular la nota esperada en Qumica


para un alumno que tiene 7.5 en Matemticas.

25
Ejemplo 2:
A 12 alumnos de un centro se les pregunt a qu distancia estaba su
residencia del Instituto, con fin de estudiar si esta variable estaba relacionada
con la nota media obtenida. Se obtuvieron los datos que figuran en la
siguiente tabla:

26
Grafico N8

Observamos una nube de puntos que no nos sugiere ninguna recta


concreta, porque la correlacin es prcticamente inexistente, es decir, no
tiene nada que ver con el rendimiento acadmico la distancia del domicilio al
instituto,

DIAGRAMA DE DISPERSIN

La primera forma de describir una distribucin bivariante es representar


los pares de valores en el plano cartesiano. El grfico obtenido recibe el
nombre de nube de puntos o diagrama de dispersin.

27
Grafico N9

Un diagrama de dispersin es una representacin grfica de la relacin


entre dos variables, muy utilizada en las fases de Comprobacin de teoras e
identificacin de causas raz y en el Diseo de soluciones y
mantenimiento de los resultados obtenidos. Tres conceptos especialmente
destacables son que el descubrimiento de las verdaderas relaciones de
causa-efecto es la clave de la resolucin eficaz de un problema, que las
relaciones de causa-efecto casi siempre muestran variaciones, y que es ms
fcil ver la relacin en un diagrama de dispersin que en una simple tabla de
nmeros.

28
CONCLUSIN

La regresin lineal simple comprende el intento de desarrollar una lnea


recta o ecuacin matemtica lineal que describe la reaccin entre dos
variables.

La finalidad de una ecuacin de regresin seria estimar los valores de


una variable con base en los valores conocidos de la otra. Otra forma de
emplear una ecuacin de regresin es para explicar los valores de una
variable en trmino de otra. Es decir se puede intuir una relacin de causa y
efecto entre dos variables. El anlisis de regresin nicamente indica qu
relacin matemtica podra haber, de existir una. Ni con regresin ni con la
correlacin se pude establecer si una variable tiene causa ciertos valores
de otra variable.

Las tcnicas de regresin y correlacin cuantifican la asociacin


estadstica entre dos o ms variables. La regresin lineal simple expresa la
relacin entre una variable dependiente Y y una variable independiente X, en
trminos de la pendiente y la interseccin de la lnea que mejor se ajuste a
las variables.

La correlacin simple expresa el grado o la cercana de la relacin entre


las dos variables en trminos de un coeficiente de correlacin que
proporciona una medida indirecta de la variabilidad de los puntos alrededor
de la mejor lnea de ajuste- Ni la regresin ni la correlacin dan pruebas de
relaciones causa efecto.

29
REFERENCIAS BIBLIOGRFICAS

Jos, S. (1991). Introduccin a la Estadstica para Administracin y Direccin


de Empresas. Editorial Universitaria Ramn Areces.

Berenson, M (1991). Estadstica para la Administracin y Economa.


Conceptos y Aplicaciones. Editorial MC. Graw- Hill. Interamericana.
ISBM: 968-713-2. Mxico.

Lind, Mason (2004) Estadstica para Administracin y Economa


(onceava edicin) Grupo editor Alfa omega ISBN: 970-15-0974-
9 Mxico D.F.

http://www.monografias.com/trabajos84/correlacion/correlacion.shtml#ixzz4V
yyRK9ip

30

You might also like