Professional Documents
Culture Documents
Hasta ahora nos hemos centrado en el estudio de una sola variable de respuestas numricas y
hemos aprendido a calcular o describir la variable en estudio mediante las medidas descriptivas.
Ahora centraremos nuestro estudio a dos variables numricas. Estudiaremos la relacin que hay
o no entre ellas y el grado de asociacin.
Con el anlisis de regresin observaremos si existe relacin entre las variables en estudio y de
que tipo es esa relacin.
El estudio de regresin se utiliza principalmente para hacer predicciones sobre los valores de
una variable que llamamos dependiente o de respuesta (Y) basada en los valores de otra variable
llamada independiente o explicativa (X).
En cambio, con el anlisis de correlacin simple, medimos la intensidad de esa relacin o
asociacin entre las variables numricas.
REGRESION
Diagrama de dispersin
Como tenemos dos variables, tendremos pares de valores (X,Y). El grafico para representar
estos pares de valores se llama diagrama de dispersin o diagrama de nubes de puntos.
En el eje de las abscisas colocamos la variable independiente y el eje de las ordenadas la
variable dependiente.
Veamos un ejemplo: al gerente de una compaa que fabrica autopartes le gustara realizar un
modelo estadstico para estimar el nmero de horas-trabajador requeridas para elaborar lotes de
tamaos variables. Se selecciono al azar 10 obreros y se obtuvieron la cantidad de lotes
elaborados con horas-trabajador. Con este ejemplo queremos desarrollar un modelo para
predecir la cantidad de horas-trabajador (Y), variable dependiente, basndonos en el tamao del
lote (X), variable independiente. Resulta la siguiente tabla:
Produccin
Obreros Tamao del lote (X) Horas-trabajador (Y)
1 30 73
2 32 67
3 40 87
4 47 95
5 50 108
6 55 112
7 60 128
8 64 135
9 70 148
10 75 160
1
Probabilidad y Estadstica Descriptiva
El diagrama de dispersin nos da una idea de tipo de relacin que tienen las variables. En
nuestro caso, la variable dependiente aumenta a medida que aumenta la variable independiente;
es decir, que a medida que aumenta el tamao del lote aumenta la cantidad de horas-trabajador.
Observamos que la nube de puntos nos da una idea que los puntos siguen la forma de una recta
lineal que llamamos recta de regresin lineal simple.
Podemos encontrarnos con diagramas de dispersin que nos muestren otros tipos de regresin,
con funciones matemticas ms complejas.
La relacin ms sencilla es una relacin lineal, por ejemplo:
Y
y
x
0
Y = 0 + i + 1
donde
2
Probabilidad y Estadstica Descriptiva
Observamos que los valores Y aumentan a medida que incrementa X, la relacin es lineal y
positiva.
2)
En la medida que X aumenta va disminuyendo laos valores Y, tenemos una relacin lineal y
negativa.
3)
Muestra un grupo de datos en los cuales hay muy poca o no hay relacin en la variables X e Y,
observamos valores altos y bajos de Y para cada valor de X.
3
Probabilidad y Estadstica Descriptiva
4)
Nos muestra curvilnea positiva entre X e Y. Los valores de Y aumentan al incrementarse los
valores de X, pero este incremento disminuye cuando se sobrepasan ciertos valores de X.
5)
Se muestra una relacin parablica entre X e Y. vemos que x aumenta, al principio y disminuye,
pero que a medida que X sigue incrementndose Y no solamente deja de disminuir sino que en
realidad aumenta por encima de su valor mnimo.
6)
El mtodo de mnimos cuadrados es la tcnica matemtica utilizada para determinar los valores
de b0 y b1 que mejor se ajusta a los datos observados. Al utilizar el mtodo de los mnimos
cuadrados obtenemos dos ecuaciones conocidas como ecuaciones normales. Las resolvemos y
obtenemos las siguientes formulas:
XiYi n X Y
b1 =
Xi2 n X2
b0 = Y - b1X
donde
Yi Xi
Y= y X= n
n
5
Probabilidad y Estadstica Descriptiva
N X Y X2 Y2 XY
1 3 25 625 75
2 4 32 1024 128
3 4 26 676 104
4 7 38 1444 266
5 7 34 1156 238
6 8 41 1681 328
7 9 39 1521 351
8 11 46 2116 506
9 12 44 1936 528
10 12 51 2601 612
11 14 53 2809 742
12 16 58 3364 928
13 14 61 3721 1037
14 20 64 4096 1280
15 23 66 4359 1518
16 25 70 4900 1750
Total 192 748 2988 38029 10391
6
Probabilidad y Estadstica Descriptiva
Calculamos la media de X e Y:
Yi 748 Xi 192
Y= = = 46,75 X= = = 12
n 16 n 16
Luego:
XiYi n X Y
b1 =
Xi2 n X2
10391 (16). (12). (46,75)
b1 =
2988 16. (144)
b0 = Y - b1X
i = b0 + b1Xi
i = 21,91 + 2,07 Xi
c) Si los automviles no tienen aditamentos, el tiempo de entrega tiene un promedio de 22 das
aproximadamente; por cada aditamento pedido el tiempo de entrega aumenta en 2,07 das.
d) i = 21,91 + 2,07 Xi
i = 21,91 + 2,07 (18)
i = 21,91 + 37,26 = 59,17 das
Como se ha dicho, uno de los objetivos mas importantes por lo que obtiene una ecuacin de
regresin, es de hacer predicciones. Una vez establecida una relacin lineal y conociendo el
valor de la variable X es posible predecir un valor de Y, mediante i , como se ha visto en el
punto c) del ejemplo.
Al hacer predicciones con base en la recta del mejor ajuste, es necesario observar las siguientes
restricciones:
1) La ecuacin debe usarse para hacer prediccin solo acerca de
la poblacin de la cua se extrajo la muestra.
2) La ecuacin debe usarse solo dentro del dominio muestral de
la variable X. En este caso entre 3 y 25 numero de opciones de pedidos.
3) Si la muestra fue tomada ahora, no espere que los resultados
sean validos para el ao 1990 o el 2005. Las situaciones de esos aos pueden ser
distintas al actual.
7
Probabilidad y Estadstica Descriptiva
Se ha visto que hemos utilizado el mtodo de mnimo cuadrados para estimar la recta de
regresin lineal de mejor ajuste, que con este mtodo minimizbamos las variaciones de los
puntos a la recta, pero esta recta no es pronosticador perfecto, salvo que todos los puntos caigan
sobre la recta de regresin.
Como no podamos predecir que todos los puntos caigan sobre la recta de regresin y esta solo
nos sirve para poder predecir en forma bastante aproximada un valor de Y dado X, debemos
desarrollar un estadstico que nos mida la variabilidad de los valores reales de Yi a partir de sus
valores predichos, como hacemos con el desvi estndar para calcular la variacin de cada
observacin con su media. La medida de variabilidad alrededor de la lnea de regresin se
conoce con el nombre de error estndar de la estimacin.
Cuando trazamos la recta de regresin predicha de mejor ajuste, observamos que hay muchos
puntos que caen sobre ella, otro por debajo y otro por encima; de este modo:
(Yi ) = 0
El error estndar de la estimacin, que simbolizamos Sxy, ser:
(Yi - i)2
Sxy =
n-2
Yi2 b0 Yi b1 XiYi
Sxy = n-2
38029 (21,91 * 748) (2,07*10391)
Sxy = = 3,06
16 - 2
8
Probabilidad y Estadstica Descriptiva
Para medir que tan bien una variable independiente predice a la variable dependiente en nuestro
modelo estadstico es necesario desarrollar alguna medida de variacin.
La primera de ella que veremos es la SUMA TOTAL DE CUADRADOS (SCT) que es una
medida de la variacin de los valores Yi alrededor de su media Y.
En el anlisis de regresin, la suma total de cuadrados (SCT) puede dividirse en la variacin
explicada o tambin llamada SUM DE CUADRADO DEBIDO A LA REGRESION (SCR), que
se puede atribuir a la relacin entre la variable X e Y.
La variacin no explicada o SUMA DE CUADRADO DE ERROR (SCE), que se puede atribuir
a factores diferentes a la relacin entre X e Y. en un grafica seria:
Yi i = b0 + b1Xi
SCE
SCT
SCR
Y
Xi
La SCR representa la diferencia entre Y (promedio de la variable Yi) y i (el valor promedio de
Y que sera predicho a partir de la relacin de regresin.
La SCE representa aquella parte de la variacin de Y que no es explicada por la regresin. Estas
basadas en la diferencia entre el punto Yi y la recta estima i.
Estas medidas de variacin las podemos ahora representar de la siguiente manera:
Nos indica que el 95,75% de la variacin del tiempo de entrega puede ser explicado por la
variacin en el nmero de aditamentos pedidos.
Adems este valor tan alto me esta indicando que existe una fuerte relacin entre las variables
estudiadas, puesto que el uso de un modelo de regresin ha reducido la variabilidad en la
prediccin del tiempo de entrega en 95,72%. Solamente el 4,28% de la variabilidad de la
muestra puede explicarse mediante factores diferentes a los del mtodo de regresin lineal.
CORRELACIN
Correlacin es el estudio de grado o intensidad de la relacin que existe entre dos variables, es
decir que la correlacin tiene que ver con relacin con la relacin y la intensidad de esa relacin
entre dos variables.
Clases de correlacin
10
Probabilidad y Estadstica Descriptiva
El diagrama de dispersin
En la tabla siguiente damos las Calificaciones de 24 alumnos ordenadas segn las puntuaciones
obtenidas en la prueba de Instruccin.
Donde
11
Probabilidad y Estadstica Descriptiva
Test de Inteligencia Y
18
16
14
12
10
8
6
4
2
0 5 10 15 20 25 30 35 40 45 50
Prueba de Instruccin X
Como podemos apreciar hemos trazado por los puntos de X e Y, los valores de cada una de sus
medias, con lo que la distribucin nos ha quedado dividida en cuatro cuadrantes:
Que por ser correlacin alta, aunque imperfecta, la mayora de los sujetos se encuentran por
encima de la media de una de las variables y tambin por encima de la media de la otra variable
y viceversa, que la mayora de los sujetos que se encuentran por debajo de la media de una
variable, tambin se encuentran por debajo de la media de la otra variable. En los otros dos
cuadrantes en donde una variable es positiva y la otra negativa, se encuentran otros sujetos. Los
pocos alumnos que se encuentran en donde las variables tienen distintos signos representan
algo no corriente o anormal, debe indagarse el motivo que lo produce.
Por ejemplo vemos que el alumno que ocupa el lugar 15 de nuestra tabla, ha superado en
bastante con su instruccin a su inteligencia y por consiguiente tiene un extraordinario
rendimiento.
Se ve claro, que en ste alumno operan factores que compensan su menor inteligencia, tales
como voluntad fuerte, gran inters, enseanza muy adaptada o ambiente familiar muy favorable,
etc., haciendo que su cociente de rendimiento sea muy alto.
En cambio, los alumnos situados en el otro cuadrante, (+y, -x), tienen una instruccin inferior de
lo que corresponde a su inteligencia. Por ejemplo, el alumno 9, manifiesta factores que impiden
el normal aprendizaje, quiz falta de escolaridad, o de adaptacin, o de salud o existen
dificultades en el hogar, etc.
12
Probabilidad y Estadstica Descriptiva
Como conclusin del diagrama de dispersin podemos decir que por medio de la ubicacin
de puntos de X e Y, establecemos qu tipo de correlacin existe. Veamos ejemplos:
Supongamos tener las tres distribuciones siguientes:
El coeficiente de correlacin
XiYi n X Y
r=
Xi2 n X2 Yi2 n Y2
13
Probabilidad y Estadstica Descriptiva
75 80
X= Y=
10 10
X= 7,5 Y= 8
XiYi n X Y
r=
Yi2 n Y2 Xi2 n X2
702 10 * 7,5 * 8
r=
687 [10 * (7,52)] 784 [10 * (82)]
102
r= = 0,76
124,5 144
14
Probabilidad y Estadstica Descriptiva
Otra forma de calcular la correlacin es mediante la frmula de Bravais Pearson, donde las
correlaciones estn tomadas de la medias de ambas distribuciones, su frmula es:
Zx Zy
Br =
(Zx)2 * (Zy)2
Este procedimiento queda abreviado cuando se conoce de antemano la desviacin tpica de cada
serie de la muestra, entonces la frmula dada se sustituye por:
Zx Zy
Br =
n Sx S y
Ejemplo: queremos calcular la correlacin entre los puntajes tomados por 12 adultos en dos test
de asociacin controlada.
15
Probabilidad y Estadstica Descriptiva
750
M(x) = 12 = 62,5
321,5
Br = = 0,78
365
595 * 282,96
M(y) = 12 = 30,42
Consiste en:
a. Convertir las puntuaciones ordinales a posicin de orden o rango, asignando un rango
de uno al puntaje menor, un rango de dos al siguiente y as sucesivamente, el puntaje
mayor tendr un rango igual a n. esto se hace para ambas variables.
b. Calculamos el coeficiente de Spearman entre rangos.
Tenemos d que es la diferencia entre los rangos que han comprendido a cada una de las
unidades de observaciones. Este coeficiente, al igual que los anteriores varia entre -1 y 1
y Sr=0 indica ausencia de correlacin.
6 * d2
Sr = 1-
n * (n2-1)
6 * 170
Sr = 1 -
14 * (142 1)
16
Probabilidad y Estadstica Descriptiva
Sr = 0,63
Para este anlisis recurrimos a las tablas de doble entrada o tabla de contingencia, ya vistas, en
donde una variable era dispuesta en fila y la otra en columna.
A pesar de que tan solo el anlisis de la tabla puede sacar una conclusin, se hace necesario
calcular un coeficiente de asociacin que nos indicara el grado de asociacin de dos atributos.
El coeficiente de asociacin entre dos atributos es el Q de Kendall, que lo calculamos para
tablas de 2X2. Se lo define como:
A B
A*DB*C
Q=
C D A*D+B*C
Veamos un ejemplo: se realiza un estudio sobre una muestra de hogares para ver el rendimiento
escolar de nios en funcin de si la madre trabaja o no. Resulto la siguiente tabla:
rendimiento La madre trabaja Total
Si No
Bueno 37 51 88
Regular 12 14 26
Total 49 65 114
37 * 14 51 * 12
Q= = -0,08
37 * 14 + 51 * 12
Coeficiente de contingencia
Veamos un ejemplo: un grado que esta integrado por 33 alumnos a sido clasificado en lectura y
escritura con muy bueno (MB), bueno (B), regula (R) y malo (M). Esos 33 alumnos estn
distribuidos como indica la siguiente tabla:
Lectura
M R B MB Total
MB 0 0 2 4 6
Escritura
B 0 1 4 2 7
R 2 5 3 0 10
M 6 3 1 0 10
Total 8 9 10 6 33
En esta tabla podemos observar como se distribuidos las notas. Para hallar el coeficiente de
contingencia, se halla el cuadrado de cada nmero que expresa los alumnos que han obtenido
determinada calificacin y se divide por el producto de los totales de fila por columna
obtenemos de esta manera la siguiente tabla:
17
Probabilidad y Estadstica Descriptiva
Lectura
M R B MB Total
MB 0 0 22
42
10*6 6*6
B 0 12 42 22
Escritura
S-1
C= S
1,825 - 1
C= 1,825 C =0,67
Esto nos indica que hay asociacin entre las variables estudiadas.
En este tipo de tablas el valor mximo que puede tomar C es 0,707 que significa alta asociacin
entre las variables.
Coeficiente V de Cramer
Es uno de los coeficientes ms convenientes para tablas de doble entrada, pues sus limites son 0
y 1, donde el 0 indica ausencia de asociacin.
Su frmula de clculo es:
X2
V= n * min (h 1; c 1)
2
(fo ft)2 nc * nf
X = ft y ft = n
18
Probabilidad y Estadstica Descriptiva
fc = frecuencia observada
h = numero de filas
c = numero de columnas
nc = total de columnas
nf = total de filas
n = total de la de la muestra
min (h -1; c 1) se refiere a un solo valor, el menor entre h 1 o c 1.
nc * n f
ft = n
24 * 30 26 * 20 24 * 20 26 * 20
ft = 50 ; 50 ; 50 ; 50
2
(fo ft)2 (19 14,4)2 (11 15,6)2 (5 9,6)2 (15 10,4)2
X = ft = 14,4 + 15,6 + 9,6 + 10,4
X2 7,06
V= n * min (h 1; c 1) = 50,1 = 0,37
Covarianza
La covarianza es una medida que nos permite saber si la relacin entre las variables es directa o
inversa y si dicha relacin puede ser lineal o no. Se lo conoce como varianza conjunta. Se nota
como Cov y su frmula es la siguiente:
Cov = n XY
19
Probabilidad y Estadstica Descriptiva
Si la varianza es positiva, la relacin entre las dos variables es directa, es decir que si crece una
variable crece la otra, y si es negativa la relacin es inversa.
Segn la definicin dada la covarianza, el signo y su valor dependern del signo de las
diferencias (Xi X) e (Yj- Y). Para ilustrarlo consideremos los siguientes grficos:
3 * 4 + 16 * 3 + 20 * 3 + 10 * 2 + 1 * 1
X= 50
X = 2,82
3 * 6 + 16 * 7 + 20 * 8 + 10 * 9 + 10 * 1
Y=
50
Y = 7,8
20