You are on page 1of 8

Probabilidades y Estadstica

Estadstica Descriptiva Dos Variables Agrupacin de Datos Tablas de Contingencia


Cuando se desea analizar dos variables a la vez, las tablas de contingencia son un mtodo de agrupacin de datos que puede resultar de mucha utilidad. Los criterios para construir las tablas de frecuencia pueden ser de ayuda tambin para la confeccin de tablas de contingencia. Ejemplo: Se analiz la distribucin de la nota final en un curso de Investigacin de Operaciones en una Universidad de la regin. A los 72 alumnos, se les registr la nota final, y adems el sexo. La informacin anterior se resume en la siguiente tabla de contingencia:
Gnero Intervalo de Clase [3,4 , 4[ [4 , 4,5[ [4,5 , 5[ [5 , 5,5[ [5,5 , 6[ [6 , 6,5[ [6,5 , 7[ Total Hombres 1 10 17 15 5 3 1 52 Mujeres 0 4 8 3 1 4 0 20 Total 1 14 25 18 6 7 1 72

Nota Final

0,0139 0,1389 0,2361 0,2083 0,0694 0,0417 0,0139 0,7222

0,0000 0,0556 0,1111 0,0417 0,0139 0,0556 0,0000 0,2778

0,0139 0,1944 0,3472 0,2500 0,0833 0,0972 0,0139 1

Como se puede ver, en la tabla se presentan dos variables, una continua (Nota Final), y una cualitativa (Sexo) y se analizan de manera conjunta. Es decir, cada celda contiene la frecuencia absoluta correspondiente al intervalo de clase de nota final y a la clase correspondiente al sexo, en este caso hombre o mujer. Adems, si se desea, se puede agregar a la derecha de cada frecuencia absoluta, la frecuencia relativa respectiva. Ejemplo: Una lnea area realiz un estudio respecto de la edad de sus pasajeros, y el nmero de vuelos al ao que realizan. Para ello se tom una muestra de 50 personas. La informacin se resume en la siguiente tabla:
Nmero de vuelos mayor que 3-5 5 1 0,02 2 8 0,16 10 6 0,12 15 2 0,04 1 17 0,34 28

Edad [0 , 25[ [25 , 40[ [40 , 65[ [65 , 100[ Total

1-2 1 2 1 1 5

0,02 0,04 0,02 0,02 0,1

0,04 0,2 0,3 0,02 0,56

Total 4 20 22 4 50

0,08 0,4 0,44 0,08 1

En relacin a la tabla anterior, se puede concluir acerca de la relacin entre ambas variables. Por ejemplo, se observa que las personas de entre 40 y 65 aos son las que ms viajan ya que tienen la mayor frecuencia correspondiente a 5 vuelos o ms. A partir de los ejemplos anteriores resulta fcil establecer de manera ms formal las llamadas tablas de contingencia.

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Tablas de Contingencia Cuando las observaciones de una muestra pueden clasificarse en dos o ms categoras, stas pueden ser presentadas en las denominadas Tablas de Contingencia. Las tablas de contingencia ms utilizadas son las que permiten clasificar las observaciones de acuerdo a dos criterios de clasificacin (usualmente variables categricas, pero no necesariamente) con r y c categoras en cada criterio respectivamente. Y X 1 2 i r Total 1 n11 n21 ni1 nr1 n.1 2 n12 n22 ni2 nr2 n.2 j n1j n2j nij nrj n.j c n1c n2c nic nrc n.c Total n1. n2. ni. n1. n..

Donde nij es la frecuencia absoluta del par (xi,yi), es decir, el nmero de objetos que presentan el valor xi en X e yj en Y. La frecuencia relativa correspondiente se calcula como:

fi , j =
donde

nij n..

nij = n..
i =1 j =1

f
i =1 j =1

ij

=1

Distribucin Marginal A partir de la distribucin conjunta de X e Y es posible estudiar cada una de las variables por separado, dando con ello origen a las distribuciones marginales de X e Y. La distribucin marginal de X corresponde a los distintos valores de X junto a sus respectivas frecuencias, siendo ni. y fi. la frecuencia absoluta y relativa marginal de xi en X, independientemente del valor que adopte Y.

ni. = nij = ni1 +ni 2 + L nic


j =1

fi. =

ni. n..

De manera anloga, la distribucin marginal de Y corresponde a los distintos valores de Y junto a sus respectivas frecuencias, siendo n.j y f.j la frecuencia absoluta y relativa marginal de yi en Y, independientemente del valor que adopte X.

n. j = nij = n1 j +n2 j + L nrj


i =1

f. j =

n. j n..

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Distribucin condicional La distribucin condicional permite observar cmo se distribuye una variable sobre la base de una determinada condicin en la otra. La distribucin de X condicionada al valor yi de Y (X\Y=yi) muestra el comportamiento de la variable X en aquellos sujetos que presentan el valor en Y el valor yi.. X x1 x2 xi xr Total nij fij n1j f1j n2j f2j nij nrj n.j fij frj

Ejemplo: Una lnea area realiz un estudio respecto de la edad de sus pasajeros, y el nmero de vuelos al ao que realizan. Para ello se tom una muestra de 50 personas. La informacin se resume en la siguiente tabla:
N de Vuelos al Ao 3-5 Ms de 5 1 2 8 10 6 15 2 1 17 28

Edad [0 , 25[ [25 , 40[ [40 , 65[ [65 , 100[ Total Distribucin Marginal de la Edad fi. Edad ni. 0,08 4 [0 , 25[ 0,40 20 [25 , 40[ 0,44 22 [40 , 65[ 0,08 4 [65 , 100[ 1,00 50 Total

1-2 1 2 1 1 5

Total 4 20 22 4 50

Distribucin Marginal del N de Vuelos N de Vuelos al 1-2 3-5 Ms de 5 Total Ao 5 17 28 50 n.j 0,10 0,34 0,56 1,00 f.j

Distribucin Condicional, dado que el Nmero de Vuelos es entre 3 y 5 fi. X\Y=3-5 ni. 1 0,06 [0 , 25[ 8 0,47 [25 , 40[ 6 0,35 [40 , 65[ 2 0,12 [65 , 100[ 17

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Relacin entre Dos Variables


En algunos casos, se desea analizar la existencia de una potencial relacin entre dos variables. Para ello, se puede recurrir a las llamadas medidas de asociacin. Adems, en caso de que exista una relacin de causa efecto, interesa construir un modelo que permita describir el comportamiento de la variable respuesta (dependiente) en funcin de la o las variables predictoras (independientes). En este caso, se pueden utilizar mtodos de regresin, siendo un caso particular la regresin lineal simple (Estos mtodos se vern ms adelante). En trminos prcticos, previo a la estimacin del grado de asociacin y a la construccin de un modelo de regresin, es primordial realizar un anlisis exploratorio de datos, construyendo entre otros un grfico de dispersin, que permita visualizar la presencia de observaciones que resulten diferentes del resto, es decir, se debe realizar un anlisis que permita detectar la presencia de observaciones errneas, atpicas o faltantes, adems de la existencia de un cierto grado de asociacin entre las variables. La inclusin en el estudio de datos atpicos, que pueden ser mediciones reales (observaciones vlidas de situaciones anmalas) o producto de errores en el registro o lectura de los datos, puede conducir a conclusiones errneas, en trminos del grado de asociacin que puede existir entre las variables y a la obtencin de modelos que no representen adecuadamente el fenmeno estudiado, producto de la distorsin que estas observaciones pueden provocar en la verdadera relacin de los datos. Las figuras siguientes ilustran esta situacin.
Relacin Peso Talla en Nios
14 12 10
Peso 12 10 8 6 4 2 0

Relacin Peso Talla en Nios

8 6 4 2 0 25 40 55 Talla 70 85 100

Peso

25

40

55 Talla

70

85

100

Fig. 1: Datos sin presencia de datos atpicos


Relacin Peso Talla en Nios
12 10 8 Peso 6 4 2 0 25 40 55 Talla 70 85 100

Fig. 2: Dato no anmalo pero que influye en la relacin entre las variables
Relacin Peso Talla en Nios
14 12 10 Peso 8 6 4 2 0 25 40 55 Talla 70 85 100

Fig. 3: Dato atpico que afecta la relacin entre las variables

Fig.4: Dato atpico que no afecta la relacin entre las variables

Respecto de los datos atpicos, se pueden dar las siguientes situaciones que llevan a clasificar estas observaciones en influyentes (si son capaces de modificar la relacin entre las variables) y en no influyentes (si no la cambian): 1. El dato se encuentra fuera del rango de la mayora de los valores restantes, afectando de manera importante la forma de la relacin entre las variables y los resultados del proceso de ajuste de un modelo de regresin. 2. Un punto, no es anmalo respecto de la variable respuesta ni de la variable predictora, sin embargo es atpico respecto de la relacin entre las variables. 3. Un punto, es anmalo respecto de la variable respuesta y de la variable predictora, pero no afecta la relacin entre las variables. 4. Un punto, es anmalo respecto de la variable respuesta y de la variable predictora, y adems afecta la relacin entre las variables.
Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Covarianza La Covarianza entre las variables X e Y, es una medida que representa la variabilidad conjunta de ambas variables respecto de su centroide.

Cov( X , Y ) =

(x
i =1

x ) ( yi y ) n 1

La covarianza se interpreta de la siguiente forma: Si Cov(x,y) > 0, entonces ambas variables crecen o disminuyen a la vez (nube de puntos creciente). Si Cov(x,y) < 0, entonces cuando una variable crece, la otra tiende a decrecer (nube de puntos decreciente). Si Cov(x,y) = 0, se tiene ausencia de relacin lineal entre las variables, en este caso, las observaciones se reparten con igual intensidad en torno de su centroide. Si Cov(x,y) = 0, pero las observaciones se reparten homogneamente entre el primer y tercer cuadrante y entre el segundo y cuarto cuadrante; a pesar de tener covarianza cero, esta no indica ausencia de relacin entre las variables.

Coeficiente de Correlacin Lineal La forma de medir el grado de asociacin lineal entre dos variables, pero como un indicador libre de unidad de medida, es a travs del coeficiente de correlacin. Si las dos variables sobre las cuales se desea medir la intensidad de asociacin son cuantitativas continuas, el indicador ms adecuado es el coeficiente de correlacin de Pearson, el cual se define y calcula de la siguiente manera:

r=

Cov( X , Y ) = Sx S y

n n n n xi yi xi yi i =1 i =1 i =1

n n n n n xi2 xi n yi2 yi i =1 i =1 i =1 i =1

Algunas caractersticas relevantes del coeficiente de Correlacin son: Cuantifica la fuerza de la relacin lineal entre dos variables cuantitativas. Corresponde un valor independiente de las unidades de medida utilizadas para medir las variables. El valor del coeficiente de correlacin se altera de forma importante ante la presencia de un valor extremo La correlacin no implica causalidad. La causalidad es un juicio de valor que requiere ms informacin que un simple valor cuantitativo de un coeficiente de correlacin. -1 r 1 r = 1 existe una relacin lineal directa y perfecta entre las variables X e Y. r = -1 existe una relacin lineal inversa y perfecta entre las variables X e Y. r = 0 no existe una relacin lineal entre las variables, pudiendo existir otra forma de asociacin entre ellas.
Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

La correlacin no cambia si todos los valores de una de sus variables se convierten a una escala diferente. La eleccin de x o y no afecta el clculo de r.

Ejemplo: Los datos que se presentan a continuacin representan el peso y la talla de 20 nios varones.
Talla Peso Obs

xi

yi

xi2

yi2

xi yi

xi x
5,65 9,65 -7,35 1,65 -6,35 -8,35 3,65 -1,35 -12,35 16,65 -2,35 -0,35 -5,35 -0,35 -9,35 14,65 -7,35 4,65 -4,35 8,65

yi y
1,55 2,55 -1,45 0,55 -0,45 -2,45 0,55 -0,45 -3,45 3,55 -0,45 -0,45 -1,45 0,55 -2,45 3,55 -2,45 1,55 -1,45 2,55

( xi x )( yi y ) ( xi x ) 2 ( yi y ) 2
8,76 24,61 10,66 0,91 2,86 20,46 2,01 0,61 42,61 59,11 1,06 0,16 7,76 -0,19 22,91 52,01 18,01 7,21 6,31 22,06 309,85 31,92 93,12 54,02 2,72 40,32 69,72 13,32 1,82 152,52 277,22 5,52 0,12 28,62 0,12 87,42 214,62 54,02 21,62 18,92 74,82 1242,55 2,40 6,50 2,10 0,30 0,20 6,00 0,30 0,20 11,90 12,60 0,20 0,20 2,10 0,30 6,00 12,60 6,00 2,40 2,10 6,50 80,95

1 72 9 5184 81 648 2 76 10 5776 100 760 3 59 6 3481 36 354 4 68 8 4624 64 544 5 60 7 3600 49 420 6 58 5 3364 25 290 7 70 8 4900 64 560 8 65 7 4225 49 455 9 54 4 2916 16 216 10 83 11 6889 121 913 11 64 7 4096 49 448 12 66 7 4356 49 462 13 61 6 3721 36 366 14 64 528 66 8 4356 15 25 285 57 5 3249 16 81 11 6561 121 891 17 59 5 3481 25 295 18 81 639 71 9 5041 18 62 6 3844 36 372 20 750 75 10 5625 100 Suma 1327 149 89289 1191 10196

Cov( X , Y ) =
n i

(x x ) ( y y)
i =1 i i

n 1
2

309.85 = 16.3079 20 1
Sy =

Sx =

( x x )
i =1

n 1

1242.55 = = 8.0869 19

( y y )
i =1 i

n 1

80.95 = 2.0641 19

r=

Cov( X , Y ) 16.3079 = = 0.9770 Sx S y 8.0869 ( )( 2.0641)


20(10196) (1327)(149) 20 ( 89289 ) (1327 ) 20 (1191) (149 )
2 2

r=

n n n n xi yi xi yi i =1 i =1 i =1

n xi2 xi n yi2 yi i =1 i =1 i =1 i =1
n n n n

6197 = 0.977 6343.009

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

7
Variacin de Peso segn Talla

14 12 10 Peso 8 6 4 2 0 40 50 60 Talla 70 80 90

Ejemplo: Los siguientes datos corresponden a la temperatura promedio semanal observada, y el consumo semanal de gas en una casa. Calcule la covarianza y el coeficiente de correlacin de ambas variables.
Temp Consumo Exterior Gas (pies (C) cbicos)

xi
-0,7 0,8 1 1,4 1,5 1,6 2,3 2,5 2,5 3,1 3,9 4 4 4,2 4,3 4,6 4,7 4,9 50,6

yi
4,8 4,6 4,7 4 4,2 4,2 4,1 4 3,5 3,2 3,9 3,5 3,7 3,5 3,5 3,7 3,5 3,4

xi2
0,49 0,64 1 1,96 2,25 2,56 5,29 6,25 6,25 9,61 15,21 16 16 17,64 18,49 21,16 22,09 24,01

yi2
23,04 21,16 22,09 16 17,64 17,64 16,81 16 12,25 10,24 15,21 12,25 13,69 12,25 12,25 13,69 12,25 11,56

xi yi
-3,36 3,68 4,7 5,6 6,3 6,72 9,43 10 8,75 9,92 15,21 14 14,8 14,7 15,05 17,02 16,45 16,66

xi x
-3,5111 -2,0111 -1,8111 -1,4111 -1,3111 -1,2111 -0,5111 -0,3111 -0,3111 0,2889 1,0889 1,1889 1,1889 1,3889 1,4889 1,7889 1,8889 2,0889

yi y
0,9111 0,7111 0,8111 0,1111 0,3111 0,3111 0,2111 0,1111 -0,3889 -0,6889 0,0111 -0,3889 -0,1889 -0,3889 -0,3889 -0,1889 -0,3889 -0,4889

( xi x )( yi y )
-3,1990 -1,4301 -1,4690 -0,1568 -0,4079 -0,3768 -0,1079 -0,0346 0,1210 -0,1990 0,0121 -0,4623 -0,2246 -0,5401 -0,5790 -0,3379 -0,7346 -1,0212

( xi x ) 2
12,3279 4,0446 3,2801 1,9912 1,7190 1,4668 0,2612 0,0968 0,0968 0,0835 1,1857 1,4135 1,4135 1,9290 2,2168 3,2001 3,5679 4,3635

( yi y ) 2
0,8301 0,5057 0,6579 0,0123 0,0968 0,0968 0,0446 0,0123 0,1512 0,4746 0,0001 0,1512 0,0357 0,1512 0,1512 0,0357 0,1512 0,2390

70

186,9 276,02 185,63

-11,1478

44,6578

3,7978

Suma

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Cov( X , Y ) =

(x
i =1

x )( yi y )

n 1
2

- 11,1478 = 0,6558 18 1

Sx =
r=

(x
i =1

x)

n 1

44,6578 = 1,6208 18 1

Sy =

(y
i =1

y)

n 1

3,7978 = 0,4726 18 1

Cov( X , Y ) 0,6558 = = -0,8560 SxS y (1,6208)(0,47265)


n n n n xi yi xi yi i =1 i =1 i =1 n 2 2 2

n n n n x i xi n yi yi i =1 i =1 i =1 i =1 200,66 = 803,84 68,36

r=

18(186,9) (50,6 ) 18(276,02) (70 )


2

18(185,63) (50,6 )(70 )

Consumo Gas versus Temperatura promedio Exterior


6

Consumo Gas (pies cbicos al mes)

5 4 3 2 1 0 -1 0 1 2 3 4 5 6 Temperatura Exterior (C)

Edmundo Pea Rozas, Juan Garcs Seguel

You might also like