You are on page 1of 14

I.P.F.A.

CDIZ Departamento de Matemticas Estadstica Bidimensional


Acceso Universidad (Estadstica)

DISTRIBUCIONES BIDIMENSIONALES

1. INTRODUCCIN

En temas anteriores, se ha estudiado una sola caracterstica de una


poblacin. Pero podramos considerar, simultneamente, varias de ellas. En
concreto, en este tema estudiaremos dos caractersticas de una poblacin. La
variable as definida se llama bidimensional.

2. VARIABLES ESTADSTICAS BIDIMENSIONALES

Si de una cierta poblacin se estudian dos caracteres simultneamente


se obtienen dos series de datos.

Individuos A B C .......
Carcter X x1 x2 x3 ........
Carcter Y y1 y2 y3 ...........

La lista de pares de datos correspondientes a cada individuo de la


poblacin (repetidos o no), es lo que llamamos variable estadstica
bidimensional.

La definicin formal sera: Las variables estadsticas bidimensionales


las representaremos por el par (X, Y) donde X es una variable unidimensional
que toma los valores x1, x2,......, xn e Y es otra variable unidimensional que
toma los valores y1, y2,.....,yn. Por lo tanto, la variable estadstica bidimensional
(X,Y) toma los valores (xi, yi), 1 i n

3. TABLAS Y GRFICOS DE UNA VARIABLE BIDIMENSIONAL

En las distribuciones bidimensionales, los caracteres estadsticos pueden


ser de cualquiera de los tipos estudiados en las unidimensionales e incluso los
dos caracteres en estudio pueden tener distinta naturaleza.
De modo similar al caso unidimensional, podemos recoger la informacin
relativa a una variable estadstica bidimensional en una tabla, estas pueden ser
de dos tipos:
- Tablas de entrada simple (de datos apareados)
- Tablas de doble entrada o de contingencia

La estructura general de estas tablas es la siguiente:

1
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

Tabla simple Tabla de doble entrada


xi yi ni Y y1 y j y q ni
x1 y1 n1 X
x1 n11 n1 j n1q n1
x2 y2 n2
x2 n 21 n2 j n2 q n2

xk yk nk xk nk1 nk j nk q nk
N n j n 1 n j n q n = N

ni = frecuencia absoluta del par ( xi , y i ) ni j =frecuencia absoluta del par ( xi , y j )

- Ejemplo 1: tabla de entrada simple


A cada uno de los reclutas de un reemplazo se les talla y pesa. Se
trata de dos variables cuantitativas.

xi
1,70 1,70 1,69 1,68 ........
( tallas en m )
yi
67 75 70 66 .......
( peso en kg )

En este caso no aparecen las frecuencias absolutas porque


habra un recluta con cada peso y talla, se podra aadir la fila
correspondiente (o columna) con cada frecuencia absoluta igual a
uno.

- Ejemplo 2: tabla de doble entrada


Entre los empleados de una empresa se ha realizado una
encuesta sobre el consumo del tabaco, que ha arrojado los
siguientes resultados:

Hbito
Fumadores No fumadores Totales de filas
Sexo

Varones 49 64 113
Mujeres 43 37 80

Total general
Totales de
92 101 193
columnas

Se puede pasar de una tabla simple a una de doble entrada, sin embargo
no siempre se podra hacer el paso inverso sobre todo cuando en la tabla de
contingencia alguno de los caracteres viene tabulado en forma continua.

2
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

Para realizar el paso de una tabla simple a una de doble entrada se


procede de la forma que se explica en el siguiente ejemplo.

Ejemplo

Se han clasificado 50 familias con arreglo al nmero de hijas e hijos,


obtenindose los siguientes resultados:

N de hijos N de hijas N fam


(X, Y)
(X) (Y) (f. Absoluta)
0 0 (0,0) 2
0 1 (0,1) 3
0 3 (0,3) 1
1 2 (1,2) 6
1 3 (1,3) 4
2 0 (2,0) 4
2 1 (2,1) 9
2 4 (2,4) 2
3 0 (3,0) 3
3 2 (3,2) 6
3 5 (3,5) 1
4 0 (4,0) 1
4 3 (4,3) 2
4 4 (4,4) 1
5 1 (5,1) 3
5 3 (5,3) 1
6 2 (6,2) 1
N = 50

A partir de sta, obtenemos una tabla de doble entrada:

X
0 1 2 3 4 5 6
Y
0 2 4 3
10 1
1 3 9 15 3
2 6 6 1 13
3 1 4 2 1 8
4 2 1 3
5 1 1
6 10 15 10 4 4 1 50

4. DISTRIBUCIONES DE FRECUENCIAS

Se disponen las frecuencias en una tabla de doble entrada donde las xi


y las yj estn ordenadas en forma creciente. Recibe el nombre de tabla de
frecuencias.

3
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

Frecuencia absoluta de un par: Si hay pares que se repiten se


agrupan siendo nij la frecuencia absoluta del par (xi, yj).

Quedando la siguiente tabla de doble entrada:

X Frec. absolutas
x1 x2 ....... xk
Y marginales de Y
y1 n11 n21 ..... nk1 n 1
n 2
y2 n12 n22 ...... nk2
....
...... ..... .... .... ...
.
yr n r
n1r n2r ... nkr
Frec. absolutas nij = N
n n .. nk.
marginales de X 1. 2. i j

En la prctica algunas de las nij pueden ser cero. En tal caso la casilla
correspondiente se dejar en blanco.

Al estudiar una variable bidimensional se obtienen varias distribuciones


unidimensionales, segn se consideren las filas o las columnas de la tabla en
estudio.

Las distribuciones unidimensionales del total de los individuos de la


poblacin, respecto a cada una de las caractersticas reciben el nombre de
distribuciones marginales.

Frecuencia absolutas marginales de las variables X e Y


- De X: nij = ni , frecuencia absoluta marginal de xi.
j

- De X: nij = n j , frecuencia absoluta marginal de yi.


i

Y se cumple: nij = N=nmero total de pares.


i j

Distribucin marginal de la Y:

Frec. absolutas
Y
marginal de Y
n 1
y1 n 2
y2
.
.
.
.
yr n r

Anlogamente la distribucin marginal de la X

4
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

Frecuencias absolutas condicionadas: Si en la tabla de correlacin


consideramos la primera columna y una columna intermedia, la
correspondiente a yj, se obtiene una distribucin unidimensional que
llamaremos distribucin condicionada de la variable X por la modalidad yj
de la variable Y.

Frec.absolutas
X condicionadas por
yj
x1 n1j
x2 n2j
. .
. .
xk nkj

Anlogamente se define la distribucin condicionada de la variable Y


por la modalidad xi de la variable X.

Ejemplo 3. Dada la distribucin bidimensional:

X 1 2 1 2 3 2 2 2 3 1
Y 3 5 2 3 5 4 3 5 5 3

la tabla correspondiente es:

X Frec. absolutas
1 2 3
Y marginales de y
2 1 1
3 2 2 4
4 1 1
5 2 2 4
Frec. absolutas
3 5 2 N=10
marginales de X

Obtener la distribucin marginal de la variable X:

X 1 2 3
Frec. Absolutas
3 5 2
marginal deX

Obtener la tabla de la distribucin condicionada de la variable Y por la


modalidad x2 del ejemplo 3.
Frec. absolutas
Y condicionadas por x2
2 0
3 2
4 1
5 2

5
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

5. REPRESENTACIONES GRFICAS
Los grficos que acompaan las distribuciones bidimensionales son
similares a los vistos para distribuciones unidimensionales, con la diferencia de
que en vez de estar representados sobre un plano, estn representados en el
espacio, vemos que la representacin grfica no proporciona informacin visual
de utilidad.

3
2,5
3
2
n(xy) 1,5 2
1
0,5 1 prestamos
0
12 0
13
14
15
edad 16

En el caso de estar trabajando con intervalos, la representacin grfica es aun


ms engorrosa, ya que en vez de ser bastones en los puntos de corte, son
barras en cada intervalo.

En el caso de que todas las frecuencias conjuntas fueran uno, la grfica


se simplifica, es de mucha utilidad y su representacin grfica es una nube de
puntos que se representa sobre un plano , ya que la altura de cada baston es
siempre la misma, es una representacin grfica muy ilustrativa de los datos y
tambin des conocida como diagrama de dispersin. Se representan sobre el
plano cartesiano los puntos (x, y) siendo x el primer valor de la variable
bidimensional e y el segundo. El conjunto de puntos resultante o nube de
puntos nos da una primera idea de la relacin existente entre los datos.

Consideremos la distribucin:

x1 x2 ..... xN
y1 y2 ....... yN
(Los pares pueden estar repetidos, lo que conllevara o que el
grosor de los puntos fuera proporcional a las frecuencias absolutas, o
poner tantos puntos como indica dicha frecuencia)

Los pares de valores observados (xi, yj) se pueden representar en


unos ejes coordenados.


y ( xi , yj )


6
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

6. PARMETROS ESTADSITICOS DE LA VARIABLE BIDIMENSIONAL

Medias marginales.
Considerando las distribuciones marginales, como son
unidimensionales es posible calcular los siguientes parmetros:
a) Medias
x = xini Donde N= ni.= n.j es el numero total de
N.
pares
y = yini
N.

Nota: En una distribucin bidimension al punto ( x , y ) se le llama


centro de gravedad de la distribucin.

Varianzas
Se define:
2 1 2 2 Varianza marginal de
S2x= (xi - x) ni = xi ni - ( x ) la variable X
N N

2 2 2 Varianza marginal de
S2y= (yi - M) ni = yi ni - ( y ) la variable X
N N

desviaciones tpicas
Extrayendo la raz cuadrada de las varianzas se obtienen las
correspondientes desviaciones tpicas.
Covarianza
Para las variables estadsticas bidimensionales se define la
covarianza como la media aritmtica de los productos de las
desviaciones respecto de la media de cada una de las variables
componentes. Es decir:
n n
(xi x )( yi y )fi f i xi y i
S xy = i =1
= i =1
xy
N N

1
1 Es decir la media del cuadrado menos el cuadrado de la media

7
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

Ejemplo

Las calificaciones de 40 alumnos en psicologa evolutiva y en estadstica


han sido:

X = calificacin psicologa 3 4 5 6 6 7 7 8 10
Y = calificacin estadstica 2 5 5 6 7 6 7 9 10
Nmero de alumnos 4 6 12 4 5 4 2 1 2

Calcular las medias y varianzas marginales as como la covarianza

xi ni xini xi 2ni xiyi fi xiyifi


3 4 12 36 yi ni yi ni yi2 ni 6 4 24
4 6 24 96 2 4 8 16 20 6 120
5 12 60 300 5 18 90 450 25 12 300
6 9 54 324 6 8 48 288 36 4 144
7 6 42 294 7 7 49 343 42 5 210
8 1 8 64 9 1 9 81 42 4 168
10 2 20 200 10 2 20 200 49 2 98
40 220 1314 40 224 1378 72 1 72
100 2 200
40 1336
xi ni 220 y j n j 224
x= = = 5,5 y= = = 5,6
n 40 n 40
2
2 xi f i 1314 = S 2 = 33 = 5,74
Sx = x2 = 5,5 2 = 2,6 x
n 40
2
2 y j n j 1378 2
= S y = 712 ,01 = 26,68
Sy = y2 = 5,6 2 = 3,09 y
n 40
x i y j fij 1336
S xy = x y = 5,5 5,6 = 2,6
n 40

7. DEPENDENCIA FUNCIONAL Y DEPENDENCIA ESTADSTICA

En este tema estudiaremos la posible relacin entre las dos


caractersticas de la variable (Ej: peso y estatura). En primer lugar trataremos
de poder llegar a establecer si existe relacin entre ambas (correlacin) para,
posteriormente, tratar de encontrar una funcin matemtica que las relacione
(regresin), de tal manera que conocido un valor de una caracterstica, sea
posible calcular, con mayor o menor aproximacin, el correspondiente valor de
la otra.

8
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

Al considerar los dos caracteres de una variable bidimensional puede


ocurrir:

- Que haya una dependencia funcional entre ellos, de


manera que a cada valor de uno le corresponda un nico
valor del otro (Ej: altura desde la que cae un peso y tiempo
que tarda el mismo en llegar al suelo)

- Que haya una dependencia estadstica, de tal manera que


los valores sigan unas pautas similares (altura y peso de
personas; edad de matrimonio)

- Que se de una independencia entre los caracteres (estatura


y calificacin en Matemticas)

8. CORRELACIN

La correlacin estudia el grado de relacin o dependencia que existe


entre las dos variables que intervienen en una distribucin bidimensional.

Cuando sta es, en cierta forma, lineal se habla de correlacin lineal.


Cuando no existe tal dependencia se dice que las variables estn
incorreladas.

La correlacin puede ser:

- Lineal o curvilnea segn la nube de puntos se condense


entorno a una lnea recta o a una curva.
- Positiva o directa cuando al aumentar una variable aumenta la
otra y viceversa.
- Negativa o inversa cuando al crecer una variable la otra
decrece y viceversa.
- Nula cuando no existe ninguna relacin y la nube de puntos
estn distribuidos al azar. Se dice que estn incorreladas.
- Funcional si existe una funcin tal que todos los valores de la
nube de puntos la satisfacen.

Un diagrama de dispersin ofrece una idea bastante aproximada sobre


el tipo de relacin existente entre dos variables. Pero, adems, un diagrama
de dispersin tambin puede utilizarse como una forma de cuantificar el
grado de relacin lineal existente entre dos variables: basta con observar el
grado en el que la nube de puntos se ajusta a una lnea recta.

9
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

La apreciacin visual de la existencia de correlacin no es suficiente.

Nos centramos en el estudio de la correlacin lineal, es decir, la que se


refiere a regresin lineal, a ajuste por lneas rectas al ser el caso ms
interesante.

El grado de dependencia entre los valores de una variable (X, Y) lo mide


el coeficiente de correlacin lineal de Pearson, que denotaremos con la
letra r, que nos permite valorar si sta es fuerte o dbil, positiva o negativa.

Sxy Siendo Sxy la covarianza y Sx y Sy las


r= desviaciones tpicas de las variables.
Sx Sy

8.1. Propiedades del coeficiente de correlacin lineal


-1PrP1
Si r es positivo la correlacin es directa, es decir, al aumentar
una variable tambin aumenta la otra (coeficiente de regresin
positivo). En este caso las pendientes de las rectas de
regresin son positivas.
. .
. . .
.
. . .
. .

10
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

Si r es negativo la correlacin es inversa, es decir, al


aumentar una variable disminuye la otra. En este caso las
pendientes de la rectas de regresin son negativas.
Si se suma o resta una constante a cada valor xi o a cada
valor yi, el coeficiente de correlacin no vara
Si los valores de X o de Y se multiplican por una constante, el
coeficiente de correlacin no vara

8.2. Interpretacin del coeficiente de correlacin lineal


Si r2 = 1, es decir, r igual a 1 o a -1, las dos rectas de
regresin coinciden y la nube de puntos est contenida en la
recta (correlacin perfecta). Hay dependencia funcional entre
las variables.
Si r = 0 las rectas de regresin son perpendiculares entre s y
paralelas a los ejes. Las variables son incorreladas.
Para los dems valores de r la dependencia es tanto ms
fuerte cuanto ms prximo est a 1 o a -1. Ser ms dbil
cuando se aproxime a 0:
Para la correlacin directa:
Si 0,75 r 1 correlacin muy alta.
Si 0,40 r 0,75 correlacin baja
Si r < 0,40 la correlacin es casi despreciable.
Para la correlacin negativa el anlisis es similar.

r=1 0<r<1 0 -1<r<0 r=-1


funcin correlacin correlacin correlacin funcin
directa directa nula inversa inversa
Nota. En las calculadoras el coeficiente viene representado por

8.3. Coeficiente de determinacin (R2)

El coeficiente de determinacin es la proporcin de la variacin total en


la variable dependiente Y que est explicada por o se debe a la variacin en
la variable independiente X.
El coeficiente de determinacin es el cuadrado del coeficiente de
correlacin, y toma valores de 0 a 1.
2 2 S xy2
R =r = 2 2
Sx Sy
El coeficiente de determinacin de la recta de regresin de Y sobre X es
el mismo que el de la recta de regresin de X sobre Y, cumplindose que:
R2 = bb. Es decir, el coeficiente de determinacin es una medida del grado
de relacin lineal entre las variables.

11
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

9. REGRESIN LINEAL

El estudio de la relacin entre dos caracteres de una variable estadstica


bidimensional es el objeto de la regresin lineal.

Cuando la nube de puntos del diagrama de dispersin permita deducir


algn tipo de dependencia entre las dos variables X, Y, concentrndose los
puntos alrededor de una cierta lnea (lnea de regresin) se plantean dos
cuestiones:

a) Definir la lnea de regresin


b) Medir el nivel de aproximacin de dicha lnea

Si la lnea en cuestin es una recta, el problema es un caso tpico


de regresin lineal, que es el tipo de regresin ms utilizado en la prctica,
aunque en otras ocasiones resulten ms interesantes otros tipos de curvas
de ajuste a la nube de puntos. Nos centraremos en la regresin lineal.

Se llama recta de regresin a aquella que mejor se ajusta a la nube de


puntos.

Recta de regresin de y sobre x:

Sxy
Recta de regresin de x sobre y. x x= (y y)
Sy2

En general, las dos rectas de regresin no coinciden por tener diferente


origen pero ambas pasan por el centro de gravedad: ( x, y )

9.1. Propiedades del coeficiente de regresin


Damos dos propiedades que se utilizan para hacer ms cmodos los
clculos:
1. Si se suma o se resta una constante a todos los valores
de x o de y, el coeficiente b de regresin no vara.

2. Si se multiplican (dividen) todos los valores de x por una


constante K, el coeficiente b de regresin queda dividido
(multiplicado) por esa constante

3. Si b y b son los coeficientes de regresin de las rectas


de regresin de y sobre x; de x sobre y respectivamente, se
cumple que
b b= r2
(Esta propiedad nos sirve para calcular |r| a partir de ambas
rectas de regresin)

12
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

10. EJEMPLO RESUELTO

1. Una asociacin dedicada a la proteccin de la infancia decide


estudiar la relacin entre la mortalidad infantil en cada pas y el nmero de
camas de hospitales por cada mil habitantes. Datos
x 50 100 70 60 120 180 200 250 30 90
y 5 2 2,5 3,75 4 1 1,25 0,75 7 3
Donde x es el n de camas por mil habitantes e y el tanto por ciento de
mortalidad.
Se pide:
a) calcular las rectas de regresin y el coeficiente de correlacin
lineal.
b) Si se dispusiese de 175 camas por mil habitantes que tanto por
ciento de mortalidad cabria esperar?. La estimacin es fiable?
Razona la respuesta.

Solucin:
Para facilitar los clculos de los parmetros se utiliza la siguiente tabla:
xi yi xi2 yi2 x i yi xi ni 1150
x= = = 115
50 5 2500 25 250 n 10
100 2 10000 4 200
y j n j 30,35
70 2,5 4900 6,25 170 y= = = 3,025 %
60 3,75 3600 14,0625 225 n 10
2
120 4 14400 16 480 2 x n 179300
Sx = i i x2 = 115 2 = 4705
180 1 32400 1 180 n 10
200 1,25 40000 1,5625 250 2
250 0,75 62500 0,5625 187,5 x = S x = 4705 = 68,59
30 7 900 49 210 2
y j n j
2 126,4375
90 3 8100 9 270 Sy = y2 = 3,025 2 = 3,4931
1150 30,25 179300 126,4375 2422,5 n 10
2
y = S y = 3,4931 = 1,87

xi y j nij 2422,5
S xy = x y= 115 3,0257 = 105,625
n 10
a) Las rectas de regresin sern por tanto:
y - 3,025 = -0,022449 (x - 115)
x - 115 = -30,2053 ( y - 3,025)
105,625
El coeficiente de correlacin lineal: r= = - 0,8235
(68,59)(1,87)
es una correlacin inversa fuerte .

b) Para la estimacin que nos piden utilizaremos la recta de


regresin de Y sobre X.
y= 3,025 - 0,022449(175- 115) = 1,6783
que sera fiable por ser alto el coeficiente de correlacin.

13
I.P.F.A. CDIZ Departamento de Matemticas Estadstica Bidimensional
Acceso Universidad (Estadstica)

11. RESUMEN TERICO

14

You might also like