You are on page 1of 6

DISTRIBUCIN BIDIMENSIONAL

En este tema se estudian fenmenos bidimensionales de carcter aleatorio. El objetivo es doble: 1. Determinar si existe relacin entre las variables consideradas(Correlacin). 2. Si esa relacin existe, indicar el procedimiento para estimar el valor de una variable a partir de otra(Regresin). Distribuciones bidimensionales Una distribucin de dos variables (bidimensional) es un conjunto de parejas de valores (x i, yi ), que pueden presentarse mediante una tabla. fi(frecuencia) xi yi f1 x1 y1 f2 x2 y2 ... ... ... fi xi yi

Genricamente, las variables se llaman x(variable independiente) e y(variable dependiente). Correlacin Al estudiar distribuciones bidimensionales, el objetivo perseguido es determinar si existe relacin estadstica entre las dos variables consideradas; es decir, ver si los cambios en una de las variables influyen en los cambios de la otra. Cuando sucede esto, se dice que ambas variables estn correlacionadas o que hay correlacin entre ellas. Si las variables crecen conjuntamente, la correlacin es directa. Si, por el contrario, al aumentar una de ellas disminuye la otra, la correlacin ser inversa. La correlacin puede calificarse como fuerte cuando el grado de dependencia es alto; y como dbil en caso contrario. Diagramas de dispersin El primer paso para determinar el sentido y el grado de la correlacin entre dos variables consiste en representar grficamente, en el plano cartesiano, los pares de valores conocidos. Estos grficos, que reciben el nombre de diagramas de dispersin, permiten visualizar la posicin de los datos en el plano. La forma de la nube de puntos asociada a cada diagrama permitir establecer conjeturas sobre la correlacin existente entre las variables estudiadas. En la siguiente figura se dan algunos diagramas de dispersin. Por la forma de la nube de puntos, se puede intuir que tipo de correlacin sugiere cada uno de ellos.

I. II. III. IV.

Esta nube, estrecha y decreciente, indica correlacin lineal inversa y fuerte. En este caso, la nube no adopta una forma definida: no hay correlacin (o es muy dbil). Esta nube, ancha y con tendencia a crecer, sugiere una correlacin lineal directa y dbil. La nube presenta una forma clara, pero no rectilnea. La correlacin no es lineal, podra ser exponencial o parablica. En general, dependiendo de la forma de la nube de puntos, puede asegurarse: Una nube de puntos alargada indica correlacin lineal: los puntos se distribuyen entorno a una lnea recta. La estrechez de la nube expresa que la correlacin es fuerte. Si la recta que se ajusta a la nube tiene pendiente positiva, la correlacin ser directa: al aumentar x, aumenta y, viceversa Una recta con pendiente negativa indica que la correlacin es inversa, al aumentar x, disminuye y, viceversa.

En la siguiente figura se puede observar todo lo anterior

El estudio cuantitativo de estos conceptos se realiza mediante los parmetros de correlacin y de regresin Parmetros de una distribucin bidimensional Los datos de una distribucin bidimensional suele darse en forma de tabla. Por ejemplo: x1 x2 ... xn xi y1 y2 ... yn yi en el caso que las frecuencias de cada pareja sean uno, en otro caso: x2 ... xn x1 xi y1 y2 ... yn yi f1 f2 ... fn fi Tambin se pueden presentar en cuadros de doble entrada

x y
y1 y2 ... ... ym

x1 f1.1 f2.1 ... ... fm.1 ... ... ... ...

x2 f1.2 f2.2

... ... ... ... ... ... ... ...

...

xn

fm.2

... f1.n ... f2.n ... ... ... ... ... ... ... fm.n

Lo datos correspondientes a cada una de las variables se llaman datos marginales. (En el caso de tablas de doble entrada puede hablarse de frecuencias marginales). Estos datos permiten el clculo de los parmetros marginales de cada una de las variables. Medias Las medias marginales para cada una de las variables X e Y valen, respectivamente: n n El punto (x , y ) se llama centro medio de la distribucin. Es el centro de gravedad (o centro de masas) de la nube de puntos. Si se considera las medidas ponderadas se llamara centro medio ponderado. Varianzas marginales Las varianzas marginales, son: Para x: s2 x = 2 x n x=

xi fi

y=

yi fi

(x i x )2 f i x i2 f i 2 = = x

2 Para y: s 2 y = y =

(y i y)
n

fi

y i2 f i y 2
n = =

Desviaciones tpicas marginales Para x: sx = x =

(x i x )2 f i
n

x i2 f i x 2
n

Para y: s y = y =

(y i y)
n

fi

y i2 f i y 2
n

Covarianza La covarianza es un parmetro estadstico conjunto ya que en su clculo intervienen las dos variables a la vez. Se define como la media aritmtica de los productos de las diferencias de cada variable respecto de su media marginal. Por tanto, vale: s xy = xy =

(x i x ) (y i y) f i
n

s xy = xy =

xi yi fi x y
n

La covarianza permite estimar conceptos relativos a la correlacin entre las dos variables I. Su signo indica el sentido de la correlacin entre las variables. Si sxy >0, la correlacin es directa. Si sxy < 0, la correlacin es inversa. II. Un valor grande de sxy advierte que la correlacin entre las variables puede ser fuerte, pero no lo asegura, no siendo interesante la comparacin de dos distribuciones por la covarianza. La covarianza slo da el sentido de la correlacin: directa si es positiva e inversa si es negativo. Coeficiente de correlacin lineal El coeficiente de correlacin lineal(r) es el criterio que se utiliza para medir la fuerza de la correlacin lineal entre dos variables, se define como: s xy r= s x s y Es la razn entre la covarianza de las variables x e y, y el producto de sus desviaciones tpicas marginales. Sus propiedades fundamentales son: Las propiedades fundamentales del coeficiente de correlacin son: I. El valor de r no es funcin de la escala de medida. II. El signo de r es el mismo que el de la covarianza, pues las desviaciones siempre son positivas. Luego: Si r > 0, la correlacin es directa; Si r < 0, la correlacin es inversa. III. El valor de r est comprendido entre 1 y +1: 1 r 1 IV. Si r toma valores prximos a 1, la correlacin es fuerte e inversa. V. Si r toma valores prximos a +1, la correlacin es fuerte y directa. VI. Si r = 1, la correlacin es perfecta denominndose correlacin funcional. Hay dependencia VII. lineal entre las variables X e Y. Si r toma valores cercanos a 0, la correlacin prcticamente no existe.

En funcin del valor numrico del coeficiente de correlacin lineal, se puede clasificar la correlacin en diferentes tipos:

El coeficiente de correlacin (r) mide exclusivamente la correlacin lineal entre dos variables, no siendo capaz de detectar correlaciones de otro tipo(Exponencial, Cuadrtica, ... etc). A r2 se le denomina coeficiente de determinacin, y da una medida de la fiabilidad de las estimaciones de Y a partir de X. El valor del coeficiente de determinacin indica la proporcin de la variacin en la variable Y que puede ser explicada en la variable X Recta de regresin La recta de regresin es la que mejor se ajusta a la nube de puntos, haciendo mnima la suma de las distancias de todos los puntos de la nube a ella. Debe pasar por el punto (x , y ) , centro de gravedad de la distribucin bidimensional. La recta que mejor se ajusta a estos propsitos es la recta de regresin mnimo cuadrtica. Con estas condiciones, los valores de la pendiente a y de la ordenada en el origen b de esa recta valen: s xy s xy b = y - 2 x a= 2 sx sx Luego, la ecuacin de la recta de regresin es: s xy y y = 2 (x x ) sx Siendo x e y las medidas de las variables X e Y, s 2 x la varianza de X y sxy la covarianza. Esta recta de regresin se llama de Y sobre X, pues se utiliza para predecir (estimar) los valores de Y a partir de los de X. Si lo que se desea es estimar los valores de X partiendo de los de Y, se emplear la ecuacin de la recta de regresin de X sobre Y, que es: s xy x x = 2 (y y ) sy A S xy S2 y se le denomina coeficiente de regresin de X sobre Y. No es la pendiente de la recta,

sino su inversa. Las rectas de regresin de Y sobre X y de X sobre Y se cortan en el centro de gravedad de la distribucin (x , y ) . Su posicin relativa es funcin del coeficiente de correlacin, oscilando desde perpendiculares cuando r = 0, hasta coincidentes cuando r = 1.

Ejemplo 1. La temperatura media anual, en C, de varias ciudades, y el gasto medio anual en calefaccin por habitante en fue: 10 12 15 16 18 22 Temperatura C 150 120 84 60 48 12 Gasto a. Representar la nube de puntos asociada. Qu tipo de correlacin se observa? b. Hallar el coeficiente de correlacin y la recta de regresin del gasto sobre la temperatura. c. Interpretar el coeficiente de determinacin d. Que gasto cabe esperar en ciudades con temperatura media de 8, 17, 26 C. e. Que temperatura media hubo en una ciudad cuyo gasto media por habitante fue de 98 . f. Representar las dos rectas de regresin. a. x(Variable independiente) Temperatura media en C y(Variable dependiente) Gasto medio por habitante en

Se puede observar que los puntos se ajustan bien a una recta de pendiente negativa, por lo tanto entre las dos variables cabe esperar una correlacin aleatoria fuerte inversamente proporcional. Para el clculo de los parmetros de la distribucin es necesario el siguiente cuadro de b. frecuencias:

xi
10 12 15 16 18 22 x 1 = 93

yi
150 120 84 60 48 12 y i = 474

xi2
100 144 225 256 324 484

yi2
22500 14400 7056 3600 2304 144

xiyi
1500 1440 1260 960 864 264 x i y i = 6288

x i2 = 1533

y i2 = 50004

Parmetros de la distribucin: x = Medias: y =

x i = 93 = 15'5
N yi N 6 474 = = 79 6

s 2 = x Varianzas: 2 s y =

x i2 x 2 = 1533 15'5 2 = 15'25 y i2 y 2 = 50004 79 2 = 2093


N 6 N 6

s = x Desviaciones: s y = Covarianza: S xy =

x i2

y i2 y 2 =
N

1533 15'5 2 = 3'91 6 50004 79 2 = 45'75 6

x i y i x y = 6288 15'5 79 = 176'5


6 S xy sx sy = 176'5 = 0'988 3'91 45'75

Coeficiente de correlacin: r =

Coeficiente de determinacin: r 2 (% ) = 0'988 2 100 = 97'6 Recta de regresin de Y sobre X: y y = y 79 = s xy s2 x

(x x )

176'5 (x 15'5) 15'25

ordenando

y = 258'3 11'6x

c. En las variaciones producidas en el gasto medio por habitante, el 976% es funcin de las variaciones en la temperatura media, el 28% restante se debe a otros conceptos. d. Para estimar el gasto medio conocida la temperatura media se usa la recta de regresin x 1 = 8 C y1 = 258'3 11'6 8 = 165'5 x 2 = 17 C y = 258'3 11'6 x : y 2 = 258'3 11'6 17 = 61'1 y = 258'3 11'6 26 = 43'3 x 3 = 26 C 3 el valor y3, no tiene sentido, pero tampoco es lgico usar calefaccin para una temperatura media de 26 C e. Conocido el gasto medio en calefaccin tambin se puede estimar le temperatura media, mediante la recta de regresin. 98 258'3 y = 258'311'6 x y 4 = 98 98 = 258'3 11x x = = 13'8 C 11'6 d. X sobre Y: x x = s xy s2 y

(y y ) ,

x 15'5 =

176'5 (y 79) , ordenando: y = 2628 119x 2093

You might also like