You are on page 1of 4

QU ES Y CMO SE CALCULA LA DISTRIBUCIN CHI CUADRADO?

ANTECEDENTES HISTRICOS DE LA DISTRIBUCIN CHI CUADRADO:



El matemtico Karl Pearson (18571936), advirti que cuando un cientfico realiza un experimento
de resultados aleatorios, generalmente tiene en mente como referente un modelo terico ideal
que de antemano establece cmo debera ser el comportamiento y cules deberan ser los
resultados estadsticos esperados del experimento. Sin embargo, en el mundo real es muy normal
que los resultados empricos obtenidos dentro de Muestras Estadsticas sobre la realizacin de un
experimento aleatorio no coincidan plenamente con los resultados tericos esperados. En muchos
casos es normal que ocurran grandsimas fluctuaciones en los resultados observados en el
experimento aleatorio, y an as es posible seguir afirmando que esos resultados fluctuantes
todava estn ocurriendo dentro de los lmites previstos por el modelo terico ideal. Justamente,
una gran dificultad a la que se enfrentaron los primeros cientficos de la Modernidad fue cmo
hallar una frmula matemtica para determinar con exactitud que las fluctuaciones o variaciones
observadas en los resultados de un experimento eran suficientemente significativas como para
permitir concluir que esos resultados ya no respondan a las expectativas del modelo terico.

Por ese motivo Karl Pearson hacia 1900 propuso uno de los primeros Tests Estadsticos que desde
la ptica de las distribuciones de la probabilidad sirve para calcular si los resultados estadsticos de
un experimento se alejan significativamente o no de los resultados esperados del modelo terico,
test que actualmente es conocido como el Test Chi Cuadrado. Luego otros importantes
matemticos han propuesto la axiomatizacin de diversas funciones matemticas o estadsticas
que permiten definir y calcular los lmites ideales a partir de los cuales se puede afirmar con gran
certeza que los resultados observados en un experimento aleatorio definitivamente ya no
responden a las expectativas tericas del modelo ideal, es decir, permiten concluir que realmente
son muy significativas las disparidades existentes entre los resultados observados y los resultados
esperados. Algunas de las ms importantes funciones estadsticas empleadas para ese propsito
son la prueba Fisher, la prueba T-Student, la prueba Z, el test Wishart, la prueba McNemar, la
prueba Q de Cochran, los tests de Bondad de Ajuste, etc.

A continuacin tratare sobre la Distribucin Chi-Cuadrado de la probabilidad y su relacin con el
Test Chi-Cuadrado, recalcando su aplicacin en los denominados Contrastes de Significacin que
se pueden realizar entre los resultados tericos esperados y los resultados empricos observados
de un experimento.

COMPRENDIENDO EL MODELO IDEAL DE LA DISTRIBUCIN CHI CUADRADO:

La denominada Distribucin Chi Cuadrado (que usualmente se escribe y se lee como: Ji
Cuadrado), es una distribucin cuadrtica de la probabilidad que utiliza bsicamente variables
aleatorias continuas. La Distribucin Chi Cuadrado de la probabilidad se denota mediante la letra
griega minscula ji elevada al cuadrado (2), y consiste en establecer un espacio continuo
delimitado por la suma de los cuadrados de n variables aleatorias que son independientes entre s,
espacio dentro del cual la variable X puede asumir cualquiera de los infinitos valores que lo
conforman, y por tanto para establecer el valor aproximado de una variable X dentro de ese
espacio se procede a incluir una estimacin de sus posibles lmites que estn dados por los
distintos Grados de Libertad que pueden existir entre las variables aleatorias analizadas que dan
origen al referido espacio. En otras palabras, la Distribucin Chi Cuadrado en un delimitado
espacio conjuga un determinado nmero de variables aleatorias independientes entre s, con unos
valores de probabilidad ubicados entre 1 y 0 que son atribuibles a esas variables, y con unos
lmites de la probabilidad para el verdadero valor de X delimitados por los Grados de Libertad
atribuibles a las variables aleatorias analizadas.

La Distribucin Chi Cuadrado permite calcular la probabilidad existente para que una variable X,
que tiene un determinado Grado de Libertad frente a otras variables del mismo conjunto,
permanezca dentro de unos lmites ideales previstos para X cuando tiene ese especfico Grado
de Libertad o independencia. En otras palabras, la Distribucin Chi Cuadrado suministra un modelo
ideal sobre los lmites probables que deberan regir las fluctuaciones en la aparicin de un
determinado valor aleatorio X dependiendo del Grado de Libertad que tiene ese valor frente a
otras variables similares dentro de un conjunto de datos analizados. La frmula matemtica para
calcular la probabilidad de que una variable X permanezca dentro del lmite ideal correspondiente
al respectivo Grado de Libertad es la siguiente:

2k (X) =
Xk / 2 1 e X / 2

2k /2 (k / 2)

En esta ecuacin la letra k que aparece como un subndice de la expresin 2 indica el Grado de
Libertad que se toma como lmite para calcular la probabilidad de la variable aleatoria X. Esta
ecuacin para ser despejada requiere el uso de la compleja Funcin Gamma (representada por la
letra griega mayscula gamma: ), y por tanto generalmente para solucionar esta ecuacin se
emplean mtodos basados en la consulta de tablas o en el uso de algoritmos para ordenador que
permiten obtener los valores de probabilidad respectivos.

EXPLICACIN DE LOS GRADOS DE LIBERTAD USADOS EN LA DISTRIBUCIN CHI CUADRADO:

Dentro de la Distribucin Ji Cuadrado los denominados Grados de Libertad atribuibles a un
conjunto de variables equivalen al nmero de datos independientes entre s existentes dentro de
ese conjunto que es necesario conocer previamente para poder estimar el valor de cualquier otro
dato independiente del mismo grupo. Por ejemplo, si se afirma que en un cesto hay un conjunto
de 10 manzanas, conformado por 2 clases independientes de manzanas, pues algunas de esas 10
manzanas son de color rojo y otras son de color verde, entonces en tal caso basta con saber que
en el cesto hay 4 manzanas rojas para poder calcular inmediatamente que las restantes son 6
manzanas de color verde, es decir, en este caso hay 2 clases de datos independientes entre s
(rojas y verdes), pero para poder conocer el valor de una clase de esos dos datos es siempre
necesario conocer previamente el valor de la otra clase de datos, motivo por el cual se concluye
que el Grado de Libertad o el grado de independencia existente entre las dos clases de datos tiene
un valor de uno (1).

En otro ejemplo, si se afirma que en una sala hay un conjunto de 30 personas, conformado por 3
clases de razas independientes entre s, pues algunas de esas personas son caucsicas, otras son
negras y otras son asiticas, entonces basta con saber que en la sala hay 12 personas caucsicas y
9 negras para poder calcular exactamente que las restantes 9 personas son asiticas, es decir, en
este caso hay 3 clases de datos independientes entre s, pero para poder conocer cul es el valor
de una clase particular de esos datos es siempre necesario conocer previamente el valor de las
otras 2 clases de datos; en otras palabras, si slo se sabe que en la sala hay 12 personas
caucsicas, ese dato resulta insuficiente para poder saber con exactitud cuntas son negras y
cuntas son asiticas dentro de las restantes 18 personas de la sala, y si slo se sabe que en la sala
9 personas son asiticas, ese dato por s slo tambin resulta insuficiente para poder saber
cuntas son negras y cuntas son caucsicas dentro de las restantes 21 personas de la sala, motivo
por el cual se concluye que el Grado de Libertad o grado de independencia existente entre las tres
clases de datos tiene un valor de 2, pues nicamente conociendo el valor de 2 clases de datos se
puede saber con exactitud cmo estn distribuidas las tres clases de razas dentro de la poblacin
total del conjunto analizado.

En otro ejemplo, si se afirma que existe un conjunto formado por 5 nmeros diferentes que al ser
sumados dan como resultado 24, en tal caso no es indispensable conocer previamente todos los
cinco nmeros que conforman el conjunto, pero para poder calcular el valor exacto de cualquiera
de los 5 nmeros que conforman ese conjunto s es necesario conocer al menos 4 de esos 5
nmeros, como podra ocurrir con la combinacin conformada por los siguientes cinco nmeros:
4+3+10+2+X = 24, combinacin en la cual necesariamente se requiere conocer al menos 4
nmeros para poder calcular directamente que el quinto nmero desconocido (representado por
la X) es un 5, es decir, el Grado de Libertad existente entre los cinco datos diferentes tiene un valor
de 4.

En sntesis, el Grado de Libertad, que usualmente se representa por las letras G.L., equivale a
restarle 1 a un conjunto conformado por k variables consideradas independientes entre s, lo cual
se resume en la frmula: G.L. = k 1. As, si el conjunto contiene 5 variables consideradas
independientes entre s, entonces el Grado de Libertad que le corresponde a cualquier variable de
ese conjunto es de: G.L. = 51 = 4, lo que equivale a que en ese conjunto slo 4 variables una vez
conocidas pueden operar de manera independiente sin necesidad de que deba ser conocido el
valor exacto de la quinta variable del conjunto. Y si el conjunto contiene 2 variables
independientes, como en el ejemplo de las manzanas verdes y las manzanas rojas, entonces el
Grado de Libertad es 1, ya que: G.L. = 21 = 1, lo que equivale a que en ese conjunto slo una
variable ya conocida puede operar de manera independiente sin necesidad de que deba ser
conocido el valor exacto de la otra.
REPRESENTACIN GRFICA DEL MODELO IDEAL DE LA DISTRIBUCIN CHI CUADRADO:
Un concepto matemtico es mucho ms fcil de comprender si se puede visualizar la forma que
generalmente asume en el abstracto mundo de los nmeros.



La anterior grfica muestra los valores de la probabilidad de ocurrencia de X dentro de una
Distribucin Chi Cuadrado. En el eje horizontal de las coordenadas se observa que de derecha a
izquierda se incluyen todos los valores posibles que puede asumir la variable aleatoria X. Estos
valores siempre corresponden a nmeros positivos (no admite nmeros negativos o menores a
cero), y tales valores pueden ir desde cero (0) hasta el infinito (), aunque en esta grfica para
efectos ilustrativos slo se han incluido algunos valores relevantes ubicados entre 0 y 50. En el eje
vertical se han incluido algunos valores representativos de la probabilidad, y por eso ese eje slo
admite valores ubicados entre cero (que equivale a Muy Improbable) y 1 (que equivale a Muy
Probable). Las lneas curvas numeradas de color verde, que desde la parte superior derecha hasta
la parte inferior izquierda surcan toda la grfica, representan algunos Grados de Libertad
aplicables a todos los valores que puede asumir X dentro de este espacio perfectamente
delimitado.

You might also like