Professional Documents
Culture Documents
PASO 4:
se
donde
X2
=
i
(Oi
ei)2
ei
Grados de libertad
V = (r-1)*(c-1)
Frecuencia Esperada = Total de la columna * Total del rengln
Gran total
Caractersticas
X2 toma valores no negativos; es decir, puede ser cero o positiva.
X2 no es simtrica; es asimtrica hacia la derecha.
Existen muchas distribuciones X2 como en el caso de la distribucin t, hay una
distribucin, X2 diferente para cada valor de los grados de libertad.
Nos dan una tabla de contingencia.
Una tabla de contingencia es una disposicin de datos en una clasificacin de doble
entrada. Los datos se ordenan en celdas y se reporta l nmero de datos en cada una.
En la tabla de contingencia estn implicados dos factores (o variables), y la pregunta
comn en relacin con tales tablas es si los datos indican que las dos variables son
independientes o dependientes.
Para ilustrar la utilizacin y anlisis de una tabla de contingencia, considrese la
clasificacin por sexo de los estudiantes de una escuela y su rea acadmica favorita.
5.5 PRUEBAS DE CONTINGENCIA (ji-CUDRADA).
La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de
frecuencias entre dos variables aleatorias, X e Y.
Las hiptesis contrastadas en la prueba son:
Hiptesis nula: X e Y son independientes.
Hiptesis alternativa: X e Y no son independientes (No importa cul sea la relacin que
mantengan ni el grado de esta.
Por tanto, todo lo que necesitamos sern unas estimas de las funciones de
probabilidad de ambas variables por separado (f(x) y f(y)) y de la funcin de
probabilidad conjunta (f(x,y))
Empezaremos la prueba tomando una muestra de parejas de valores sobre la que
contaremos la frecuencia absoluta con la que aparece cada combinacin de valores
(xi,yj) o de grupos de valores (i,j) (Oij) La tabla siguiente, en la que se recogen estos
datos, es en realidad nuestra estimacin de la funcin de probabilidad conjunta
multiplicada por el nmero total de datos (T).
Para obtener las estimas de las funciones de probabilidad marginales debemos sumar
por filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas
(Fi) son, en cada caso, el nmero de veces que hemos obtenido un valor de X (x i) en
cualquier combinacin con distintos valores de Y, es decir, son nuestra estima de la
funcin de probabilidad de X multiplicada por el nmero total de observaciones;
anlogamente, las sumas de columnas (Cj) son nuestra estima de la funcin de
probabilidad de Y multiplicada por el nmero total de observaciones.
El nmero total de observaciones lo podemos obtener como la suma de todas las
frecuencias observadas o, tambin, como la suma de las sumas de filas o de las
sumas de columnas:
y, por tanto,
Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si
las frecuencias Eij son realmente los valores esperados de las frecuencias Oij, se
puede calcular un parmetro que depende de ambas que tiene distribucin chicuadrado,
Por otra parte, si las variables no son independientes, las diferencias entre las series
de frecuencias observadas y esperadas sern mayores que las atribuibles al efecto del
azar y, al estar elevadas al cuadrado en el numerador de la expresin anterior, sta
tender a ser mayor que lo que suele ser el valor de una variable chi-cuadrado.
Estadstico de contraste
Se acepta la hiptesis nula si
cuadrado con grados de libertad.
Tal como ocurra en la prueba anterior lo corriente es que queramos demostrar que
dos variables son independientes, es decir, que, habitualmente, nos veremos
obligados a colocar nuestra hiptesis en la hiptesis nula. El nmero de grados de
libertad de la chi-cuadrado que sirve de contraste se calcula de la siguiente forma:
muestra y la distribucin terica que se supone debe seguir esa muestra. Ambas
pruebas estn basadas en la hiptesis nula de que no hay diferencias significativas
entre la distribucin muestral y la terica. Ambas pruebas estn basadas en las
siguientes hiptesis:
H0: f(x,q) = f0(x,q)
H1: f(x,q) f0(x,q)
Donde f0(x, q) es la distribucin que se supone sigue la muestra aleatoria. La hiptesis
alternativa siempre se enuncia como que los datos no siguen la distribucin supuesta.
Si se desea examinar otra distribucin especfica, deber realizarse de nuevo la otra
prueba suponiendo que la hiptesis nula es esta nueva distribucin. Al especificar la
hiptesis nula, el conjunto de parmetros definidos por q puede ser conocido o
desconocido. En caso de que los parmetros sean desconocidos, es necesario
estimarlos mediante alguno de los mtodos de estimacin analizados con anterioridad.
Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o
criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la
distribucin que siguen los tiempos de falla de unos componentes, podramos pensar
en una distribucin exponencial, o una distribucin gama o una distribucin Weibull,
pero en principio no consideraramos una distribucin normal. Si estamos analizando
los caudales de un ro en un determinado sitio, podramos pensar en una distribucin
logartmica normal, pero no en una distribucin normal.
b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor
indicacin del tipo de distribucin a considerar.
5.7 APLICACIONES.
Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes o
independientes.
La distribucin ji cuadrada sirve para todas las inferencias sobre la variancia de una
poblacin.
Existen muchos problemas para los cuales los datos son categorizados y los
resultados expuestos en forma de conteos o cuentas.
Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser
representado como una distribucin de frecuencias. Estos valores son cuentas: l
numera de datos que caen en cada celda.
En una encuesta determinada se podra preguntar a unas personas si votaran por los
candidatos A, B o C, por lo general, los resultados se indican en una grfica que
informa acerca del nmero de votantes para cada categora posible.