You are on page 1of 11

PRUEBAS PARA K MUESTRAS

INDEPENDIENTES

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Prueba de χ2 para “K” Muestras Independientes


Es una extensión de la prueba χ2 para dos muestras
independientes.

Cuando las observaciones de una investigación corresponden a


muestras independientes y están formados por frecuencias en
categorías discretas, la prueba de χ2 puede determinar la
significancia de las diferencias (proporcionales) entre las k
muestras.

Para la aplicación de esta prueba se debe considerar que ninguna


celdilla debe tener frecuencia esperada 0, y sólo el 20% de las
celdillas deben tener una frecuencia esperada inferior a 5. Si no se
dan estas condiciones hay que agrupar los datos. En caso contrario
la prueba no es válida.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

1
Para aplicar la prueba χ2, se disponen las frecuencias en una tabla de
contingencia de r x k.

Hipótesis a contrastar:

H0:- Los K grupos (proporciones) no difieren entre sí.

-Los K grupos se distribuyen (proporciones) similarmente entre “r”


clases

H1: - Al menos uno de los K grupos (proporciones) difiere


de los demás.

- Al menos uno de los K grupos (proporciones) se distribuyen de


forma diferente.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Estadístico de Prueba:

El estadístico de prueba χ2c se aproxima a la distribución chi-cuadrada


con g.l.=(k-1)x(r-1), donde “r”= el número de filas y “k”= es el número de
columnas.

El valor del estadístico de prueba es calculado por la formula:

r k ( O ij − e ij ) 2
χ =
2
c ∑∑i j e ij
≈ χ α2 , ( r −1 )*( k −1 )

Donde:

Oij = Número observado de casos clasificados en la fila i de la columna j.


eij = Número de casos esperados conforme a H0 para ser clasificados en la
fila i de la columna j.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

2
Procedimiento para el calculo del valor del estadístico:

1) Arreglar las observaciones en una tabla de contingencias.

2) Determinar el valor teórico de las frecuencias para cada casilla.

3) Calcular las diferencias entre los valores observados con respecto a


los teóricos de cada casilla.

4) Elevar al cuadrado las diferencias y dividirlas entre el valor teórico de


la casilla correspondiente.

5) Obtener la sumatoria de los valores anteriores, que es el


estadístico X2c.

6) Calcular los grados de libertad (g.l): gl = (r filas -1)x(k columnas -1).

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Donde la probabilidades estimadas esta dada


C. ..
C1 Cj … Ck Total por:
F. .
e11 e1j e1k ni.
n1. n. j
F1
O11 O1j O1k P(Fi ) = P (C j ) =
.
. . . . . .
.
n n
. . . . .
. .
. . . . .
.
existe independencia entre las “K” muestras,
Fi ei1 eij e2k entonces la probabilidad de las observaciones
Oi1 Oij O2k
ni. por celda es:
. . . . . .
. .
. . . . .
.
.
. . . . . .
P ( Fi ∩ C j ) = P ( Fi ) P(C j )
er1 erj erk Entonces calculamos la frecuencia esperada para
Fr
Or1 Orj Ork
n3. la casilla correspondiente a eij:

Total n.1 n.j n.k n


  n  n  n n
eij = P ( Fi ∩ C j )( n ) = [ P ( Fi ) P (C j )] n =  i .  . j   n = i . . j
  n  n  n
n i . n. j
⇒ eij =
n
INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

3
Regla de Decisión:

Para un nivel de significancia α, y si,

χ c2 > χ α2 , ( r −1 ) * ( k −1 ) ⇒ Rechazamos H0

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Aplicativo:

Una empresa que vende cuatro productos, desea determinar si las


proporciones de ventas de cada uno de sus productos en las cuatro
clase de clientes que registra son las mismas. Una muestra al azar de
1000 registros de ventas proporciona la siguiente información:

Producto

Grupo de Clientes 1 2 3 4

Profesionales 85 23 56 36

Hombres de negocios 153 44 128 75

Obreros Industriales 128 26 101 45


Granjeros 34 7 15 44

¿Qué conclusión puede obtener usted de los resultados de la prueba?.


Utilizar α=0.05

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

4
Hipótesis a contrastar:
H0: Los 4 productos se venden en la misma proporción entre las 4 clases de
clientes.
H1: Al menos uno de los productos se vende en una proporción diferente a los
otros entre las 4 clases de cliente.

α=0.05 , Luego calculamos los esperados correspondientes :


n1.n.1
Producto ⇒ eij =
n
Grupo de Clientes 1 2 3 4 TOTAL
80 20 60 40
Profesionales 200
85 23 56 36
160 40 120 80
Hombres de negocios 400
153 44 128 75
120 30 90 60
Obreros Industriales 300
128 26 101 45
40 10 30 20
Granjeros 100
34 7 15 44
TOTAL 400 100 300 200 1000
INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

El estadístico de prueba será entonces:


r k (Oij − eij ) 2
χ = ∑∑
2
c ≈ χα2 ,( r −1)*( k −1)
i j eij

(85 − 80) 2 (23 − 20) 2 (56 − 60) 2 (36 − 40) 2 (15 − 30) 2 (44 − 20) 2
χ c2 = + + + + ... + + = 47.24
80 20 60 40 30 20

χα2 ,( r −1)*( k −1) = χ 02.05,(3)*(3)=9 = 16.9

χ c2 = 47.24 > χ (20.05;9 gl .) = 16.9 ⇒ Rechazamos H0

Entonces con un 5% de significancia, concluimos que existe suficiente


evidencia estadística para afirmar que las ventas de cada uno de los 4
producto no se realizan en las mismas proporciones entre las cuatro clases
de clientes.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

5
Prueba de Kruskal-Wallis para K Muestras Independientes

La prueba de rango de Kruskal-Wallis es una generalización de la Prueba de


Mann-Whitney para dos muestras independientes.

La Prueba de Kruskal-Wallis compara el rango medio alcanzado en cada


subgrupo con los demás y determina si estas diferencias son suficientemente
significativa como para rechazar la hipótesis nula.

Frecuentemente hace falta decir si varias muestras independientes deben


considerarse como procedente de una misma población, esto debido a que los
valores de las muestras casi siempre difieren en cierto grado y el problema es
determinar si tras las diferencias muestrales observadas hay diferencias entre
poblaciones o si son solo variaciones al azar que se esperaría entre muestras
aleatorias de la misma población.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Las k muestras en estudio son representadas en una tabla como la siguiente :

Muestra 1 x11 x12 x 1 n1


Muestra 2 x21 x22 I x 2 n2
I I

Muestra k xk1 xk2 I


xknk

donde : N=n1+n2+I+nk , N: número total de observaciones


La hipótesis a contrastar es:

H0 :Las K medianas de los grupos son todas iguales


(las muestras provienen de la misma población, o poblaciones con
medianas iguales, o existe igualdad en los efectos de los tratamientos ).

H1 : Al menos una de las medianas de los grupos es diferente


(alguna de las k muestras proviene de una población diferente, o de
poblaciones con mediana diferente a las demás, o que los tratamientos
no tienen el mismo efecto).
INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

6
Estadístico de Prueba:

k R2
12
H= ∑ j − 3( N + 1)
N ( N + 1) j =1 n j

Procedimiento para el calculo del valor del estadístico:

- Se ordenan las observaciones de menor a mayor como si fueran una


sola muestra, asignando a cada una de ellas su rango (1 para la menor,
2 para la siguiente, ... hasta asignar un rango al mayor de las
observaciones).

- Para cada una de las muestras, se calcula Rj, j=1,2..,k , como la suma
de los rangos de las observaciones que les corresponden a cada
muestra.

- Se reemplazan los datos en la formula arriba indicada y obtenemos el


valor del estadístico de prueba H.
INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

REGLA DE DECISION:

bajo un nivel de significancia “α”

- Si el número de muestras es k=3 y el número de observaciones en cada


una de ellas no pasa de 5, utilizaremos los valores de tabla 9:

Se rechaza H0 si: el valor de H supera el valor teórico que encontramos en


la tabla de Kruskall-Wallis (H>Htabla, α).

-Para cualquier otro caso diferente al anterior, se compara el valor de H


con el de la tabla de la χ2 con (k-1) g.l.

Se rechaza H0 si el valor del estadístico supera el valor teórico de tabla


H > χ2tabla((k-1) g.l; α).

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

7
Observaciones Ligadas:
-Si existen un alto numero de observaciones ligadas (empates) que
represente un porcentaje significativo de la muestra, es necesario corregir el
efecto determinando cuantos grupos ligados ocurrieron y cuantos puntajes
estaban ligados en cada grupo (tamaño del grupo ligado).

Se define:

ti: Número de observaciones ligadas en un grupo “i” (tamaño del grupo ligado)

Ti = t3i - ti

Factor de corrección para el estadístico “H”:


t
( ∑ Ti ) H
H =
Factor = 1 − i =1 corregido t

(N − N )
3 ( ∑ Ti )
[1 − i=1
]
(N 3
− N)
ΣTi: Indica sumar en todos los grupos de liga
N=n1+n2+I+nk , N: número total de observaciones
INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Aplicativo:

Se desea probar la hipótesis que los administradores, profesores orientado a


la enseñanza y profesores orientados a la administración muestran grados de
autoritarismo diferentes. Para eso el investigador divide sus 14 sujetos de
muestra en tres grupos: Profesores orientados a la enseñanza (profesores que
desean permanecer en la enseñanza), profesores orientados a la
administración (profesores que aspiran a ser administradores) y
administradores. Se aplica un test a cada grupo para obtener los puntajes de
autoritarismo.
Puntajes de autoritarismo de tres grupos de educadores
Profesores Profesores Administradores
orientados a la orientados a la
enseñanza administración
96 83 115
128 128 149
83 132 166
83 115 147
101 109

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

8
Solución:

Planteamos las hipótesis:

H0 : No hay diferencia entre las medianas de puntajes de autoritarismo de


los profesores orientados a la enseñanza, los profesores orientados a
la administración y los administradores.

H1 : Al menos uno de los grupos de educadores tiene mediana distinta a los


otros.

Calculo del estadístico de prueba:

1) Ordenar de menor a mayor todas las observaciones de los tres grupos


en una sola serie y asignamos rangos :

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Grupos Puntajes Rango


(Ri) A: Profesores orientados a la
A 83 2
enseñanza
B 83 2
A 83 2 B: Profesores orientados a la
A 96 4
administración
A 101 5
B 109 6 C: Administradores
C 115 7.5
B 115 7.5
B 128 9.5
A 128 9.5
B 132 11
C 147 12
C 149 13
C 166 14

2) Reagrupamos los rangos :

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

9
Rangos
Profesores Profesores Administrador
orientados a la orientados a la es
enseñanza administración
4 2 7.5
9.5 9.5 13
2 11 14
2 7.5 12
5 6
R1=22.5 R2=36 R3=46.5

3) Calculamos el valor del estadístico de prueba:


k R2
12
H= ∑ j

N ( N + 1) j =1 n j
− 3( N + 1)

12  ( 22 .5) 2 (36 ) 2 ( 46 .5) 2 


H = + + − 3(14 + 1) = 6 .49
14 (14 + 1)  5 5 4 

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

H = 6.49
t
( ∑ Ti )
Como se presentan ligas entre dos o más puntajes,
corregimos el valor de H de los efectos de ligas con el 1− i=1
(N 3
− N)
factor de corrección:

Se empieza a determinar cuántos grupos ligados han ocurrido y cuántos


puntajes estaban ligados en cada grupo. La primera liga ocurrió entre 3
puntajes a quienes se les asignó el rango de 2, entonces , “t” el número de
puntajes ligados =3 entonces:

T1 = t3 – t = (3)3 – 3 = 24

La siguiente liga ocurrió entre 2 puntajes a los que se les asignó el rango
promedio de 7.5, entonces “t” = 2

T2= t3 – t = (2)3-2 = 6

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

10
Y la última liga ocurrió entre 2 puntajes a los que se les asignó el rango
promedio de 9.5, entonces “t” = 2

T3= t3 – t = (2)3-2 = 6
Resumiendo:
t 3 2 2 ΣTi
T 24 6 6 36

Entonces calculamos el factor de corrección:


t
(∑ Ti )
1− i=1 ( 36 )
⇒ 1− = 0 . 987
(N 3
− N ) (( 14 ) 3 − 14 )
Entonces aplicando la corrección de “H”:
H 6 . 49
H corregido = t ⇒ H = = 6 . 58
( ∑ Ti )
corregido
0 . 987
[1 − i=1
]
(N 3
− N)

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Hcorregido = 6.58

Como el número de muestras es k=3 y el número de observaciones en cada


una de ellas no pasa de 5, usaremos la tabla de Kruskal-Wallis (tabla 9).

Luego el valor de tablas de H bajo un nivel de significancia de 0.05 es:

H tabla( 5, 5, 4 ) α =0.05 = 5.6429

Comparando el valor calculado con el de tabla rechazamos H0 bajo un nivel de


significancia de 0.05.

Bajo un nivel de significancia del 5% concluimos que al menos dos de los


grupos de educadores especificados difieren en grado de autoritarismo,
entonces podemos asegurar que las diferencias que se presentan entre los
grupos de observaciones no pueden ser atribuidos a la aleatoriedad
incorporada en la muestra.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

11

You might also like