Professional Documents
Culture Documents
Notas
Indice
1. OBJETIVOS.....................................................................................................................1
2. INTRODUCCIN .............................................................................................................1
2.1. La teora de la probabilidad ........................................................................................................................ 2
2.2. Inferencia estadstica moderna .................................................................................................................. 2
2.3. Inferencia estadstica robusta..................................................................................................................... 3
6. BIBLIOGRAFA..............................................................................................................29
1. Objetivos
Conocer el concepto de estadstica robusta, el campo de aplicacin y los principales ndices descriptivos
resistentes;
2. Introduccin
La perspectiva del anlisis exploratorio de datos (1, 2) ha centrado su atencin en la utilizacin de ndices
resistentes frente a la utilizacin de ndices clsicos a la hora de describir una variable cuantitativa en el
caso en que sta tenga una distribucin asimtrica, o bien presente valores alejados. Los ndices
descriptivos clsicos por excelencia, la media aritmtica y la desviacin estndar, cambian sustancialmente
su valor ante la presencia de datos anmalos, lo que los convierte en ndices poco resistentes. En cambio,
los ndices descriptivos resistentes se caracterizan por ser insensibles a conductas errneas o alejadas,
localizadas en los datos. Los ndices resistentes o robustos ponen su atencin en el cuerpo principal de los
datos y muy poca en los valores anmalos o alejados.
Esta preocupacin se ha trasladado recientemente al campo de la prueba de hiptesis, debido a que
muchos ndices de contraste se basan para su desarrollo en ndices poco resistentes como la media y la
desviacin estndar de las distribuciones.
Preparacin de la base y las estructuras necesarias para establecer una nueva axiomtica (Cantor,
Hilbert, Borel, ...);
Desarrollo de la inferencia estadstica clsica y su aplicacin (Markov, Pearson, Gosset, Snedecor, Von
Mises, Fisher, ...).
Los tres bloques fueron desarrollndose a la vez, consiguiendo en tan solo cincuenta aos desgajar unos
contenidos que han formado una estructura propia en el mbito de las ciencias matemticas.
Teora bayesiana: admite conocimientos a priori, as como observaciones nuevas. Las a priori son
modificadas por las verosimilitudes;
Quenouille (1956) (5), con tcnicas que permiten reducir el sesgo y establecer nuevos entornos para la
estimacin;
Hampel (1968) (8), introduciendo el uso de curvas de influencia para analizar la sensibilidad de los
estimadores;
Jaeckel (1971) (9) y Berger (1976) (10), sobre aspectos de admisibilidad de los estimadores.
Se dice que una prueba estadstica es robusta si se pueden violar sus supuestos sin que ello repercuta
substancialmente en las conclusiones. Es decir, es la habilidad de una prueba estadstica especfica para
suministrar una estimacin exacta de la probabilidad de los errores tipo I y II, aun cuando sus suposiciones
sean violadas. Algunas pruebas de hiptesis son ms robustas a desviaciones de ciertos supuestos
subyacentes que otras.
El tipo y magnitud de la desviacin de los datos de las asunciones requeridas por un test son a menudo
importantes en la eleccin apropiada del test estadstico que hay que aplicar. Las pruebas de hiptesis son
usadas en muchas situaciones en las que las asunciones subyacentes son violadas. Por lo tanto la robustez
es una propiedad deseable.
Las hiptesis con las que se trabaja en los tests no paramtricos son menos detalladas y menos numerosas
que los tests paramtricos y los tests no paramtricos son menos sensibles a su violacin. Por eso los tests
no paramtricos son ms robustos que los paramtricos. Adems estas violaciones son ms fciles de ver
en los tests no paramtricos. Para tamaos muestrales menores de 10, las violaciones en las hiptesis de
los tests paramtricos son ms graves, por lo que los tests no paramtricos son los ms apropiados.
x
s2
s
EE x
285
= 25,9091
11
3868,9091
=
= 386.8909
10
= 19, 6695
19, 6695
=
= 5.9305
11
=
A partir de estos valores, se pueden obtener los lmites del intervalo de confianza del 95 % de la media:
Con el objeto de analizar el efecto que tiene el valor alejado sobre los ndices descriptivos clsicos, se
obtendrn los siguientes ndices resistentes:
Media recortada;
Media winsorizada;
Varianza winsorizada;
Varianza recortada;
T ( p) =
i = g +1
xi
n 2g
donde: g expresa el nmero de observaciones que deben ser eliminadas de cada extremo de la
12 + 13 + 15 + 19 + 2124 + 26 + 32 + 34
196
=
= 21, 7777
11 2 (1)
9
T ( p) =
W ( p) =
( g + 1) x g +1 + x g + 2
+ + + x n g 1 + ( g + 1) x n g
n
Tomando los datos del ejemplo numrico propuesto, la media winsorizada sustituyendo una observacin a
cada lado se obtiene mediante:
W ( p) =
2 12 + 13 + 15 + 19 + 21 + 24 + 26 + 32 + 2 34
242
=
= 22
11
11
SDC (W ) = ( g + 1) ( x g +1 W ( p ) ) + ( x g + 2 W ( p ) ) + + + ( x n g 1 W ( p ) ) + ( g + 1) ( x n g W ( p ) )
2
Tomando los datos del ejemplo numrico propuesto, la SDC (W ) se obtiene mediante:
La varianza winsorizada s W se obtiene como una varianza muestral habitual, tras haber winsorizado la
muestra:
s W2 =
SDC (W )
n 1
Tomando los datos del ejemplo numrico propuesto, la varianza winsorizada es igual a:
s W2 =
748
= 74,8
10
El smbolo
pn .
s T2 =
s W2
n (1 2 p )
Tomando los datos del ejemplo numrico propuesto, la varianza recortada es igual a:
s 2T =
74,8
11 (1 2 0, 0909 )
= 10,1575
EE (T ) = s T
El intervalo de confianza 1 , se obtiene por medio de:
t T t , EE (T )
donde: = n 2 g 1 son los grados de libertad (es decir, el nmero de observaciones que quedan
despus de recortar una proporcin p , h = n 2 g 1 ) de la distribucin t de
Student.
Aplicado al ejemplo numrico, se tiene que el intervalo de confianza de la media recortada:
EE (T ) =
10,1575 = 3,1870
] [
H 0 : = t
H1 : t
A partir del valor de la media recortada T ( p ) y la SDC (W ) , Tukey y McLaughlin (11) propusieron la
siguiente prueba de comparacin robusta en el caso de una muestra:
t =
T ( p)
SDC (W )
h ( h 1)
t =
24,5455 25
= 0, 095
15,9459
11
El grfico de caja nos muestra la presencia de una observacin alejada: el valor 67:
Para obtener la comparacin robusta se debe fijar, en primer lugar, el nmero g de observaciones que sern
recortadas y winsorizadas. Como se tiene un nico valor alejado, se realizar el clculo eliminando una
observacin de cada extremo de la distribucin. As pues, h = n 2 g = 9 .
La media recortada y la media winsorizada son:
12 + 13 + 15 + 18 + 21 + 25 + 27 + 30 + 32
193
=
= 21, 4444
9
9
1
237
W =
= 21,5454
( 2 12 + 13 + 15 + 18 + 21 + 25 + 27 + 30 + 2 32 ) =
11
11
T =
= 642, 7272
Y la prueba de conformidad robusta vendr dada por:
t =
21, 4444 25
= 1,19
642, 7272
98
Este valor, situado en la distribucin t con h 1 = 8 grados de libertad, tiene un nivel de significacin
superior al 5 %, por lo que se mantendr la hiptesis nula segn la cual los datos pueden provenir de una
poblacin que presente una media de valor = 25 .
Comparando los resultados obtenidos por ambas vas, se puede observar que a pesar de que ambas
pruebas concluyen a favor de la hiptesis nula ( t = 0, 095 , p = 0,92 por va clsica; t = 1,19 , p = 0, 26
por va robusta), la prueba robusta presenta un ndice t sensiblemente mayor respecto al ndice t de la
prueba clsica.
Ejemplo 2
A partir del siguiente conjunto de observaciones se quiere saber si la muestra utilizada puede provenir de
una poblacin caracterizada por una media = 25 , en la variable estudiada:
Solucin:
A diferencia del ejemplo anterior, en este segundo ejemplo, la utilizacin de una va u otra, implica una
conclusin estadstica diferente. De esta forma, teniendo en cuenta el valor alejado, por la va clsica
seguimos manteniendo la hiptesis nula ( t = 1,30 , p = 0, 21 ), mientras que a travs del recorte del valor
alejado, por la va robusta rechazamos la hiptesis nula en favor de la hiptesis alternativa
( t = 2,32 , p = 0, 04 ).
Este tipo de casos ilustra la importancia de utilizar la va robusta ante la presencia de valores alejados.
H 0 : 1 = 2
H 1 : 1 2
Las hiptesis estadsticas planteadas se definen como:
H 0 : 1 2 = 0
H 1 : 1 2 0
La hiptesis nula de igualdad de dos medias, as como la alternativa, pueden reescribirse en trminos de
diferencia entre medias, quedando de la siguiente forma:
La hiptesis nula establece que el valor terico de la diferencia de medias poblacionales es cero, frente a la
alternativa que establece que esta diferencia poblacional es distinta de cero.
La prueba de hiptesis que permite verificar cul de estas dos hiptesis es ms verosmil, a la luz de los
datos, se basa en la variable diferencia de medias observadas, d = x1 x 2 .
A partir del resultado se establecer si este valor puede ser considerado estadsticamente nulo o bien la
probabilidad de que sea nulo es tan pequea que ser ms aconsejable considerar la hiptesis de que no lo
sea. En este modelo de hiptesis nula se basa la conclusin estadstica que dice "existen diferencias
significativas entre las medias poblacionales".
Se situar el valor de la diferencia observada en su distribucin de referencia, la distribucin muestral de
diferencia de dos medias, y se calcular la probabilidad de haber obtenido este valor, o superior, bajo el
supuesto de que la hiptesis nula es cierta.
Sean dos muestras de tamaos m y n en las que se estudia una determinada caracterstica cuantitativa.
2
s
2
donde: s W ( m , p )
2
m, p
s W2 ( m , p )
m (1 2 p )
simtricamente; y
s 2n , p =
s W2 ( n , p )
n (1 2 p )
donde: s W ( n , p )
simtricamente; y
[n p]
d = T (m , p) T (n , p)
s 2d = s 2m , p + s 2n , p
se obtiene el ndice (12):
T (m, n, p) =
d
sd
Recurdese que en la comparacin de dos medias en diseo de grupos independientes deben cumplirse
una serie de supuestos, entre ellos, la homogeneidad o igualdad de varianzas en las poblaciones orgenes
de los grupos. De esta forma, el ndice obtenido puede situarse en la distribucin t de Student, cuyos
grados de libertad dependern del cumplimiento de este supuesto. Por tanto, se plantean dos posibles
situaciones:
Varianzas iguales
Cuando las varianzas poblacionales son iguales, el ndice t puede situarse en la distribucin t con
(1 2 p )( m + n ) 2
grados de libertad.
Varianzas desiguales
Para obtener el valor crtico en la distribucin t de Student, cuando las varianzas son diferentes, hay que
hacer una modificacin de la aproximacin de Welch (13, 14):
Sean:
m p = m 2 [ p m]
n p = n 2 [ p n]
Se denomina A p a la varianza de la media recortada T ( m , p ) y B p a la varianza de la media recortada
T (n , p) .
Los grados de libertad apropiados, para la distribucin t , vienen dados por:
g .l. p =
(A
+ Bp )
A2p
m p 1
B 2p
n p 1
Cuando se obtiene una diferencia significativa entre las dos medias recortadas es conveniente obtener el
intervalo de confianza para conocer entre qu valores se mover la diferencia poblacional. Este intervalo
viene dado por:
1 (T ) 2 (T ) (T1 T 2 ) t ( , ) s d
Ejemplo numrico
Con la intencin de analizar el denominado sesgo del experimentador, que supone la influencia que puede
tener el propio investigador en la recogida de informacin, se utiliz un nmero de sujetos que actuaban
como experimentadores en una experiencia que consista en que los sujetos resolviesen problemas
aritmticos. A todos ellos se les dijo que a los sujetos que participaran en la experiencia se les dara cafena
antes de la experiencia, pero a la mitad de los experimentadores (grupo 1) se les comunic que se
esperaba que la cafena aumentara el rendimiento de los sujetos, mientras que a la otra mitad (grupo 2) se
10
les comunic que se esperaba que la cafena disminuyera el rendimiento. Cada experimentador actuaba
con un participante. A continuacin, se proporciona el nmero de problemas aritmticos que los sujetos
participantes resolvieron correctamente en el tiempo prefijado.
El valor del ndice t de Student-Fisher de comparacin de dos medias en grupos independientes, teniendo
en cuenta que se cumple el supuesto de igualdad de varianzas poblacionales, es igual a:
t =
Sin embargo, el siguiente grfico de caja muestra que el valor 64 perteneciente al grupo 1 y el valor 4
perteneciente al grupo 2, son valores alejados:
Con los datos de este ejemplo se va a ejemplificar el proceso de clculo de la prueba t robusta,.
(a) En primer lugar, se obtienen las medias recortadas con una observacin por extremo:
294
= 29, 4
10
268
T2 =
= 26,8
10
W1 = 29, 4166
T1 =
s W2 1 = 22, 265
s T21 =
22, 265
= 2, 672
8,33
(b) En segundo lugar, se calculan las varianzas de las medias recortadas, a partir de la varianza
winsorizada con una observacin por extremo:
W 2 = 26, 75
s W2 2 = 10, 75
s T2 2 =
10, 75
= 1, 29
8,33
(c) A partir de los datos anteriores se obtiene el valor de la media y de la varianza de la variable diferencia:
11
d = 29, 4 26,8 = 2, 6
sd2 = 2, 672 + 1, 29 = 3,962
sd = 1,99
(d) Se obtiene el valor del ndice t :
T =
2, 6
= 1, 29
1,99
(e) Para el estudio de la significacin se deber distinguir si las varianzas poblacionales son iguales o
diferentes.
Si las varianzas poblacionales son iguales, el ndice t se sita en la distribucin t de Student con
1
1 2 12 (12 + 12 ) 2 = 18 grados de libertad.
Si las varianzas son diferentes, el ndice t se sita en la distribucin t de Student con los grados de
libertad obtenidos por medio de:
( 3,962 )
2
2
( 2, 672 ) + (1, 29 )
2
g.l. =
= 16
( )
Ui =
donde: Me
Mda
i
x i Me
9 Mda
es la mediana muestral; y
es la mediana de las desviaciones absolutas; y
es un subndice que toma los valores i = 1, 2, , n .
Recurdese que el Mda se obtiene como la mediana de las desviaciones absolutas de los valores de
la distribucin con respecto a su mediana, esto es:
Mda = Me de x i Me
12
(b) A continuacin, se obtiene el valor de a i que indica si la observacin est cerca o lejos de la mediana.
El valor del coeficiente a i es dicotmico:
si 1 U i 1 , entonces a i = 1 ;
n
sb2 =
a (x
i =1
Me )
(1 U )
2 4
i
2
2
a i (1 U i ) (1 5U i )
i =1
(d) As pues, una vez obtenido este valor se puede utilizar esta medida de dispersin como una medida
resistente en la obtencin de un ndice del tamao del efecto:
Me1 Me 2
sb1
Me = 29,5
Mda = 4,5
(b) Con estos valores se obtiene un valor U i para cada sujeto del primer grupo. Este clculo permitir
2
hallar el valor biweight midvariance, s b1 . En la siguiente tabla se exponen los diferentes clculos
2
grupo 1
Ui
ai
21
23
25
25
28
29
30
32
32
34
36
64
-0,2099
-0,1605
-0,1111
-0,1111
-0,0370
-0,0123
0,0123
0,0617
0,0617
0,1111
0,1605
0,8519
1
1
1
1
1
1
1
1
1
1
1
1
ai ( x i Me ) (1 U i2 )
2
60,3367
38,0622
19,2684
19,2684
2,2377
0,2498
0,2498
6,1553
6,1553
19,2684
38,0622
6,7429
216,0571
13
ai (1 U i2 )(1 5U i2 )
0,7454
0,8488
0,9267
0,9267
0,9918
0,9991
0,9991
0,9772
0,9772
0,9267
0,8488
-0,7211
9,4463
s 2b1 =
12 216, 0571
( 9, 4463)
(c) Por ltimo, teniendo en cuenta que la mediana del segundo grupo es 26,5, se obtendr el ndice del
tamao del efecto:
=
(d) El valor obtenido en este ejemplo
29,5 26,5
= 0,5565
5,3903
= 0,5565 ) , corresponde a un tamao de efecto considerado
Se debe contrapesar el orden con el que los sujetos pasan las condiciones experimentales;
Hay que controlar los posibles efectos secundarios de un tratamiento, de manera que ste no pueda
afectar al siguiente tratamiento aplicado.
Junto al diseo de medidas repetidas, el diseo de datos apareados utiliza las mismas pruebas de hiptesis,
si bien existen diferencias conceptuales entre ellos.
As, mientras en el diseo de medidas repetidas es el mismo sujeto el que pasa por las diferentes
condiciones experimentales, en el diseo de datos apareados son sujetos diferentes. La tcnica a utilizar
para obtener estas parejas de sujetos puede ser la tcnica de apareamiento en la que los sujetos son
apareados en funcin de la similitud que tienen en una o ms variables de inters, tales como cociente
intelectual, edad, etc., o bien, son pares asociados de forma natural, tales como hermanos gemelos, padres
con hijos, marido con mujer, etc.
4.3.1. Comparacin de medias
La primera pregunta que nos podemos formular es si la eficacia de ambos tratamientos es la misma. Es
decir, si los resultados producidos por un tratamiento son, en promedio, los mismos que los producidos por
el otro tratamiento.
H 0 : X = Y
H1 : X Y
14
Puesto que cada sujeto ha pasado por ambos tratamientos, podemos generar una variable diferencia
d = x X x Y entre los resultados que cada sujeto ha proporcionado bajo cada tratamiento.
Las hiptesis estadsticas pueden ser rescritas en trminos de esta nueva variable diferencia:
H0 : d = 0
H1 : d 0
Sea T ( p ) la media recortada de la variable diferencia entre las dos medidas repetidas, es decir, la media
de las n p observaciones que quedan despus de que
[n p]
Sea s T ( p ) la varianza de la media recortada de la variable diferencia. Su clculo viene dado por:
s
2
donde: s W ( p )
2
T ( p)
s W2 ( p )
n (1 2 p )
[ 2 p ] simtricamente.
La prueba de comparacin robusta se realiza a partir de la media recortada y de su error estndar, para lo
cual se obtiene el siguiente ndice:
T =
T ( p)
sT ( p)
El ndice obtenido se distribuye segn la distribucin t de Student, cuyos grados de libertad vienen dados
por n (1 2 p ) 1 .
Ejemplo
Se quiere estudiar la influencia de un shock negativo en el rendimiento matemtico. Para ello se present a
15 sujetos una serie de problemas matemticos, en condiciones normales (SIN), y en una situacin en la
que cada problema presentado iba acompaado de una pequea descarga elctrica (CON). A continuacin,
se presenta el nmero de problemas resueltos por cada sujeto en cada situacin (resultados ficticios):
SIN
CON
d = SIN-CON
20
4
3
5
2
4
2
2
4
4
3
0
5
3
1
6
2
0
3
3
2
3
1
1
3
6
2
2
4
0
14
2
3
2
-1
2
-1
1
3
1
-3
-2
3
-1
1
El valor del ndice t de StudentFisher de comparacin de dos medias en medidas repetidas es igual a:
15
t =
1, 6000
3,9243
15
= 1,58
Teniendo en cuenta la presencia de un valor alejado, vamos a realizar la comparacin robusta, eliminando
una observacin de cada extremo de la distribucin. Por tanto, el valor de p viene dado por p = 1
15
Los valores necesarios para obtener la prueba de comparacin robusta son los siguientes:
En primer lugar, el valor de la media recortada y la media winsorizada:
13
= 1
13
14
W ( p) =
= 0,9333
15
T ( p) =
s 2T ( p ) =
s 2T ( p ) =
48,9333
= 3, 4952
14
3, 4952
(1 2 0, 0666 )
15
= 0,3101
A partir del valor de la varianza de la media recortada podemos calcular el error estndar de la media
recortada:
sT ( p) =
0,3101 = 0,5568
Con el valor de la media recortada de la variable diferencia y su error estndar se obtiene el valor del ndice:
1
= 1, 7956
0,5569
Este ndice se debe situar en la distribucin t de Student-Fisher con 12 grados de libertad. En esta
distribucin, t 12,0,05 = 2,179 , por lo que el valor hallado tiene un grado de significacin superior al 5 %.
T =
En este caso se puede observar que los ndices estadsticos obtenidos por la va clsica ( t = 1,58 ,
16
{( x , y ) , ( x
1
, y2 ) , , ( xn , yn )
sX =
X =
n i 2
i = i 1 +1
x (i )
w X ( i 2 i1 ) + s X
n i1 i 2
donde: w x = W ( m ) ;
m
i1
x i Me X
< 1
wX
i2
xi M X
wX
y
Ui =
> 1
xi X
wX
Por otra parte, se repiten todos los clculos para la variable Y y finalmente se obtiene la transformacin:
Vi =
Sea la funcin:
Yi Y
wX
r pb =
donde:
A B
A B
i
2
i
2
i
Ai = (U i )
B i = (V i )
Siguiendo con el ejemplo numrico utilizado en la prueba robusta de comparacin de dos medias sobre la
influencia de un shock negativo en el rendimiento matemtico, se tiene que el valor del coeficiente de
correlacin lineal de Pearson es igual a r = 0,5479
( p = 0, 02 ) .
En el siguiente grfico de la nube de puntos que representa la relacin entre las puntuaciones
obtenidas en las dos condiciones experimentales del estudio, se puede observar la presencia de dos puntos
apartados del resto (el caso 1 con valores SIN = 20 y CON = 6; el caso 11 con valores SIN = 3 y CON = 6):
La comparacin entre el valor del ndice de correlacin clsico de Pearson y el valor de los ndices de
correlacin robustos, dir si estos valores alejados constituyen puntos influyentes, es decir, si estos valores
determinan mayoritariamente el valor del coeficiente de correlacin clsico. En este sentido, es muy
importante la determinacin de la existencia de puntos influyentes en una relacin ya que stos pueden
enmascarar la verdadera relacin existente y proporcionar valores errneos en el coeficiente de correlacin.
A continuacin, se proceder a calcular el ndice de correlacin robusto p b .
(a) En primer lugar, se obtiene el valor de la mediana de la variable X (SIN) y la variable Y (CON):
Me X = 3
Me Y = 2
(b) Se selecciona para el valor 0,2, y se obtiene el valor m =
( (1 0, 2 )15) = 12
W i X = x i Me X
W iY = x i Me Y
se observa como los valores que ocupan la posicin m en las variables X e Y son:
W(m) = w X = 2
W ( m ) = wY = 2
(d) Para la variable X se calcula la expresin
x i MeX
wX
que permite obtener:
18
i1 = 1
i2 = 1
(e) Por su parte, para la variable Y la expresin
y i MeY
wY
permite obtener:
i1 = 0
i2 = 2
(f) Se tiene que:
s X = 42 X =
2 (1 1) + 42
= 3, 2307
15 1 1
SIN (X)
20
4
3
5
2
4
2
2
4
4
3
0
5
3
1
CON (Y)
6
2
0
3
3
2
3
1
1
3
6
2
2
4
0
WiX
17
1
0
2
1
1
1
1
1
1
0
3
2
0
2
x i MeX
Ui
Ai
8,38
0,38
-0,11
0,88
-0,61
0,38
-0,61
-0,61
0,38
0,38
-0,11
-1,61
0,88
-0,11
-1,11
1,00
0,38
-0,11
0,88
-0,61
0,38
-0,61
-0,61
0,38
0,38
-0,11
-1,00
0,88
-0,11
-1,00
wX
8,5
0,5
0,0
1,0
-0,5
0,5
-0,5
-0,5
0,5
0,5
0,0
-1,5
1,0
0,0
-1,0
WiY
4
0
2
1
1
0
1
1
1
1
4
0
0
2
2
y i MeY
wY
2,0
0,0
-1,0
0,5
0,5
0,0
0,5
-0,5
-0,5
0,5
2,0
0,0
0,0
1,0
-1,0
A partir de la tabla anterior, los valores necesarios para obtener la correlacin p b son:
A = 6,3323
B = 6,1449
A B = 1,9660
2
i
2
i
r pb =
1,9660
= 0,3151
6,3323 6,1449
19
Vi
Bi
1,84
-0,15
-1,15
0,34
0,34
-0,15
0,34
-0,65
-0,65
0,34
1,84
-0,15
-0,15
0,84
-1,15
1,00
-0,15
-1,00
0,34
0,34
-0,15
0,34
-0,65
-0,65
0,34
1,00
-0,15
-0,15
0,84
-1,00
Prueba de independencia
El valor terico de la correlacin robusta p b se mueve entre 1 y +1, de manera que cuando las dos
variables X e Y son independientes se tiene que pb = 0 .
Para probar la hiptesis nula de independencia H 0 : pb = 0 se transforma este valor a un valor t
mediante la expresin:
n2
2
1 r pb
t = r pb
t = 0,3151
15 2
1 ( 0,3151)
= 1,1970
Este ndice se debe situar en la distribucin t de StudentFisher con n 2 = 13 grados de libertad. En esta
distribucin, t 13,0,05 = 2,160 , por lo que el valor hallado tiene un grado de significacin superior al 5 %.
4.4.2. Correlacin winsorizada
La correlacin winsorizada es otra medida robusta de la correlacin entre dos variables aleatorias.
El valor terico de la correlacin robusta W se mueve entre 1 y +1, de manera que cuando las dos
variables X e Y son independientes se tiene que W = 0 .
El clculo de la correlacin winsorizada se realiza winsorizando los valores de las variables X e Y una
proporcin p , y obteniendo la correlacin de Pearson de los nuevos valores, segn la expresin:
( X W ( p ) ) (Y W ( p ) )
( X W ( p ) ) (Y W ( p ) )
W
rW =
Siguiendo con el ejemplo numrico anterior, se proceder a calcular el valor de la correlacin winsorizada
W , winsorizando un caso a cada lado de la distribucin.
En primer lugar, se obtiene el valor de la media winsorizada de las variables X e Y :
48
= 3, 2
15
38
WY ( p ) =
= 2,5333
15
WX ( p) =
A continuacin, se calcula los diferentes elementos que componen el ndice de correlacin winsorizada W .
El desarrollo de los clculos se muestran en la siguiente tabla:
SIN (X)
CON (Y)
20
4
3
5
2
4
6
2
0
3
3
2
XW YW (XW-WX|p) (YW-WY|p)
5
4
3
5
2
4
6
2
0
3
3
2
3,24
0,64
0,04
3,24
1,44
0,64
20
12,02
0,28
6,42
0,22
0,22
0,28
(XW-WX|p)(YW-WY|p)
6,24
-0,43
0,51
0,84
-0,56
-0,43
2
2
4
4
3
0
5
3
1
3
1
1
3
6
2
2
4
0
2
2
4
4
3
1
5
3
1
3
1
1
3
6
2
2
4
0
1,44
1,44
0,64
0,64
0,04
4,84
3,24
0,04
4,84
26,40
-0,56
1,84
-1,23
0,37
-0,69
1,17
-0,96
-0,29
5,57
11,40
0,22
2,35
2,35
0,22
12,02
0,28
0,28
2,15
6,42
45,73
A partir de los valores obtenidos en la tabla, se podr calcular el ndice de correlacin winsorizada:
rW =
11, 40
= 0,3280
26, 40 45, 73
Prueba de independencia
Para probar la hiptesis nula de independencia H 0 : W = 0 , se obtiene:
t = rW
Si el valor de t supera el percentil 1
n2
1 rW2
t = 0,3280
15 2
1 ( 0,3280 )
= 1, 2518
Este ndice se debe situar en la distribucin t de StudentFisher con h 2 = 11 grados de libertad. En esta
distribucin, t 11,0,05 = 2, 201 , por lo que el valor hallado tiene un grado de significacin superior al 5 %.
Para finalizar, se proceder a comentar las diferencias halladas por la va clsica y por la va robusta. Puede
observarse que el coeficiente de correlacin clsico, r = 0,5479 , es significativo
( p = 0, 02 ) . Sin embargo,
( p = 0, 02 ) a un
( p = 0,57 ) .
El anlisis de la varianza (ANOVA) permite estudiar relaciones entre una variable dependiente (cuantitativa)
y una o ms variables independientes, denominadas factores, tratadas como cualitativas.
En este texto se tratar el caso de la relacin entre una variable dependiente cuantitativa y un factor, de ah
el calificativo de unifactorial. Por otra parte, se debe puntualizar que el modelo que se tratar corresponde al
denominado modelo de efectos fijos, o modelo tipo I, en el que las condiciones experimentales utilizadas
son aquellas sobre las cuales se quiere obtener y extrapolar la informacin. Este tipo de modelo es el ms
frecuente en el campo de las ciencias sociales y del comportamiento. Frente a este modelo se encuentra el
modelo de efectos aleatorios, o modelo de tipo II, en el que las condiciones experimentales utilizadas en la
experiencia constituyen tan slo una muestra de todas las posibles y el experimentador desea obtener
informacin sobre cualquiera de las posibles condiciones experimentales, no tan slo de las utilizadas.
La hiptesis estadstica del ANOVA unifactorial de efectos fijos establece que las medias de las poblaciones
orgenes de los distintos grupos experimentales, son iguales.
Mientras que la hiptesis alternativa indica que en el conjunto de las medias hay alguna diferencia:
H 0 : 1 = 2 = = k
H 1 : 1 2 k
As pues, la tcnica del ANOVA, a pesar de su nombre, permite contrastar igualdad de medias, y constituye
la generalizacin de la tcnica de comparacin de dos medias, vista anteriormente.
En los siguientes apartados, se proceder a desarrollar el ANOVA robusto en el diseo de grupos
independientes. Recurdese que el modelo del ANOVA en este tipo de diseo, al igual que en el caso de la
comparacin de dos medias, exige el cumplimiento de una serie de supuestos, entre ellos, la homogeneidad
o igualdad de varianzas en las poblaciones orgenes de los grupos. En este sentido, se han desarrollado
pruebas especficas para el caso en que este supuesto no sea satisfecho, como la prueba de Welch (17) y
la prueba de Brown-Forsythe (18, 19). Por tanto, se distinguir entre pruebas bajo homocedasticidad
(igualdad) de varianzas y pruebas bajo heterocedasticidad (desigualdad) de varianzas.
F ( p) =
h i ( Ti ( p ) T ( p ) )
i =1
k 1
SDC i (W )
i =1
donde: k
H k
es el nmero de grupos;
ni
hi = n i (1 2 p )
N = ni
i =1
n
H = hi
i =1
H = N (1 2 p ) ;
Ti ( p )
T ( p) =
h T ( p)
i =1
22
SDC (W i )
( k 1) , ( H k )
grados de
libertad.
Ejemplo numrico
La tabla siguiente
grupo
1
2
3
10
12
11
13
14
12
13
15
12
25
13
15
17
18
16
18
19
14
16
14
18
20
20
21
18
19
22
21
22
40
proporciona las respuestas obtenidas en tres grupos, formados cada uno de ellos por 10 sujetos, a los que
se les aplicaron tres condiciones experimentales diferentes. Se trata de averiguar si la respuesta de los
individuos depende de la condicin experimental.
En el grfico se puede observar la presencia de un valor alejado en el grupo 1 (el valor 25) y de un valor
alejado en el grupo 3 (el valor 40).
El ANOVA que permite estudiar la relacin entre la variable respuesta y la condicin experimental utilizada,
proporciona los resultados expresados en la siguiente tabla. As pues, F = 8,91
la hiptesis de relacin entre la respuesta y la condicin experimental.
23
( p = 0, 0011) , se acepta
Si bien la prueba de Levene permite mantener la hiptesis de igualdad de varianzas poblacionales, la tabla
anterior proporciona tambin, a efectos didcticos, los resultados de las pruebas de Welch y de BrownForsythe.
Ambas pruebas dan soporte a la aceptacin de la hiptesis alternativa.
La pregunta que ahora cabe formularse tiene que ver con el hecho de averiguar si los valores alejados que
aparecen en los grupos 1 y 3 han afectado a los resultados obtenidos y en qu medida lo han hecho.
El primer paso que hay que realizar para proceder a los diferentes clculos que permiten obtener los datos
relevantes para realizar el anlisis robusto, consiste en ordenar las observaciones, tal como aparecen en la
tabla siguiente.
grupo
1
2
3
10
11
12
12
12
13
13
14
15
25
13
14
14
15
16
16
17
18
18
19
18
18
19
20
20
21
21
22
22
40
A continuacin, se procede a realizar el ANOVA cuando los datos se han recortado un 10 %. As pues, al
ser todos los grupos del mismo tamao, en cada grupo se recortan p n = ( 0,10 )10 = 1 observacin de cada
extremo de la distribucin.
Los datos que definen las dimensiones del problema vienen dados por:
hi = n i (1 2 p ) = 8
H = N (1 2 p ) = 24
Las medias recortadas, un 10%, de cada grupo vienen dadas por:
11 + 12 + 12 + 12 + 13 + 13 + 14 + 15
102
=
= 12, 75
8
8
14 + 14 + 15 + 16 + 16 + 17 + 18 + 18
128
=
= 16
T2 =
8
8
18 + 19 + 20 + 20 + 21 + 21 + 22 + 22
163
=
= 20,375
T3 =
8
8
T1 =
La siguiente tabla permite leer los valores de las medias recortadas en cada grupo as como los valores de
las desviaciones estndar robustos.
T ( p) =
8 (12, 75 + 16 + 20,375 )
= 16,375
24
11 + 11 + 12 + 12 + 12 + 13 + 13 + 14 + 15 + 15
128
=
= 12,8
10
10
14 + 14 + 14 + 15 + 16 + 16 + 17 + 18 + 18 + 18
160
=
= 16
W2 =
10
10
18 + 18 + 19 + 20 + 20 + 21 + 21 + 22 + 22 + 22
203
=
= 20,375
W3 =
10
10
W1 =
SDC (W )
i
i =1
= 67, 7
h (T T ( p ) )
i =1
F ( p) =
234, 25
67, 7
2 = 36,33124
21
media
desviacin tpica
n
media
desviacin tpica
n
grupo 1
grupo 2
grupo 3
13,7
4,21
10
12,75
3,40
8
16,00
2,00
10
16,00
2,11
8
22,10
6,45
10
20,37
4,73
8
De la tabla se desprende que el recorte de los casos extremos determina que las observaciones sean ms
homogneas, menos variables, que el solapamiento entre las distribuciones muestrales de medias sea
menor y, por tanto, posibilita que las medias de estos grupos sean ahora ms diferentes de lo que eran en
un principio.
Como consecuencia de todo ello, se tiene que tras el recorte de los casos extremos se pasa de un ndice
F = 8,91 por la va clsica a un ndice F = 36,33 por la va robusta.
25
WS ( p ) =
donde: w i =
hi
w i (Ti ( p ) T ( p ) )
k 1
i =1
1 i
k
2 ( k 2)
w
1+ 2
k 1 i =1 h i 1
es el factor de ponderacin;
sW2 i
sW2 i
SDC (W i )
hi 1
W = wi
;y
i =1
T ( p) =
w T ( p)
i =1
W
Los grados de libertad f del denominador se obtienen por medio de:
3
1
= 2
f
k 1
wi
k
w
hi 1
i =1
(a) Las varianzas winsorizadas s W i de cada grupo se obtienen a partir de las sumas de desviaciones
( )
cuadrticas SDC W i :
19, 6
= 2,8
7
26
=
= 3, 7142
7
22,1
=
= 3,1571
7
s 2 (W1 ) =
s 2 (W 2 )
s 2 (W 3 )
26
56
19, 6
56
w2 =
26
56
w3 =
22,1
w1 =
W =
w
i =1
= 7,5449
(d) La media recortada global viene dada, en funcin de los valores de las medias recortadas de cada
grupo, por:
56
56
56
19, 6 12, 75 16 22,1 20,375
26
T ( p) =
+
+
= 16, 2386
7,545
7,545
7,545
(e) La siguiente tabla permite obtener los datos necesarios para aplicar la prueba de Welch:
wi
1 w
hi 1
grupo
1
2
3
total
wi (Ti T ( p ) )
0,0551
0,0729
0,0630
34,7724
0,1226
43,3550
0,1910
78,2501
78, 2501
= 39,125
2
El denominador de la prueba de Welch viene dado por:
1+
2
0,1910 = 1, 0477
8
WS ( p ) =
39,1250
= 37,3411
1, 0477
(h) Los grados de libertad vienen dados por 2 y f . El valor de f viene dado por:
1
3
= 0,1910
f
8
f = 13,954
5.2.2. El estadstico recortado de Brown-Forsythe
El estadstico recortado de Brown-Forsythe viene dado por:
27
h (T ( p ) T ( p ) )
BF ( p ) =
i =1
hi
i =1
1 H s (W )
2
1
=
f
h
i =1
2i
i
hi 2
1 s (W i )
H
i = k
hi 2
1 s (W i )
H
i =1
La significacin de BF ( p ) se estudia en la distribucin F de Snedecor con ( k 1) , f grados de libertad.
Para obtener el valor de la prueba de Brown-Forsythe recortada un 10 %, utilizando los mismos datos que
en el ejemplo anterior:
19, 6
7
26
=
7
22,1
=
7
s 2 (W1 ) =
s 2 (W 2 )
s 2 (W 3 )
2
Las varianzas winsorizadas s W i de cada grupo se obtienen a partir de las sumas de desviaciones
( )
h (T T ( p ) )
i =1
hi
i =1
1 H ( s (W ) )
2
= 6, 4476
BF ( p ) =
234, 25
= 36,3312
6, 4476
1 = 0, 2895
2 = 0,3840
3 = 0,3264
As pues,
28
1
0,3378
=
f
7
f = 20, 7178
A modo de conclusin, se muestran todos los resultados obtenidos en el ejemplo propuesto:
F
Welch
BF
F (0,10)
WS (0,10)
BF (0,10)
grados de libertad
significacin
2 , 27
2 , 15
2 , 18
2 , 21
2 , 14
2 , 21
8,91
5,69
8,91
36,33
37,34
36,33
p = 0,0011
p = 0,0145
p = 0,0020
p < 0,0001
p < 0,0001
p < 0,0001
As pues, se puede comprobar que al efectuar los anlisis robustos, recortando un 10 % la distribucin, los
valores de F han aumentado considerablemente, en todos los casos, haciendo que la diferencia entre los
grupos sea estadsticamente superior a lo que era antes de realizar el recorte del 10 %.
Es decir, al recortar las distribuciones se ha eliminado la influencia que las observaciones extremas tenan
sobre la media, sobre todo en los grupos 1 y 3, y asimismo sobre la variabilidad de las observaciones en
cada grupo.
6. Bibliografa
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
29
Otras referencias
1.
2.
3.
4.
5.
30