You are on page 1of 34

TEMA 10:

Anlisis de la Varianza
(ANOVA)
1. Introduccin
2. Anlisis de la varianza con un factor
3. Anlisis de la varianza con dos factores
1. INTRODUCCIN
El ANOVA permite contrastar (comparar) las
medias de ms de dos poblaciones.

Contrasta las hiptesis de igualdad de medias


contra la alternativa de que al menos una de las
medias difiera del resto:

H0(1=2==k=) vs H1( al menos j)


con j=1,2,, k

Podemos estudiar cmo influye sobre una


variable aleatoria uno o varios factores.
EJEMPLO 1

Un fabricante de papel de caramelo est interesado en


mejorar la resistencia a la tensin de ste. Un grupo de
ingeniera piensa que esta resistencia depende de la
concentracin de pulpa de madera y que su rango vara
entre 5 y 20%. Por ello decide investigar 4 niveles de
concentracin: 5, 10, 15 y 20% y realizar 6 pruebas para
cada uno de ellos:
5% 10% 15% 20%
7 12 14 19
8 17 18 25
15 13 19 22
11 18 17 23
9 19 16 18
10 15 18 20

Hay evidencia estadstica suficiente para afirmar que


son iguales los niveles de concentracin?
1. INTRODUCCIN
Antes de continuar veamos cmo llamaremos a cada uno de los parmetros
que aparecen en el ejemplo
DEFINICIONES BSICAS:
o Variable Respuesta: Es la variable aleatoria sobre la que queremos
estudiar el efecto de una serie de parmetros (factores).
o Factores: Son los parmetros cuyos efectos sobre la variable respuesta
se desea estudiar. Pueden ser cuantitativos o cualitativos.
o Variantes y niveles, I: Son las diferentes opciones que se plantean en el
estudio para un factor: son variantes en el caso de cualitativos y niveles
en el caso de cuantitativos.
o Tratamientos: son las combinaciones que se generan entre niveles y/o
variantes de los factores. A cada tratamiento le corresponde una
poblacin sobre la que se distribuye su variable respuesta.
o Plan factorial equilibrado: tomamos siempre el mismo tamao de
muestra ni para cada variante o nivel.
1. INTRODUCCIN
En el caso de nuestro ejemplo:
o Variable Respuesta: Resistencia a la tensin
del papel.
o Factores: slo hay un factor que es la
Concentracin de Pulpa.
o Variantes y niveles: es una variable
cuantitativa y por lo tanto tiene 4 niveles.
o Tratamientos: en este caso como no hay slo
un factor podemos decir que hay 4 niveles o
tratamientos.
o Plan factorial equilibrado: s que lo es y de
tamao 6. (6 rplicas)
2.- ANOVA CON UN FACTOR
Contraste del ANOVA
o Como comentamos al principio, contrastamos
H0(1=2==k=) vs H1( al menos j)
o Para contrastar las hiptesis utilizaremos la
variabilidad
o Para medir la variabilidad utilizaremos la
Descomposicin de Suma de Cuadrados
SCT= SCE + SCD
2 2 2
(Xij -) = (i -) + (Xij -i )
ij i ij
2.- ANOVA CON UN FACTOR
o Suma de Cuadrados Residual o Intragrupos
(SCD) que tiene que ver con la variabilidad
dentro de cada nivel de factor
o Suma de Cuadrados Explicada o Intergrupos
(SCE), que tiene que ver con las diferencias
entre la media de cada factor y la media global
o Si H0 es cierta, entonces SCE ser pequea
frente a SCT.
o Si H0 se rechaza, ello no implica que todas las
i sean distintas entre s, sino que alguna(s) de
ellas es diferente a las dems.
2.- ANOVA CON UN FACTOR
Modelo del ANOVA
o En el modelo de ANOVA se supone que cada observacin
Xij puede expresarse como:
Xij= i+ij= +i+ij
o ij residuo, es la desviacin de cada dato respecto a la
media del nivel del factor al que pertenecen (i).
o i efecto del nivel i, es una medida de la tendencia
que tienen los datos a desviarse de la media global segn
el nivel del factor al que pertenezcan (i=i-).
o En trminos de los efectos, las hiptesis que se
contrastan en el ANOVA, pueden enunciarse como
H0(1=2==k=0) vs H1( al menos j0)
EJEMPLO

Supongamos las notas de 9 alumnos de 3 grupos distintos. En este caso, la media global
es 5 y la de cada grupo tambin es 5 (Xi,j==5) ya que cada valor es igual a la media
general. NO HAY DIFERENCIA NI ENTRE GRUPOS NI DENTRO DE LOS GRUPOS
Grupo A Grupo B Grupo C
A=B=C==5 5 5 5
5 5 5
5 5 5

Supongamos que aplicamos un mtodo de enseanza (MODIFICAMOS EL FACTOR)


que afecta cambiando las notas como muestra la tabla. As ahora la nota de cada alumno
sera Xij=+i, con i =-1, +1 y 0. Es decir, ahora HAY DIFERENCIAS ENTRE LOS
GRUPOS PERO NO DENTRO DE LOS GRUPOS.
A=6 Grupo A Grupo B Grupo C
B=4 5+1=6 5-1=4 5
C=5 5+1=6 5-1=4 5
5+1=6 5-1=4 5
=5
El Intragrupo slo se modifica por cuestiones del azar Xij=+i+ ij.

Grupo A Grupo B Grupo C


5+1+025=625 5-1+01=41 5-017=483
5+1+03=63 5-1+015=415 5+011=511
5+1-02=58 5-1+023=423 5-034=466
2.- ANOVA CON UN FACTOR
Supuestos estadsticos del ANOVA:
Si alguna de estas hiptesis falla, las conclusiones del
ANOVA son dudosas:
1) Hiptesis de Normalidad: Asumimos que las variables Xij
siguen distribuciones normales.
2) Hiptesis de homocedasticidad: todas las varianzas ij2 son
iguales. Si se incumple puede seguir aplicndose el Anova,
aunque los resultados obtenidos (en particular, los valores de
los p-valor) son aproximados.
3) Hiptesis de independencia: los valores observados deben
ser extrados al azar e independientes de las poblaciones
investigadas. Su incumplimiento puede conducir a
conclusiones completamente errneas.
2.- ANOVA CON UN FACTOR
Estimacin de ANOVA
o En la realidad tomamos muestras y usamos
estimadores:
I I
2 x2i
SCEIntergrupos =ni (xi -x) = -nx2
ni
i=1 i=1
I ni I ni I
2 x2i
SCDIntragrupos = (xij -xi ) = x2ij -
ni
i=1 j=1 i=1 j=1 i=1
I ni I ni
2
SCT= (xij -x) = x2ij -nx2
i=1 j=1 i=1 j=1

donde I es el n de niveles o variantes, ni es el tamao


de la muestra de cada uno de ellos y n el tamao total.
2.- ANOVA CON UN FACTOR
Del ejemplo 1 de la introduccin tenemos que:
5% 10% 15% 20%
7 12 14 19
8 17 18 25
15 13 19 22
11 18 17 23
9 19 16 18
10 15 18 20
medias 10 1567 17 21167 15958
n 6 6 6 6 24

SCEIntergrupos= 6 (10-15958)2+ 6(1567-15958)2+ 6(17-15958)2


+6(21-15958)2= 38279
SCT=72+82++202 - 24159582=51296
SCDIntragrupo=SCT-SCE=512958- 38279= 130168
EJEMPLO 2:

Supongamos que queremos ver si existe diferencia entre los


tiempos de llegada a un mismo destino en funcin del tipo de
transporte utilizado: es decir, la variable respuesta es
TIEMPO .

Para ello, se han medido los tiempos de n1=53 metros, n2=29


autobuses, n3=13 trenes, n4=11 coches, n5=3 motos y n6=5
personas a pie. En total n=114 mediciones, obtenindose la
siguiente tabla:
Tamao media
Metro n1=53 x1 =39,99
bus n2=29 x2 =36,17
tren n3=13 x3 =59,15
coche n4=11 x4 =23,18
moto n5=3 x5 =25
a pie n6=5 x6 =40
TOTAL n=114 x=39,17

Para resolver el test de hiptesis tenemos que hacer las sumas


de cuadrados que para el caso del ejemplo nos queda
SCE=8901537 SCD=29810297 SCT=38711833
2.- ANOVA CON UN FACTOR
o Cuando la H0 es cierta SCE/I-1 y SCD/n-I son
dos estimadores insesgados de la varianza
poblacional y el cociente entre ambos se
distribuye segn una FI-1,n-I.
o Por lo tanto, si H0 es cierta el cociente entre
ambas estimaciones ser aprox igual a 1, de
forma que se rechazar H0 si dicho cociente
difiere significativamente de 1.
SCE SCD CME
CME= CMD= FI-1,n-I = p-valor
I-1 n-I CMD

Si FI-1,n-I es pequeo o p-valor aceptamos la H0


2.- ANOVA CON UN FACTOR
Para el caso del EJEMPLO 1 tendremos:

CME=SCE/glE= 38279/3=1275967

CMD=SCD/glD= 130168/20=65084

F5,108=1275967/65084=1960 p-valor=0,0000

Por lo tanto rechazamos la hiptesis de igualdad de


medias, es decir, hay al menos una media que es
distinta de las dems.
2.- ANOVA CON UN FACTOR
Para el caso de nuestro ejemplo 2:

CME=SCE/glE=8901,537/5=1780,307

CMD=SCD/glD=29810,297/108=276,021

F5,108=1780,307/276,021=6,450 p-valor=0,0000

Por lo tanto rechazamos la hiptesis de igualdad de


medias, es decir, hay al menos una media que es
distinta de las dems.
EJERCICIOS
1. Un ingeniero est interesado en el efecto sobre la conductividad de
una vlvula electrnica, que tiene 5 tipos diferentes de recubrimiento,
para los tubos de rayos catdicos utilizado en un dispositivo de
visualizacin de un sistema de telecomunicaciones. Si se han obtenido
los siguientes datos, existe alguna diferencia en la conductividad?
1 2 3 4 5
143 152 134 129 147
141 149 133 127 148
150 137 127 132 144
146 143 148 129 142

2.- Se estudia la resistencia a la compresin de unas piezas de plstico y


se utilizan 4 mezclas distintas obtenindose del estudio los siguientes
resultados:
1 3129 3000 2865 2890
2 3200 3300 2975 3150
3 2800 2900 2985 3050
4 2600 2700 2600 2765

Probar la hiptesis de que las tcnicas de mezclado afectan a la


resistencia
3. ANOVA CON 2 FACTORES
Comprobaremos si dos factores influyen sobre
una variable aleatoria o, lo que es lo mismo, si la
variable aleatoria depende de los niveles y/o
variantes de dos factores.
Comprobaremos si la variable aleatoria tambin
depende de la INTERACCIN entre ambos
factores.
o Existe interaccin entre dos factores cuando el
efecto de un factor sobre la variable aleatoria
depende de cual sea el nivel del otro factor.
(Por ejemplo, un tipo abono influye acelerando el crecimiento de las
plantas en una hectrea, mientras que en otra lo desacelera; es
decir, un mismo factor influye de forma distinta a la variable
crecimiento en hectreas con caractersticas diferentes)
3. ANOVA CON 2 FACTORES
Contraste del ANOVA

Son varias las hiptesis que contrastamos:

o 1) Para el factor 1 contrastamos la igualdad de medias de


las variantes o niveles:

H0(10= 20== i0) vs H1( al menos i0)

o 2) Para el factor 2 contrastamos la igualdad de medias de


las variantes o niveles:

H0(01= 02== 0j) vs H1( al menos 0j)

o 3) Para la interaccin contrastamos que el factor 1 no


influye sobre el 2, o sea, que se cumple (ij-ij) = (ij-ij').
3. ANOVA CON 2 FACTORES
EJEMPLO (Ejemplo de Uam):
Queremos estudiar si influye la Edad y el Fumar
en la Ansiedad de la poblacin (medida sta
mediante una escala del 0 al 9). Para cada
combinacin (tratamiento) existe una poblacin de
la que obtenemos la media.

Factor 1: Edad: Joven, Medio, Adulto


Factor 2: Fumar: Si, No
Variable respuesta: Escala de Ansiedad

Veamos que casos podran haber salido:


CASO 1: Sin efectos principales de los factores ni
interaccin
FUMAR
NO SI i0
JOVEN 11=7 12=7 10=7
EDAD MEDIO 21=7 22=7 20=7
ADULTO 31=7 32=7 30=7
0j 01=7 02=7 00=7

Interaction Plot
8 Fumar
0
7 1
Ansiedad

3
1 2 3
Edad
CASO 2: Efectos principales sin interaccin
FUMAR
NO SI i0
JOVEN 11=1 12=3 10=2
EDAD MEDIO 21=3 22=5 20=4
ADULTO 31=5 32=7 30=6
0j 01=3 02=5 00=4
Caso 3: Interaccin sin efectos principales
FUMAR
NO SI i0
JOVEN 11=5 12=5 10=5 11 - 21 = 5 3 = 2
EDAD MEDIO 21=3 22=7 20=5 10 - 20 = 5 5 = 0
ADULTO 31=7 32=3 30=5
0j 01=5 02=5 00=5
Caso 4: Efectos principales e interaccin
FUMAR
NO SI i0
JOVEN 11=8 12=4 10=6
EDAD MEDIO 21=5 22=3 20=4
ADULTO 31=5 32=5 30=5
0j 01=6 02=4 00=5
3. ANOVA CON 2 FACTORES
Modelo del ANOVA
o En el modelo de ANOVA se supone que cada observacin
Xijk puede expresarse como:
Xijk= +i+j+()ij+ijk
ijk o residuo.
i, j o efectos de los niveles de los factores 1 y 2.
()ij o efecto de la interaccin entre los factores en sus
niveles ij.
o En trminos de los efectos, las hiptesis que se
contrastan en el ANOVA, pueden enunciarse como
H0(i=0) vs H1( al menos j0)
H0(i=0) vs H1( al menos j0)
H0(()ij=0) vs H1( al menos ()ij0)
3. ANOVA CON 2 FACTORES
Supuestos estadsticos del ANOVA:

Si alguna de estas hiptesis falla, las conclusiones del


ANOVA son dudosas (idem. 1 factor):

1) Hiptesis de Normalidad: Asumimos que las variables Xijk


siguen distribuciones normales.

2) Hiptesis de homocedasticidad: todas las varianzas ij2 son


iguales. Si se incumple puede seguir aplicndose el Anova,
aunque los resultados obtenidos (en particular, los valores de
los p-valor) son aproximados.

3) Hiptesis de independencia: los valores observados deben


ser extrados al azar e independientes de las poblaciones
investigadas. Su incumplimiento puede conducir a
conclusiones completamente errneas.
3. ANOVA CON 2 FACTORES
Estimacin de ANOVA
En la realidad tomamos muestras n para cada tratamiento
quedndonos tablas de este tipo:
F2
B1 B2 BJ
x111 x121 x1J1
x112 x122 x1J2
A1
. . .
x11n x12n x1Jn
x211
. .
x212
A2 . .
F1 .
. .
x21n
. . . .
xI11 xIJ1
xI12 xIJ2
AI
. .
xI1n xIJn
3. ANOVA CON 2 FACTORES
Sea un plan factorial equilibrado con dos factores 1
(con I variantes) y 2 (con J variantes) y con n
replicaciones en cada uno de los IxJ tratamientos
posibles. Sea xijk una observacin genrica (donde i =
1 ... I, j = 1 ... J y k = 1, ... n).

Se definen los siguientes totales:


3. ANOVA CON 2 FACTORES
Las expresiones de las sumas de cuadrados son:
3. ANOVA CON 2 FACTORES
La SCR y sus grados de libertad se obtienen por diferencia:

SCR = SCT SCF1 SCF2 SCF1*F2


glR= IJ(n-1)

Al igual que en el caso de un factor, los Cuadrados Medios


se obtienen dividiendo la SC por sus g. l.:
CMF1=SCF1/I-1 CMF2=SCF2/J-1
CMF1*F2=SCF1*F2/(I-1)(J-1) CMR=SCR/IJ(n-1)

La Fratio para cada efecto se calcula dividiendo su CM por el


CMR:

.
3. ANOVA CON 2 FACTORES
Finalmente, el p-valor se obtendra buscando en
una tabla de la F (mediante el Statgraphics).

En general las tablas disponibles no son lo


suficientemente detalladas como para permitir
hallar exactamente los p-values.

En la prctica lo que se hace es ver si el Fratio


obtenido es mayor que el de la tabla (en cuyo caso
el p-value sera inferior a y el efecto sera
"significativo H0 falsa)
3. ANOVA CON 2 FACTORES
INTERVALOS LSD
o Cuando el test F resulta significativo con I>2 variantes,
hay que precisar entre cules de las variantes hay
diferencias significativas.
o Una forma sencilla es mediante los intervalos LSD
("Least Signficative Difference") para la media de cada
variante:

La diferencia entre la media de dos tratamientos ser


significativa si los respectivos intervalos LSD no se
solapan entre s
EJERCICIOS
1. Se aplican pinturas tapaporos para aeronaves en superficies de
aluminio con dos mtodos: inmersin y rociado. Por otra parte,
el grupo de ingeniera desea ver si existe diferencias entre tres
tipos distintos de tapaporos A, B y C. Existen diferencias
significativas? Los datos son los siguientes:

Inmersin Rociado
A 40 45 43 54 49 56
B 45 49 54 58 61 63
C 38 37 40 55 50 50

Fuente SC g. l. CM F-ratio p-valor


F1 458
F2 491
F1*F2 024
Error 099
Total 1072
EJERCICIOS
2. Se efecta un experimento para ver si la temperatura de
encendido o la posicin de la caldera tienen efecto sobre la
densidad de un nodo de carbn. existen diferencias
significativas? Los datos son los siguientes:

800C 825C 850C


Pos. 1 570 565 583 571 1063 1080 1043 1070 988 1026 1004 995
Pos. 2 528 547 521 530 565 510 590 570 526 538 532 525

Fuente SC g. l. CM F-ratio p-valor


F1 692241
F2 308008
F1*F2 269094
Error 5720
Total 1,2750E6

You might also like