You are on page 1of 18

ANÁLISIS DE LA VARIANZA

MODELOS DE ANÁLISIS DE LA VARIANZA


El análisis de la varianza es un método estadístico para determinar sí diversos
conjuntos de muestras aleatorias de una determinada variable proceden de la
misma población o de poblaciones distintas. En general, cada conjunto muestral
se caracteriza por estar afectado por un tratamiento específico, que
eventualmente puede influir en los valores que tome la variable objeto de estudio.
Se denomina factor a la variable que supuestamente ejerce una influencia sobre
la variable estudiada a la que se denomina dependiente. En el análisis de la
varianza, el factor cuya influencia se quiere corroborar se introduce de forma
discreta, independientemente que sea de naturaleza continua o no. Así, la
cantidad de fertilizante aplicada tiene una naturaleza intrínsecamente continua
pero en un estudio de análisis de la varianza solamente se consideran un número
determinado de niveles. Cuando el factor sea de naturaleza discreta, que será la
situación más frecuente, se utilizan de forma equivalente los términos de grupo
o nivel para referirse a una característica concreta.
El análisis de la varianza, especialmente por la difusión de programas de
ordenador, es conocido por las siglas inglesas ANOVA (Analysis Of VAriance).
ANÁLISIS DE LA VARIANZA CON UN FACTOR
Disponemos de r poblaciones, generalmente correspondientes a r tratamientos
experimentales. Cada uno de los tratamientos Ti, (i=1,…, r) se supone que tiene
distribución normal con media i y varianza 2, común a todos ellos, es decir se
trata de poblaciones normales y homoscedásticas. De cada una de las
poblaciones (o tratamientos), tomamos una muestra de tamaño ni.
Las observaciones obtenidas se pueden recoger en una tabla de la forma

Es decir xij es la observación j del grupo experimental i.

Llamaos x1,…, xr a las medias muestrales de los grupos y x a la media de todas


las observaciones.
Cuando se trata de un experimento diseñado, es decir, cuando se trata de la
aplicación de r tratamientos a un conjunto de unidades experimentales, estas
deben seleccionarse para que sean homogéneas, de forma que no se
introduzcan factores de variación distintos del que se desea controlar. La
asignación de los tratamientos a cada una de las unidades debe hacerse al azar.
Es lo que se conoce como diseño “completamente al azar”.
El modelo matemático subyacente a este tipo de diseño es:

donde es la cantidad que depende del tratamiento usado


(descompuesta en una media global y un efecto del tratamiento) y es la
cantidad que depende solamente de la
unidad experimental y que se identifica con el error experimental.
La hipótesis de que los distintos tratamientos no producen ningún efecto (o la de
que las medias de todas las poblaciones son iguales) se contrasta mediante el
análisis de la varianza de una vía, comparando la variabilidad entre grupos con
la variabilidad dentro de los grupos.

El análisis de la varianza se basa en la descomposición de la variabilidad total


en dos partes, una parte debida a la variabilidad entre las distintas poblaciones
o tratamientos (variabilidad entre grupos o variabilidad explicada por el diseño) y
otra parte que puede considerarse como la variabilidad intrínseca de las
observaciones (variabilidad dentro de los grupos o residual).

Q  QE  QR

La variabilidad entre grupos:

mide la discrepancia entre los grupos y la media global, de forma que si no hay
diferencias entre ellos (la hipótesis nula es cierta) obtendremos variabilidades
pequeñas. Si, por el contrario, la hipótesis nula es falsa, cabe esperar que la
variabilidad entre grupos sea grande.
La variabilidad dentro de los grupos

mide la variabilidad intrínseca de las observaciones, es decir, si el experimento


está bien diseñado y no se incluyen factores de variación distintos al estudiado,
debe ser error puramente aleatorio producido como resultado de la variabilidad
biológica del material experimental.
El contraste del Análisis de la varianza se basa en la comparación de la
variabilidad entre y la variabilidad dentro, rechazaremos la hipótesis nula siempre
que la variabilidad “entre” sea grande, pero utilizando como patrón de
comparación la variabilidad “dentro”. Es decir, aceptaremos un efecto de los
tratamientos siempre que estos produzcan mayores diferencias en las unidades
experimentales que las que habría sin la aplicación de los mismos.
Antes de proceder a la comparación hemos de dividir las sumas de cuadrados
por sus correspondientes grados de libertad, relacionados con el número de
observaciones con las que se realiza el cálculo.De esta forma obtenemos los
cuadrados medios o estimadores de las variabilidades.
La información completa se resume en la tabla siguiente. Es la que se conoce
como tabla de ANOVA y resume toda la información necesaria para realizar el
correspondiente contraste.

El cociente entre la variabilidad “entre” y la variabilidad “dentro”, una vez que se


han hecho comparables, sigue una distribución F de Snedecor con r-1 y n-r
grados de libertad. La distribución nos sirve para buscar el valor a partir del cual
el cociente es lo suficientemente grande como para declarar las diferencias entre
grupos estadísticamente significativas.
Los estimadores de los efectos de los tratamientos se estiman a partir de

y la parte propia de cada observación (o residual)

Los residuales pueden servirnos para la validación de las hipótesis básicas.


Recuérdese que, en realidad, un análisis de la varianza de una vía es equivalente
a un modelo de regresión en el que solo aparece una regresora cualitativa con r
categorías (mediante las correspondientes variables ficticias). La validación de
las hipótesis básicas puede hacerse entonces de la misma manera que en un
modelo re regresión, utilizando gráficos de residuales.
COMPARACIONES POR PAREJAS
Una vez determinada la significación de las diferencias procederemos a la
comparación de los tratamientos por parejas, es decir, a contrastar la hipótesis

para cada pareja de medias.El estadístico de contraste que utilizaremos es:

que sigue Una distribución t de Student con (N-r) grados de libertad.


La realización directa de cada contraste para un nivel de significación
incrementa la probabilidad de cometer un error de tipo I para el contraste global
de igualdad de todas las medias por lo que, en general, el nivel de significación
de cada contraste particular tiene que ser corregido.

Si no importa el incremento en el riesgo tipo I puede realizarse directamente el


contraste t de Student, asumiendo que probablemente encontraremos más
diferencias de las que se encuentran realmente en los datos.

Se rechaza la hipótesis nula si el estadístico de contraste supera el valor crítico


de la distribución t de Student al nivel α.

o lo que es lo mismo:

Es decir,cuando la diferencia de medias supera el valor:

que se denomina “diferencia significativa mínima” (lest significant difference).


Por esta razón, a veces al test se le conoce como LSD.
Si se está interesado en mantener el nivel de significación global por debajo del
nivel predeterminado, es necesario corregir el nivel que se utilizará en cada
contraste individual de forma que al aumentar el riesgo, permanezca por debajo
del fijado.
La corrección consiste en utilizar para cada contraste un nivel , más pequeño
que  y que resulta de dividir éste por una constante de penalización K.

Dependiendo de los valores que tomemos para K obtendremos distintos


procedimientos de contraste.

ANÁLISIS DE LA VARIANZA CON 2 FACTORES

En muchas situaciones prácticas la unidades experimentales no son


homogéneas por lo que conviene agruparlas en distintos conjuntos de
observaciones homogéneas. A tales conjuntos se les denomina bloques.
Los tratamientos se aplican dentro de cada bloque siguiendo las mismas técnicas
de aleatorización expuestas previamente.
Se procurará que los tratamientos estén representados de la misma manera en
todos los bloques.
DISEÑO EN BLOQUES AL AZAR
Supongamos que se dispone de r tratamientos a comparar y que se dividen las
observaciones en s bloques con r unidades experimentales cada uno.
Dentro de cada bloque se aplica una vez cada tratamiento utilizando un
procedimiento de aleatorización.
Los datos resultantes serían los siguientes

El modelo matemático es ahora:

Donde i es el efecto debido al bloque, j es el efecto debido al tratamiento


y ij es el error experimental.
Obsérvese que solamente hemos sustraído del residual la parte correspondiente
a los bloques.
ANÁLISIS ESTADÍSTICO: ANÁLISIS DE LA VARIANZA DE DOS VÍAS.
Las hipótesis de que los distintos tratamientos y los bloques no producen ningún
efecto se contrasta mediante el análisis de la varianza de dos vías, comparando
la variabilidad entre bloques y la variabilidad entre tratamientos con la
variabilidad dentro de los grupos.
Los resultados fundamentales se resumen en la tabla siguiente.

Los estimadores de los efectos de los bloques y tratamientos se estiman a partir


de:

Y la parte propia de cada observación (o residual):

Los residuales pueden servirnos para la validación de las hipótesis básicas de la


misma manera que en el diseño deun solo factor.
EJERCICIOS
EJERCICIO 1: Se tienen 14 empleados seleccionados al azar que se someten
a 3 diferentes cursos de entrenamiento: Programa 1, Programa 2 y Programa 3.
Como los empleados se seleccionan aleatoriamente para cada programa el
diseño se denomina diseño completamente aleatorizado. Se observa el
aprovechamiento de los empleados en los programas:

I Programa 1 Programa 2 Programa 3

1 85 80 82

2 72 84 80

3 83 81 85

4 80 78 90

5
0 82 88
80 81 85
𝑥̅

a. Media total= 82.14


b. Variación total:
SCT= (85-82.14)2 + (72-82.14)2+ (83-82.14)2+…+ (88-82.14)2

SCT= 251.7

c. Variación entre los diferentes tratamientos.


SCTR = 4(80 – 82.14)2 + 5(81 -82.14)2 + 5(85 – 82.14)2

SCTR= 65.71

d. Variación dentro de un tratamiento de muestra:


SCE= SCT- SCTR = 186
e. Grados de libertad:
f. Grados de libertad totales = n - 1 = 14-1 = 13

Grados de libertad de los tratamientos = c - 1 = 3 - 1 = 2


Grados de libertad del error = gl. Totales - gl. Tratamientos = 13 - 2 = 11

Gl SCT = gl SCTR + gl SCE


Gl SCE = gl SCT - gl SCTR = (n -1) - (c - 1) = n – c

g. Cuadrados medios:
CMT = Cuadrado medio total = SCT / (n-1) = 19.4
CMTR = Cuadrado medio del tratamiento = SCTR / (c -1) = 32.9
CME = Cuadrado medio del error = SCE/ gl.= 16.9

h. Estadístico de prueba Fc y estadístico critico de alfa:

Fc= CMTR / CME = 1.9467

F- critico alfa = 3.9823 (calculado en Excel)

Como Fc es menor que F-alfa no se rechaza Ho y las medias son iguales.

i. Valor de P- alfa:
P= 0.18898 (calculado en Excel)

j. Conclusión:
No hay suficiente evidencia para rechazar Ho, las medias de los tratamientos
son iguales.
EJERCICIO 2 : Cuatro catalizadores que pueden afectar la concentración de un
componente en una mezcla líquida de tres componentes están siendo
investigados. Se obtienen las siguientes concentraciones:

Catalizador

A B C D

58.2 56.3 50.1 52.9

57.2 54.5 54.2 49.9

58.4 57 55.4 50

Medias:
57.93 55.93 53.23 50.93

a. Media total= 54.51

b. Variación total:
SCT= (58.2 - 54.51)2 + (57.2- 54.51)2+ (58.4 - 54.51)2+…+ (50- 54.51)2

SCT= 35.98+9.40+26.44+44.18 = 116

c. Variación entre los diferentes tratamientos.


SCTR = 3(57.93 - 54.51)2 + 3(55.93- 54.51)2 + 3(53.23 - 54.51)2+ 3(50.93 - 54.51)2

SCTR= 84.50

d. Variación dentro de un tratamiento de muestra:


SCE= SCT- SCTR = 116-84.5 = 31.5

e. Grados de libertad:
Grados de libertad totales = n - 1 = 12-1 = 11
Grados de libertad de los catalizadores = c - 1 = 4 - 1 = 3
Grados de libertad del error = gl. Totales - gl. Tratamientos = 11 - 3 = 8

Gl SCT = gl SCTR + gl SCE


Gl SCE = gl SCT - gl SCTR = (n -1) - (c - 1) = n – c
f. Cuadrados medios:
CMT = Cuadrado medio total = SCT / (n-1) = 10.55
CMTR = Cuadrado medio del tratamiento = SCTR / (c -1) =28.17
CME = Cuadrado medio del error = SCE/ gl.= 3.94
g. Estadístico de prueba Fc y estadístico critico de alfa:
Fc= CMTR / CME = 7.15

F- critico alfa = 3.58743 (calculado en Excel)

Como Fc es mayor que F-alfa, se rechaza Ho y las medias son diferentes.

h. Valor de P- alfa:
P= 0.0062 (calculado en Excel)

i. Conclusión:
Se rechazar Ho, las medias de los catalizadores son diferentes.

EJERCICIO 3: Suponga que se desea saber si los ejes que surten cuatro
proveedores tienen diferente resistencia a la tracción. Para ello se decide llevar
a cabo un experimento de un solo factor donde la variable dependiente es la
resistencia a la tracción del eje medida en Kg/cm 2 y el factor es el proveedor. El
factor tiene cuatro niveles o tratamientos diferentes. Uno para cada proveedor
(llámelos I, II, III, IV) se decide probar 5 ejes de cada proveedor haciendo un total
de 20 pruebas ejecutadas en la misma máquina de prueba y con él mismo
operario (recuerde que el resto de los factores se deben de mantener a un nivel
fijo).Los resultados de experimento se muestran en la tabla siguiente:

Proveedor
I II III IV

56 64 45 42

55 61 46 39

62 50 45 45

59 55 39 43

60 56 43 41
El proveedor = factor

Tratamiento = I, II, III, IV


Aplicando el ANOVA a los datos se tiene:

TOTALES PROMEDIOS

Yi ̅|
|𝑌𝑖

I 56 55 62 59 60 292 58.4

II 64 61 50 55 56 286 57.2

III 45 46 45 39 43 218 43.6

IV 42 39 45 43 41 210 42

1006 50.3

̅̅̅̅
Y. . = 50.3

Y= 1006
4 5

 Yij
j1 i1
2
 562  552  ...  412  51940

Entonces, calculando las sumas de cuadrados tenemos que:

SST = 51940 – (10062) / 20 = 1338.2

SStr = 2922 / 5 + 2862 / 5 + 2182 / 5 + 2102 / 5 –10062 / 20 = 1135

SSE = SST – SStr = 1338.2 – 1135 = 203.2

MStr = SStr / (k-1) = 1135 / (4 - 1) = 378.3

MSE = SSE / (n-k) = 203.2 / (20-4) = 12.70


Esto se resume en la siguiente tabla:

FUENTE DE ERROR SS G.L. MS


F0

MStr/MSE
Factor o tratamientos SStr=1135 k–1=3 MStr =378.3
= 29.76

Error SSE=203.2 N – k = 16 MSE=12.7

Total SST=1338.2 N – 1 = 19

Dónde:

F0= MStr / MSE = 378.3 / 12.70 = 29.79 con 3 grados de libertad en el numerador
y 16 grados de libertad en el denominador.

Si el nivel de aceptación (error tipo I) lo fijamos en 5%, esto es,  = 0.05, de la


tabla de la función F se tiene que:

F, 3,16 = 3.24

Dado que:

F0 = 29.79 > 3.24= F0.05, 3,16

Se concluye que Ho se rechaza y el factor proveedor afecta la variable


resistencia a la tracción.
EJERCICIO 4: El tiempo de respuesta en milisegundos fue determinado para
tres tipos diferentes de circuitos y los resultados son:

TOTALES PROMEDIOS

tr observaciones Yi ̅|
|𝑌𝑖

I 9 12 10 8 15 13 67 11.17
II 20 23 30 0 0 0 73 24.33
III 6 5 8 16 0 0 35 8.75
175 13.46

̅̅̅̅
Y. . = 13.46

Y= 175

Con un nivel de significación de  = 0.05. ¿Tiene los circuitos diferente tiempo


de respuesta?

k = 3; n1 = 6; n2 = 3; n3 = 4; N = 6 + 3 + 4 = 13

𝑘 𝑛
2 2 2 2
1752
2
𝑆𝑆𝑇 = ∑ ∑(𝑌𝑖𝑗 − 𝑌. . ) = 9 + 12 + ⋯ + 8 − = 2993.3 − 2355.76
13
𝑗=1 𝑖=1

= 637.54

𝑘
𝑌𝑖 2 𝑌. .2 672 732 352 1752
𝑆𝑆𝑇𝑟 = ∑ ( − )= + + − = 474.98
𝑛𝑖 𝑁 6 3 4 13
𝑗=1

𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑇𝑟 = 637.54 − 474.98 = 162.56


La tabla ANOVA es:

Fuente
SS G.L. MS
De error F0

MStr/MSE
circuitos SStr=474.98 k–1=2 MStr =237.49
= 14.61

Error SSE=162.56 N – k = 10 MSE=16.26

Total SST=637.54 N – 1 = 12

Dado que F 0.05, 2, 10 = 4.10, se concluye que los circuitos muestran diferentes
tiempos de respuesta.

EJERCICIO 5: Utilice análisis de varianza para probar que diferentes


concentraciones de madera dura no afectan a la resistencia a la tensión del
papel. Teniendo como resultados lo que se muestra en la tabla (considere  =
0.01)

Concentración Observaciones
de madera TOTALES PROMEDIOS
1 2 3 4 5 6
dura
5 7 8 15 11 9 10 60 10
10 12 17 13 18 19 15 94 15.67
15 14 18 19 17 16 18 102 17
20 19 25 22 23 18 20 127 21.17
383 21.17

̅̅̅̅
Y. . = 21.17

Y= 383.3
𝑘 𝑛
3832
𝑆𝑆𝑇 = ∑ ∑(𝑌𝑖𝑗 2 − 𝑌. .2 ) = 72 + 82 + ⋯ + 202 − = 512.96
24
𝑗=1 𝑖=1

𝑘
𝑌𝑖 2 𝑌. .2 602 942 1122 1272 3832
𝑆𝑆𝑇𝑟 = ∑ ( − )= + + + − = 382.79
𝑛𝑖 𝑁 6 6 6 6 24
𝑗=1

𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑇𝑟 = 512.96 − 382.79 = 130.17

La tabla ANOVA es:

Fuente
SS G.L. MS
De error F0

Concentración de madera dura 382.79 k–1=3 127.60 19.60

Error 130.17 N – k = 20 6.51

Total 512.96 N – 1 = 23

Dado que F 0.01, 3, 20 = 4.94, se concluye que la concentración de madera afecta


de manera significativa la resistencia del papel. Por lo tanto se rechaza el Ho.

EJEMPLO 6: Un ingeniero de electrónica está interesado en estudiar el efecto


sobre la conductividad de una válvula electrónica que tienen tres tipos diferentes
de recubrimiento para los tubos de rayos catódicos utilizados en un dispositivo
de visualización de un sistema de telecomunicaciones. Se obtienen los
siguientes datos:

TIPO DE RECUBRIMIENTO CONDUCTIVIDAD


1 143 141 150 146
2 152 149 137 143
3 134 133 132 127

Contrastar con un nivel de significación del 5 % si el tipo de recubrimiento tiene


algún efecto sobre la conductividad.
SOLUCIÓN:

Queremos comprobar si la conductividad media de la válvula será la misma con

los tres tipos de recubrimiento, en cuyo caso el tipo de recubrimiento no tendría


ningún efecto sobre la conductividad.

Planteamos el contraste:

H0 : µ1 = µ2 = µ3

H1 : Alguna distinta

Calculamos las medias y las varianzas de las muestras:

Muestra Media Varianza (σ2 ) Tamaño (ni)


(y−i.)
ni

Tipo 1 145 11.5 4

Tipo 2 145.25 33.188 4

Tipo 3 131.5 7.25 4

La media y varianza totales resultan: y−.. = 140,583 y σ2 = 58,576

Calculamos ahora las variabilidades explicada, no explicada y total.

V NE =∑ 𝑛𝑖 𝜎 2 = 4(11,5+ 33,188 + 7,25) = 207,752

VT = nσ2 = 12(58,576) = 702,912

VE = VT − V NE = 495,160

Las varianzas explicada y no explicada son entonces:


𝑉𝐸 495.160
𝑆𝑒 2 = = = 247.58
𝐼−1 2
𝑉𝑁𝐸 207.752
𝑆𝑟 2 = = = 23.084
𝑁−1 9
el estadístico resulta:

𝑆𝑒 2 247.58
𝐹= 2 = = 10,725
𝑆𝑟 23.084
Ahora concluimos: como F = 10,725 es mayor que F0,95,2,9 = 4,26, rechazamos
H0. Existen por tanto diferencias significativas entre los tres tipos de
rucubrimiento, es decir, el tipo de recubrimiento influye en la conductividad de la
válvula.

EJEMPLO 7: Los miembros de un equipo ciclista se dividen al azar en tres


grupos que entrenan con métodos diferentes. El primer grupo realiza largos
recorridos a ritmo pausado, el segundo grupo realiza series cortas de alta
intensidad y el tercero trabaja en el gimnasio con pesas y se ejercita en el
pedaleo de alta frecuencia. Después de un mes de entrenamiento se realiza un
test de rendimiento consistente en un recorrido cronometrado de 9 Km. Los
tiempos empleados fueron los siguientes:

MÉTODO MÉTODO II MÉTODO III


I
15 14 13
16 13 12
14 15 11
15 16 14
17 14 11
A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos
producen resultados equivalentes? O por el contrario ¿Hay algún método
superior a los demás?

SOLUCIÓN:

Comenzamos calculando los totales y los cuadrados de los totales divididos por
el número de observaciones:

METD. I METD. II METD. III TOTAL SUM2/N

SUMA 77 72 61 210 2940

SUM2/N 1185,8 1036,8 744,2 2966,8


A continuación calculamos los cuadrados de las observaciones y su total:

METD. I METD. II METD. III

225 196 169

256 169 144

196 225 121

225 256 196

289 196 121

1191 1042 751 = 2984

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SC(total) = 2984 - 2940 = 44

SC(intra) = 2984 – 2966,8 = 17,2

SC(entre) = 2966,8 – 2940 = 26,8

Los cuadrados medios serán:

CM(entre) = 26,8/2 = 13,4 CM(intra) = 17,2/12 = 1,43

Por consiguiente el estadístico de contraste vale:

F = 13,4/ 1,43 = 9,37

El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del


95% es 3,89. Por consiguiente se rechaza la hipótesis nula y se concluye que
los tres métodos de entrenamiento producen diferencias significativas.

You might also like