You are on page 1of 41

Mestrado em Estatística Aplicada à Saúde

Inferência Estatística

Unidade de Aprendizagem 5
ANOVA

ANA CRISTINA COSTA | ccosta@novaims.unl.pt

e-Book, maio 2017


2

Índice da UA5: ANOVA

Introdução ............................................................................................................... 3

ANOVA com um fator ............................................................................................... 4

ANOVA com um fator e efeitos fixos ........................................................................................ 7

Pressupostos do teste-F da ANOVA ........................................................................................ 13

Suplemento Analysis ToolPak do Excel ................................................................................... 15

Testes de comparação múltipla .............................................................................. 20

Teste HSD de Tukey (Honestly Significant Difference) ............................................................ 22

Teste de Tukey-Kramer ........................................................................................................... 23

Suplemento Real Statistics Resource Pack do Excel................................................................ 23

Testes para a igualdade de k variâncias (amostras independentes) ......................... 31

Teste de Levene ...................................................................................................................... 31

Resumo .................................................................................................................. 34

Referências ............................................................................................................ 35

Anexo I – Estatística do teste-F da ANOVA .............................................................. 37

Anexo II – Modelo matemático da ANOVA com um fator ........................................ 41


3

Introdução

Este capítulo prossegue a apresentação de testes de hipóteses paramétricos, onde uma hipótese
é especificada sobre um parâmetro da população e as estatísticas da amostra são usadas para
avaliar a probabilidade de essa hipótese ser verdadeira. O teste específico considerado aqui é
designado por análise de variância (ANOVA) com um fator e é um teste de hipóteses apropriado
para comparar as médias de uma variável contínua em duas ou mais amostras independentes.
Esta técnica é uma extensão do teste de hipóteses para a diferença entre duas médias
populacionais baseado em duas amostras independentes. O cálculo da estatística de teste é
mais complexo, pois deve ter em consideração a dimensão das amostras, bem como as médias
e os desvios padrão em cada uma das amostras.

Caso se pretenda investigar a diferença entre as médias, por exemplo, de três grupos de
observações independentes (A, B, C), poderá ser tentador realizar comparações separadamente
para os três pares de amostras (A e B; A e C; B e C). Contudo, esta abordagem está incorreta
porque cada uma dessas comparações não tem em consideração todas as observações e
aumenta a probabilidade de se concluir incorretamente que existem diferenças
estatisticamente significativas, porque cada comparação aumenta a probabilidade de erro de
tipo I.

A análise de variância evita este problema ao colocar uma pergunta mais global, ou seja, se há
diferenças significativas entre todos os grupos, sem abordar as diferenças entre dois grupos em
particular. Como se verá posteriormente, caso a técnica ANOVA permita concluir que há pelo
menos um par de médias que é diferente, são então aplicados testes adicionais que permitem
identificar quais são exatamente as médias que diferente entre si. Estes testes são designados
por testes de comparação múltipla.

A estratégia fundamental da ANOVA consiste em examinar sistematicamente a variabilidade


dentro de cada grupo de observações, bem como a variabilidade entre os grupos que estão a
ser comparados. Por este motivo, esta técnica designa-se por análise de variância (ANOVA).
Neste capítulo apresenta-se apenas o caso da análise de variância com um fator e efeitos fixos.

No final deste capítulo, deverá ser capaz de:


 Descrever os pressupostos da ANOVA.
 Aplicar a ANOVA a um fator e interpretar os seus resultados
 Discutir as características gerais e aplicar testes de comparação múltipla
 Testar a igualdade de k variâncias de populações independentes
4

ANOVA com um fator

A análise da variância, ou ANOVA, é uma técnica estatística introduzida por Ronald Fisher (1890–
1962) que permite analisar dados que são afetados por várias condições externas (fatores) que
podem, ou não, operar em simultâneo.

Para exemplificar, considere-se a situação em que se pretende avaliar a eficácia de um novo


medicamento no tratamento de determinada doença através da administração de quatro
tratamentos diferentes: o novo medicamento, outros dois já existentes no mercado para tratar
a doença em causa, e um placebo. Os diferentes tratamentos são usados em indivíduos que
sofrem daquela doença distribuídos aleatoriamente por quatro grupos. Será que se pode
considerar que os quatro tratamentos têm resultados diferentes? Será que o novo medicamento
é mais eficaz do que os já existentes no mercado? A análise de variância procura dar resposta a
questões deste tipo através da comparação dos parâmetros de localização dos diferentes
tratamentos (grupos). Esta comparação é feita a partir da análise da dispersão presente no
conjunto de dados. Mais concretamente, a técnica da análise da variância consiste na análise da
variação total dos valores das observações em relação à média calculada desses valores, daí a
designação de análise de variância.

No exemplo, as observações provêm de grupos classificados através de um só fator (a doença


em causa); neste caso, fala-se em análise de variância com um fator (One-way ANOVA). Note-se
que só é legítimo considerar tal fator como sendo a causa das diferenças entre as médias se se
puder garantir a homogeneidade das populações em relação a todos os outros fatores que
poderiam ser relevantes para a explicação do fenómeno.

Em muitas situações práticas há mais do que um fator a influenciar os resultados das


observações. Sempre que for necessário comparar simultaneamente dois ou mais fatores,
comparando e identificando os seus efeitos, devemos usar técnicas estatísticas do planeamento
de experiências. O modelo ANOVA a aplicar depende então do planeamento da experiência e
do número de fatores.

Os modelos de análise de variância (ANOVA) permitem identificar e analisar os efeitos causados


na variável resposta por um certo número de fatores (variáveis independentes), que podem, ou
não, operar em simultâneo.

Definições:

 Unidades experimentais: objetos/indivíduos sobre os quais são efetuadas observações.


5

 Fator: variável independente (característica) completamente controlada numa


experiência, com k níveis. As diferentes categorias, ou graus de intensidade, do fator
são os níveis.
- Se os níveis do fator correspondem a diferentes intensidades medidas numa
escala, o fator diz-se quantitativo, e os seus valores são agregados em classes
que definem os níveis do fator;
- Se os níveis de um fator diferem apenas em algumas características, o fator diz-
se qualitativo.

 Grupo ou Tratamento: combinação específica de níveis de fatores. No caso de 1 único


fator, cada grupo/tratamento corresponde a um nível do fator.

O texto que se segue foi adaptado de Fernandes (1999, p. 117). Se o investigador está perante
um conjunto de unidades experimentais e pretende identificar e analisar os efeitos causados na
variável resposta, por um certo número de fatores (variáveis independentes), cria as condições
necessárias para a realização de uma experiência. A partir dessa experiência, o investigador vai
obter um conjunto de observações experimentais, que serão posteriormente analisadas
estatisticamente. As condições necessárias para a execução da experiência estão diretamente
relacionadas com o que o investigador pretende identificar e analisar. Para que uma experiência
seja realizada eficientemente, deve usar-se uma técnica científica para o planeamento dessa
experiência.

No planeamento de uma experiência, os termos mais usados são:


 a unidade experimental que é a unidade básica, a partir da qual são obtidos os
resultados;
 os fatores que são as diferentes condições que são manipuladas com as unidades;
 os níveis do fator que são os diversos modos de presença desse fator;
 os tratamentos, ou grupos, que são as diferentes combinações dos níveis dos diferentes
fatores a analisar;
 a replicação que define o número de unidades experimentais aplicadas a um certo
tratamento.

Os aspetos principais do planeamento da experiência são os seguintes:

1. A escolha adequada dos fatores que se pretende investigar e a determinação dos


diferentes níveis presentes em cada um dos fatores. Esta seleção define os tratamentos.
6

2. A escolha do número total de unidades a utilizar na experiência e as unidades a testar


com cada um dos tratamentos, tendo em conta o custo da experiência e a precisão dos
resultados que se pretendem obter; estas escolhas definem respetivamente o número
de observações (dimensão da amostra) e a replicação.

3. A escolha do modo como cada tratamento vai ser aplicado às unidades experimentais.

Exemplo 1
Para curar uma certa doença existem quatro medicamentos possíveis: A, B, C e D. Pretende-se
saber se existem diferenças significativas nos medicamentos no que diz respeito ao tempo
necessário para eliminar a doença.

A variável resposta corresponde ao tempo necessário para eliminar a doença. Note-se que se
trata de uma variável contínua. As unidades experimentais são os doentes aos quais serão
administrados os medicamentos. Neste caso, há apenas um fator (administração de
medicamentos), que se apresenta em quatro níveis: A, B, C e D. Portanto, cada
grupo/tratamento corresponde a um nível do fator.

Através da aplicação da análise de variância com um fator, ou "One-way ANOVA", podemos


indagar se os medicamentos produzem os mesmos resultados no que diz respeito ao tempo
necessário para eliminar a doença.

Exemplo 2
Suponhamos agora que existe a suspeita de que uma estação quente é um fator determinante
para uma cura rápida. Então, o estudo deve ser conduzido tendo em conta este segundo fator
(estação do ano), que tem dois níveis: estação quente (primavera e verão) e estação fria (outono
e inverno). Neste caso, ambos os fatores são qualitativos.

Os oito tratamentos, também designados grupos, correspondem à combinação dos níveis dos
dois fatores:
1. Medicamento A + estação quente
2. Medicamento A + estação fria
3. Medicamento B + estação quente
4. Medicamento B + estação fria
5. Medicamento C + estação quente
6. Medicamento C + estação fria
7

7. Medicamento D + estação quente


8. Medicamento D + estação fria

A técnica apropriada será a análise de variância com dois fatores, ou “Two-way ANOVA“ que,
além de testar se existem diferenças entre os medicamentos, permite verificar se existem
diferenças entre as estações do ano e também entre os oito grupos, no que diz respeito ao
tempo necessário para eliminar a doença.

Exemplo 3
Considere-se um ensaio clínico que pretende comparar o efeito da aplicação de diferentes doses
de uma substância ativa analgésica na duração de ausência de dor:
- Dose A: 50 a 150 mg
- Dose B: 150 a 250 mg
- Dose C: 250 a 500 mg
- Dose D (placebo): 0 mg

Neste caso, a variável resposta é a quantidade de tempo sem dor após a toma da substância. As
unidades experimentais são os pacientes aos quais é administrada a substância. O fator é a dose
da substância ativa analgésica administrada e tem 4 níveis (A, B, C e D). Ao contrário dos
exemplos anteriores, este fator corresponde a uma variável quantitativa, pelo que o fator se diz
quantitativo.

ANOVA com um fator e efeitos fixos

Na maior parte das situações, os grupos/tratamentos são determinados à partida pelo


investigador, ou seja os níveis do fator são fixos. Diz-se então que temos uma análise de
variância com efeitos fixos. Em alternativa, os grupos podem ser retirados aleatoriamente de
entre um conjunto alargado de possibilidades. Nesse caso, teremos uma análise de variância
com efeitos aleatórios.

Neste capítulo apresenta-se apenas o caso da análise de variância com um fator e efeitos fixos.
Considerando que o fator tem k níveis e que cada grupo/tratamento corresponde a um nível do
fator, obtêm-se k grupos/tratamentos. A ANOVA permite comparar a igualdade de k valores
médios populacionais, com base nas amostras independentes de uma variável contínua obtidas
para cada um dos k grupos.
8

Num delineamento completamente aleatorizado para comparar k grupos/tratamentos, um


conjunto de n unidades experimentais relativamente homogéneas são aleatoriamente divididas
em k grupos de dimensões n1, n2, …, nk, em que n1 + n2 + … + nk = n. Todas as unidades
experimentais em cada grupo recebem o mesmo tratamento, de modo que cada tratamento é
aplicado a exatamente um grupo.

A cada um dos k grupos/tratamentos está associada uma população que consiste em todas as
observações que se obteriam se o tratamento fosse repetidamente aplicado a todas as unidades
experimentais possíveis. Os valores observados da variável resposta em cada um dos grupos
constitui uma amostra aleatória da população associada ao respetivo grupo. Portanto, num
delineamento completamente aleatorizado, obtêm-se k amostras aleatórias independentes das
populações correspondentes aos grupos/tratamentos. Denota-se por n1, n2, …, nk a dimensão
das amostras observadas em cada grupo, sendo todas as amostras, e respetivas observações,
independentes entre si.

Note-se que as populações não são necessariamente resultantes da aplicação de diferentes


tratamentos a um conjunto de indivíduos/objetos. Os grupos podem ser decorrentes de
diferentes populações que existam, das quais são retiradas amostras aleatórias independentes.
Por exemplo, para se comparar o valor médio da quantidade de uma substância ativa em cinco
marcas comerciais (A, B, C, D, E) de um medicamento, pode-se selecionar aleatoriamente 100
comprimidos da produção de cada fabricante, e analisar os resultados obtidos considerando as
marcas comerciais (A, B, C, D, E) como sendo os grupos/tratamentos.

O teste estatístico da ANOVA com um fator e efeitos fixos formaliza-se da seguinte forma.
Considerem-se k populações X1~N(1,12), X2~N(2,22), …, Xk~N(k,k2) para as quais se verifica
homocedasticidade (ou seja, 12= 22=…=k2=2). Considere-se um delineamento experimental
completamente aleatorizado, em que são obtidas k amostras aleatórias independentes das
populações em estudo, com dimensões n1, n2, …, nk, em que n1 + n2 + … + nk = n. A ANOVA com
um fator tem por objetivo testar a igualdade de três ou mais valores médios populacionais:

H0: 1= 2 =…= k


H1: i,j (ij): i  j

Em primeiro lugar, note-se que são exigidos três pressupostos para a aplicação da ANOVA:

1. Temos k grupos (amostras) de observações independentes, sendo os grupos


independentes entre si.
9

2. Cada grupo (amostra) de observações deve provir de uma população com distribuição
Normal.

3. A variância das k populações deve ser a mesma (homogeneidade das variâncias).

A técnica da ANOVA consiste em testar a hipótese nula de que três ou mais valores médios
populacionais são iguais, contra a hipótese alternativa de que pelo menos um par de valores
médios é diferente. Pretende-se, portanto, testar se para um determinado fator a média é igual
para todos os seus níveis. Por outras palavras, a ANOVA permite testar se existem diferenças
significativas nos dados provenientes dos diferentes tratamentos (grupos).

Primeiro é preciso estudar as causas de variação. Porque é que os dados variam? Uma
explicação é o facto de as amostras provirem de populações diferentes. Outra explicação é o
acaso; ou seja, os dados variam mesmo que sejam provenientes da mesma população.

Se a variável em estudo tem distribuição Normal, ou aproximadamente Normal, para comparar


mais de duas médias, aplica-se um teste-F. O teste-F é feito através de uma análise de variância,
que separa a variabilidade devido aos tratamentos (entre grupos) da variabilidade residual, isto
é devido ao acaso (dentro dos grupos).

O procedimento para testar H0 baseia-se na consideração de dois estimadores independentes


da variância 2 (que é assumida como igual em todas as populações):
- o 1º será um estimador válido quer H0 seja verdadeira quer não
- o 2º é um estimador válido quando H0 é verdadeira

A estatística proposta para o teste corresponde ao quociente entre o 2º e o 1º estimadores. Se


H0 é verdadeira, os dois estimadores tendem a produzir estimativas próximas, portanto a
estatística do teste será aproximadamente igual a 1. Se H0 é falsa, o 2º estimador tende a
sobrestimar 2, ou seja, a estatística do teste tende a tomar valores superiores a 1. Por este
motivo, o teste ANOVA é um teste unilateral direito. No Anexo I – Estatística do teste-F da
ANOVA encontra-se a dedução formal.

A tabela ANOVA (Tabela 1) resume a informação sobre a origem da variabilidade dos dados,
bem como os cálculos que permitem obter o valor observado para a estatística do teste-F. Note-
se que, embora sejam apresentados em seguida, o cálculo destes valores não tem especial
interesse no âmbito deste livro, pois estamos mais interessados em retirar conclusões da tabela
ANOVA que é produzida através de aplicações computacionais (por exemplo, o Excel ou o SPSS).
10

A construção da tabela ANOVA (Tabela 1) baseia-se nas seguintes fórmulas:

Número de níveis do fator (nº de


k
populações)

Número de observações do nível


ni
(população) i (i=1,…,k)

Variável resposta do nível


Xij (população) i para a unidade
experimental (indivíduo) j

k
n=∑ ni Número total de observações
i=1

ni
Total amostral correspondente
X i∙ = ∑ X ij
j=1 ao nível (população) i

1 ni X i∙
̅ Média amostral correspondente
X i∙ = ∑ X ij =
ni j=1 ni ao nível (população) i

Média amostral global


1 1k 1 ni k k
̅ = ∑ ∑ X ij = ∑ X i∙ = ∑ ni X
X ̅ É a média aritmética de todas as
n i=1 j=1 n i=1 n i=1 i∙ observações combinadas numa
única amostra global.

1   Variância amostral global


 X 
ni ni
1 k k

 X  nX 2 
2
S2  ij  X 
2

n  1 i1 n  1  
ij
j1 i1 j1 

1  
 X 
ni ni

X
1
 ni Xi 
2
Si  ij  Xi 
2 2 2
Variância amostral do nível
ni  1 ni  1  
ij
j1 j1  (população) i

Soma dos quadrados dos desvios


totais em torno da média global
 X 
k ni
2
SQT  ij  X  (n  1)S2 (variação total das respostas)
i1 j1
Mede a dispersão das
observações individuais em
torno da média amostral global.
11

Soma dos quadrados dos desvios

 n X  
k k 2
2 Xi entre os níveis do fator (variação
SQTr  i i X   nX2
i1 i1 ni devida aos tratamentos;
dispersão que se verifica entre
os grupos)

Soma dos quadrados dos desvios

 X    (n  1)S
k ni k
2 dentro dos níveis do fator
SQE   Xi
2
ij i i
i1 j1 i1
(variação devida ao erro;
dispersão que se verifica dentro
dos grupos)

Variação total = Variação


SQT = SQTr + SQE
explicada pelos tratamentos +
Variação devida ao erro

SQT
MQT  Média dos quadrados dos
n 1 desvios totais

Média dos quadrados dos


desvios entre os níveis do fator
SQTr Se H0 verdadeira, é um
MQTr 
k 1 estimador centrado da variância
populacional com distribuição
Qui-Quadrado com k1 graus de
liberdade

Média dos quadrados dos


desvios dentro dos níveis do
SQE fator
MQE 
nk Estimador centrado da variância
populacional com distribuição
Qui-Quadrado com nk graus de
liberdade

2 Estimador centrado da variância


Si
populacional com ni1 graus de
liberdade
12

Tabela 1: Tabela ANOVA1

Graus de Soma de Médias


Origem da variação F
liberdade Quadrados Quadráticas

Tratamentos SQTr MQTr


k–1 SQTr MQTr = 𝐹𝑜𝑏𝑠 =
(between; entre os grupos) k−1 MQE

Erro SQE
n–k SQE MQE =
(within; dentro dos grupos) n−k

Total n–1 SQT

Esta técnica da análise de variância pode ser formulada através de um modelo matemático,
conforme se descreve no Anexo II – Modelo matemático da ANOVA com um fator. Esta
formulação é especialmente útil quando se pretende generalizar a análise de variância para mais
de um fator, ou para um modelo com efeitos aleatórios.

Supondo que os três pressuposto enunciados anteriormente se verificam, o teste-F da ANOVA


pode ser resumido da seguinte forma:

Hipóteses a testar:
H0: 1= 2 =…= k
H1: i,j (ij): i  j (i  j: i, j = 1, 2, …, k)

Estatística do teste:
MQTr
𝐹𝑜𝑏𝑠 = ~𝐹(𝑘−1,𝑛−𝑘)
MQE

Regra de decisão:
Rejeitar H0 se 𝐹𝑜𝑏𝑠 ≥ 𝐹(𝑘−1,𝑛−𝑘;1−𝛼) = 𝐹𝑐𝑟í𝑡𝑖𝑐𝑜 , sendo  o nível de significância

Valor p:
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 𝑃(𝐹(𝑘−1,𝑛−𝑘) ≥ 𝐹𝑜𝑏𝑠 )

A hipótese nula (H0) é rejeitada para valores elevados da estatística do teste-F (valor de Fobs). Por
este motivo, trata-se de um teste unilateral direito. Portanto, para verificar se a hipótese nula é
rejeitada, compara-se o valor de Fobs com o valor crítico da distribuição F (com k-1 e n-k graus

1
A ordem da 2ª e 3ª colunas da tabela ANOVA pode diferir de software para software.
13

de liberdade). Se o valor observado para a estatística do teste (Fobs) for superior ou igual ao valor
crítico (Fcrítico), então rejeita-se a hipótese nula.

Alternativamente, tal como em qualquer teste estatístico, também se pode concluir sobre a
rejeição de H0 com base no p-value do teste: rejeita-se H0 se p-value ≤ , sendo  o nível de
significância do teste. Tipicamente, rejeita-se H0 se p-value ≤ 0.05. Ou seja, rejeita-se H0 para
níveis de significância superiores ou iguais a 5%.

Caso a hipótese nula seja rejeitada, conclui-se que há evidência de que existem diferenças
significativas entre os grupos/tratamentos. Mais especificamente, se H0 for rejeitada conclui-se
que pelo menos um par de médias dos vários grupos/tratamentos são significativamente
diferentes. Caso os dados das amostras não permitam rejeitar H0, conclui-se que não existe
evidência suficiente para concluir que as médias dos vários grupos/tratamentos são diferentes.

Mas, a ANOVA não nos permite identificar quais são os grupos/tratamentos que produzem as
diferenças e quais são semelhantes. Sempre que as diferenças são significativas, e só nesse caso,
temos que proceder a comparações a posteriori (post-hoc). Para tal, iremos aplicar testes de
comparações múltiplas, como veremos posteriormente. Em seguida, discutem-se os
pressupostos da ANOVA e apresenta-se um exemplo de aplicação.

Pressupostos do teste-F da ANOVA

Pressuposto 1: As k amostras são independentes entre si e são constituídas por observações


independentes.

A violação da condição de independência das observações tem consequências, em geral, sérias


sobre a validade da ANOVA. Cabe ao investigador garantir que as amostras são obtidas de forma
independente entre grupos, e que as observações são independentes e aleatórias dentro de
cada grupo.

Ainda que as amostras sejam obtidas de forma independente entre si, ocorre com frequência as
observações de cada amostra não serem independentes quando a variável resposta é de
natureza temporal. Ou seja, se as amostras forem constituídas por observações temporais,
poderá haver uma violação deste pressuposto, porque uma observação num instante de tempo
poderá estar relacionada com a(s) observação(ões) do(s) instante(s) anterior(es). Nestes casos,
se a amostra for suficientemente grande, é preferível selecionar aleatoriamente uma
subamostra da amostra original.
14

Pressuposto 2: Cada amostra (grupo) de observações deve provir de uma população com
distribuição Normal.

Este pressuposto já se verificava no teste-t para comparação de duas médias. A ANOVA


apresenta robustez relativamente a pequenos desvios da condição de normalidade. Isto significa
que a distribuição populacional deve ser aproximadamente simétrica e mesocúrtica. Mas, a
condição de normalidade deve ser sempre testada antes de se usar o teste-F da ANOVA. Para
tal, existem diversos testes estatísticos não paramétricos, entre os quais se destacam o Teste de
Kolmogorov-Smirnov e o Teste de Shapiro-Wilk.

O teste de Shapiro-Wilk tem vindo a ser cada vez mais utilizado para testar a hipótese nula de
que os dados da amostra provêm de uma população Normal com parâmetros desconhecidos.
Geralmente, apresenta uma potência elevada quando comparado com outros testes,
designadamente o Teste do Qui-Quadrado e o Teste de Lilliefors. Com amostras pequenas,
apresenta melhor desempenho do que o teste de Kolmogorov-Smirnov.

Pressuposto 3: A variância das k populações deve ser igual (homocedasticidade).

Este pressuposto já se verificava no teste-t para comparação de duas médias. A ANOVA


apresenta, em geral, reduzida robustez relativamente a pequenos desvios da condição de
homocedasticidade. Maior robustez é conseguida quando o delineamento é equilibrado, ou seja
quando todas as amostras têm a mesma dimensão (n1 = n2 = = nk = b).

A hipótese de homocedasticidade deve ser sempre testada antes de se usar o teste-F da


ANOVA. Para tal, existem diversos testes estatísticos, paramétricos e não paramétricos. De
entre os testes paramétricos, ou sejam que também têm o pressuposto da normalidade da
ANOVA, destacam-se o Teste de Bartlett e o Teste de Levene.

O teste de Bartlett não deve ser aplicado se existirem dúvidas sobre a normalidade das
populações associadas aos grupos. O teste de Levene é um dos mais robustos face à violação do
pressuposto da normalidade e é um dos mais potentes para testar a homocedasticidade.

Se as populações forem normais, mas a homocedasticidade não possa ser assumida, deve-se
usar a estatística de Brown-Forsythe ou a estatística de Welch2 em vez do teste-F da ANOVA.

2
No SPSS, estas estatísticas podem ser pedidas selecionando: Menu Analisar + Comparar médias + ANOVA
unidirecional + Opções… + Brown-Forsythe (ou Welch, ou ambas).
15

Suplemento Analysis ToolPak do Excel

Para aplicar a ANOVA no Excel, primeiro, é necessário ativar o suplemento Analysis ToolPak
(Ferramentas de Análise) que fica disponível a partir do momento em que o Microsoft Office ou
o Excel é instalado. Este suplemento permite desenvolver análises complexas de estatística de
forma rápida e simples. Basta fornecer os dados e parâmetros para cada análise e a ferramenta
utiliza funções de macro apropriadas para calcular e apresentar os resultados numa tabela de
resultados. Algumas ferramentas criam gráficos, para além das tabelas de resultados.

Para ativar o Analysis ToolPak no Excel 2013 efetue os seguintes passos:


 Clique no menu Ficheiro.
 Clique em Opções.
 Clique em Suplementos no painel esquerdo; e
 no painel direito, caixa Ver e Gerir Suplementos do Microsoft Office, selecione Analysis
ToolPak.
 Clique em Ir….
 Na janela Suplementos disponíveis3, marque a caixa de verificação Analysis ToolPak e
clique em Ok.
 O comando Análise de Dados ficará disponível no grupo Análise do menu Dados.

Para ser aplicar a ANOVA no Analysis Toolpak, a tabela de dados deve estar organizada de modo
a que as observações de cada amostra (grupo) estejam inseridos em diferentes colunas.
Selecione o menu Dados e, depois de clicar no botão Análise de Dados (Data Analysis), selecione
a ferramenta Anova: Fator único. Na janela que surge (Figura 1):
 Coloque o cursor na opção "Intervalo de entrada" e selecione todos os dados, incluindo
o nome das colunas, arrastando o rato sobre as células.
 Como foram selecionados os nomes das colunas (i.e., nomes dos grupos), é necessário
clicar em "Rótulos na primeira linha".
 A opção “Alfa” especifica o nível de significância pretendido. Por defeito este valor é
igual a 0.05, pelo que geralmente não é necessário alterar.
 Nas opções do Output, é recomendável não alterar a opção selecionada por efeito (Nova
Folha de Cálculo), a qual envia os resultados para uma nova folha do ficheiro Excel que

3
Se o Analysis ToolPak não aparecer na lista Suplementos disponíveis, clique em Procurar (Browse) para
o localizar. Se aparecer uma mensagem com a indicação de que o Analysis ToolPak não está instalado no
computador, clique em Sim para o instalar.
16

está a ser utilizado. A opção Intervalo de Saída permite especificar qual é a célula
superior esquerda da tabela de resultados. A opção Novo Livro coloca os resultados num
novo ficheiro de Excel.
 Por fim, clique em OK.

Figura 1: Janela da ferramenta “Anova: Fator único” do suplemento Analysis ToolPak do Excel

Exemplo 4
Um departamento governamental está preocupado com os aumentos dos custos verificados no
âmbito de projetos de I&D que são encomendados aos hospitais A, B, C e D. Decidiu-se então
analisar os custos associados a diferentes projetos, calculando para cada um deles a razão entre
o custo final incorrido e o custo inicialmente previsto na adjudicação. Para cada projeto, os dois
custos foram expressos numa base constante (Tabela 2). Será que os quatro hospitais têm um
comportamento global distinto em relação ao agravamento dos custos?

Tabela 2: Custos de projetos de I&D encomendados a cada hospital

A B C D
1.0 1.7 1.0 3.8
0.8 2.5 1.3 2.8
1.9 3.0 3.2 1.9
1.1 2.2 1.4 3.0
2.7 3.7 1.3 2.5
1.9 2.0
Adaptado de Guimarães e Sarsfield Cabral (2007)
17

Neste exemplo, o custo associado a cada projeto é calculado como sendo o quociente entre o
custo final incorrido e o custo previsto no orçamento inicial. Portanto, valores inferiores a 1
significam que o custo incorrido foi inferior ao orçamentado; e os valores superiores a 1
significam que houve um agravamento da despesa em relação ao previsto no orçamento inicial.

A resposta à questão colocada passa por efetuar uma análise de variância com um fator
(hospital) e efeitos fixos. Trata-se de um modelo com efeitos fixos porque os hospitais A, B, C e
D foram definidos à partida. Caso fossem selecionados aleatoriamente quatro hospitais de entre
um conjunto alargado de possíveis hospitais, então o modelo a aplicar seria a ANOVA a um fator
com efeitos aleatórios.

No caso de se pretender aplicar a ANOVA no Excel, os dados têm que estar organizados tal como
se apresenta na Tabela 2. Para efetuar a análise de variância no SPSS, ou outro software
estatístico, as 22 observações disponíveis têm que estar todas numa mesma coluna (variável
resposta) no ficheiro de dados. Assim, é necessário criar outra variável (numérica, no caso do
SPSS) que identifique o grupo (hospital) a que pertence cada uma das observações (Tabela 3).

Quando a dimensão das amostras é reduzida, como neste caso, é conveniente usar um teste
não paramétrico equivalente ao teste-F da ANOVA. Será utilizada a ANOVA paramétrica para se
ilustrar a aplicação desta técnica no Excel.
18

Tabela 3: Custos de projetos de I&D encomendados a cada hospital


(organização dos dados em software estatístico)

Hospital4 Custo
A 1.0
A 0.8
A 1.9
A 1.1
A 2.7
B 1.7
B 2.5
B 3.0
B 2.2
B 3.7
B 1.9
C 1.0
C 1.3
C 3.2
C 1.4
C 1.3
C 2.0
D 3.8
D 2.8
D 1.9
D 3.0
D 2.5

Vamos começar por formalizar o problema em termos estatísticos. Sejam XA~N(A, 2),
XB~N(B, 2), XC~N(C, 2) e XD~N(D, 2) as variáveis aleatórias que reportam o custo dos
projetos dos hospitais A, B, C e D, respetivamente. As hipóteses a testar são:

H0: A= B = C = D
H1: A  B ou A  C ou A  D ou B  C ou B  D ou C  D

Depois de definidos os pressupostos e as hipóteses a testar, deve-se começar por efetuar uma
análise exploratória dos dados (Tabela 4).

Tabela 4: Estatísticas descritivas dos custos de projetos de I&D encomendados aos hospitais

Hospital (grupo) Nº de observações Média Variância Desvio-padrão


A 5 1.5 0.625 0.791

4
No caso do SPSS, a variável que define os grupos (Hospital) tem que ser numérica, pelo que se sugere a
numeração de 1 a 4, em vez das letras de A a D.
19

B 6 2.5 0.556 0.746


C 6 1.7 0.648 0.805
D 5 2.8 0.485 0.696

A dimensão das amostras não é igual em cada um dos hospitais (grupos/tratamentos), e


portanto o delineamento não é equilibrado. Quanto à média, os hospitais parecem ter médias
diferentes: os hospitais A e C parecem ter uma média inferior às dos hospitais B e C. Por outro
lado, a variância de cada grupo parece ser idêntica.

Estes resultados são também evidentes nos gráficos de caixa-de-bigodes (box-plots) paralelos
(Figura 2), pois permitem observar a localização relativa dos quatro grupos. Como a localização
da distribuição das amostras dos quatro hospitais não parece ser idêntica, vamos aplicar a
técnica ANOVA para testar se as médias diferem significativamente entre si. Note-se que, antes
de se aplicar a ANOVA, deveríamos testar primeiro os seus pressupostos (veremos
posteriormente como faze-lo).

4
3.5
3
2.5
2
1.5
1
0.5
0
A B C D

Figura 2: Distribuição dos custos de projetos de I&D encomendados a cada hospital

A tabela ANOVA (Tabela 5) que se obtém (por exemplo, usando o suplemento Analysis Toolpak
do Excel) permite concluir que o valor observado da estatística do teste-F é 3.533, e o valor
crítico da distribuição F(3,18) é 3.16. Usando a regra de decisão do teste unilateral direito, como
Fobs = 3.533 > 3.16 = Fcrit, rejeita-se H0 para o nível de significância de 5%.
20

Tabela 5: Tabela ANOVA para os dados dos custos de projetos de I&D encomendados a cada hospital5

Origem da SQ gl MQ F de
F F crit
variação
(soma de (graus de (médias
(F observado) significação (F crítico)
quadrados) liberdade) quadráticas) (valor p)

Entre os grupos 6.159 3 2.053 3.533 0.0359 3.16

Dentro dos 10.46 18 0.581


grupos

Total 16.619 21

Obtém-se a mesma conclusão se considerarmos o resultado do p-value (valor p) da estatística


do teste-F: p-value = P(F  3.533) = 0.036 < 0.05 (). Portanto, rejeita-se H0 para níveis de
significância  ≥ 0.036. Ou seja, o valor p também nos leva à rejeição da hipótese da igualdade
das médias, ao nível de sigificância de 5%.

Há portanto evidência de que os custos médios de projetos de I&D são diferentes em pelo
menos dois hospitais. Ou seja, há evidência de que os quatro hospitais não têm um
comportamento global igual, em valor médio, em relação ao agravamento dos custos.

Testes de comparação múltipla

Quando se rejeita a hipótese nula da igualdade de três ou mais valores médios no teste-F da
ANOVA, não se tem informação sobre qual ou quais dos grupos são responsáveis pela diferença.
Uma das possibilidades para efetuar comparações múltiplas consiste em comparar todos os
pares de valores médios. Aliás, após a análise exploratória de verificação dos pressupostos da
ANOVA, a tendência atual é evitar o uso da ANOVA e passar imediatamente para os testes de
comparação múltipla.

Fixado o nível de significância do teste correspondente a cada comparação, o nível de


significância global de um conjunto de comparações tende a ser tanto mais elevado quanto
maior é o número de comparações, o que não é desejável. Efetivamente, o facto do nível de
significância global de um conjunto de comparações ser elevado significa que é elevada a

5
As designações na 1ª linha da tabela podem diferir consoante a versão do Excel e a língua em que está
instalado (ex.: Português do Brasil).
21

probabilidade de se rejeitar indevidamente pelo menos uma das hipóteses nulas do conjunto.
Relembre-se que o nível de significância de um teste corresponde à probabilidade de se rejeitar
indevidamente a hipótese nula. Por este motivo, não é adequado aplicar testes-t a cada par de
valores médios. Neste caso, a probabilidade de se tomar uma decisão conjunta correta é igual a
(1)k < 1.

Existem métodos que procuram tomar em consideração este problema, como por exemplo o
Teste de Bonferroni (baseia-se na estatística t de Student e ajusta o nível de significância
observado), o Teste de Sidak (também ajusta o nível de significância, mas é menos conservado
que o teste de Bonferroni), o Teste HSD de Tukey (Honestly Significant Difference), o Teste de
Tukey-Kramer, o Teste de Scheffé, Teste MRT de Duncan (Multiple Range Test), entre outros. É
conveniente consultar a documentação do software que se pretende usar porque existem
muitos testes de comparações múltiplas, e versões melhoradas dos testes clássicos aqui
enumerados.

Os testes de comparação múltipla, ou testes post-hoc (a posteriori), que veremos em seguida


têm os mesmos pressupostos que a ANOVA, e permitem comparar cada par de valores médios:

H0: i = j
H1: i  j (i  j: i, j = 1, 2, …, k)

Iremos ver em mais detalhe apenas o Teste HSD de Tukey e o Teste de Tukey-Kramer, devido à
sua importância. Ambos os testes de Tukey assumem que os dados provêm de distribuições
normais, com variâncias iguais (pressupostos da ANOVA). O Teste HSD de Tukey pressupõe ainda
que o delineamento da experiência é equilibrado6. Ou seja, que as amostras de todos os grupos
têm a mesma dimensão.

O teste de Tukey é preferível ao de Scheffé, mas o teste de Scheffé (mais conservador) apresenta
a vantagem de ter alguma robustez relativamente às condições de normalidade e de
homocedasticidade.

6
O SPSS, bem como outros softwares de estatística, reconhece automaticamente se o delineamento é
equilibrado, ou não, pelo que existe apenas uma opção para aplicar estes testes: “Teste de Tukey”. O
Teste WSD de Tukey (Wholly Significant Difference), disponibilizado no SPSS na opção “Teste B de
Tukey”, corresponde a uma outra versão, em que o valor crítico é igual à média dos valores críticos do
Teste HSD de Tukey e do Teste Student-Newman-Keuls. Este teste não é recomendado porque a taxa de
erro que controla é ambígua.
22

Teste HSD de Tukey (Honestly Significant Difference)

O teste HSD de Tukey tem os mesmos pressupostos que a ANOVA, e só é aplicável a


delineamentos equilibrados, ou seja quando as amostras de todos os grupos têm a mesma
dimensão: n1 = n2 = … = nk = b.

O método de Tukey consiste na construção de intervalos de confiança para todos os pares de


médias de tal forma que o conjunto de todos os intervalos tenha um determinado grau de
confiança 1–. Por exemplo, se 1– = 0.95 então temos 95% de confiança de que os intervalos
obtidos contêm, todos, as respetivas diferenças I = J. Trata-se portanto de um teste exato em
1
que, para a família de todas as 2 𝑘(𝑘 − 1) comparações duas a duas, o nível de significância

global da família dos testes é exatamente  (e o intervalo de confiança é exatamente 1–).

O teste HSD de Tukey pode ser resumido da seguinte forma:

Hipóteses a testar:
H0: i = j
H1: i  j (i  j: i, j = 1, 2, …, k)

Estatística do teste:
|𝑋̅𝑖∙ − 𝑋̅𝑗∙ |
W= ~𝑞(𝑘,𝑛−𝑘)
2
√𝑆
𝑏

onde, S2 é o valor MQE da tabe ANOVA (Tabela 1), e 𝑞(𝑘,𝑛−𝑘) é a distribuição Studentized
Range com (k; n–k) graus de liberdade.

Regra de decisão:
Rejeitar H0 se 𝑊𝑜𝑏𝑠 ≥ 𝑞(𝑘,𝑛−𝑘;1−𝛼) , sendo  o nível de significância

Valor p:
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 𝑃(𝑞(𝑘,𝑛−𝑘) ≥ 𝑊𝑜𝑏𝑠 )

A estatística do teste tem uma distribuição especial designada Studentized Range. Caso não se
tenha acesso a um software estatístico para aplicar o teste, pode-se usar uma tabela de
probabilidades desta distribuição para se obter o valor crítico 𝑞(𝑘,𝑛−𝑘;1−𝛼) . Tendo em conta a
regra de decisão, verifica-se que se trata de um teste unilateral direito, apesar das hipóteses
alternativas conterem desigualdades.
23

Teste de Tukey-Kramer

O teste de Tukey-Kramer tem os mesmos pressupostos que a ANOVA, e é uma extensão do teste
HSD de Tukey para delineamentos não equilibrados. Contudo, o teste de Tukey-Kramer não
controla o nível de significância global do conjunto de comparações, mas é minimamente
conservativo no sentido em que o nível de significância global da família dos testes é muitas
vezes menor que .

O teste de Tukey-Kramer pode ser resumido da seguinte forma:

Hipóteses a testar:
H0: i = j
H1: i  j (i  j: i, j = 1, 2, …, k)

Estatística do teste:
|𝑋̅𝑖∙ − 𝑋̅𝑗∙ |
W= ~𝑞(𝑘,𝑛−𝑘)
𝑆21 1
√ 2 (𝑛 + 𝑛 )
𝑖 𝑗

onde, S2 é o valor MQE da tabe ANOVA (Tabela 1), e 𝑞(𝑘,𝑛−𝑘) é a distribuição Studentized
Range com (k; n–k) graus de liberdade.

Regra de decisão:
Rejeitar H0 se 𝑊𝑜𝑏𝑠 ≥ 𝑞(𝑘,𝑛−𝑘;1−𝛼) , sendo  o nível de significância

Valor p:
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 𝑃(𝑞(𝑘,𝑛−𝑘) ≥ 𝑊𝑜𝑏𝑠 )

Analogamente ao teste anterior, a estatística do teste tem distribuição Studentized Range e


trata-se de um teste unilateral direito (cf. regra de decisão).

Suplemento Real Statistics Resource Pack do Excel

O suplemento Analysis ToolPak do Excel não permite realizar testes de comparação múltipla. Na
internet são disponibilizados vários suplementos para Excel que contêm as mais variadas
ferramentas estatísticas, por exemplo o XLSTAT (https://www.xlstat.com) e o Real Statistics
Resource Pack (www.real-statistics.com). Sugere-se a instalação deste último por ser totalmente
gratuito.
24

Para proceder à instalação do Real Statistics Resource Pack (www.real-statistics.com), execute


os seguintes passos:
 Descarregue da internet o ficheiro do Resource Pack adequado ao seu sistema operativo
e versão do Excel (e.g., realstats-2013.xlam), e guarde-o numa pasta do seu
computador7:
 Abra o Excel e proceda de forma idêntica à ativação do Analysis Toolpack, como se
descreve em seguida.
- Clique no menu Ficheiro.
- Clique em Opções.
- Clique em Suplementos no painel esquerdo; e
- no painel direito, caixa Ver e Gerir Suplementos do Microsoft Office, clique em
Ir….
- Na janela Suplementos disponíveis, clique em Procurar (Browse) para localizar o
ficheiro que descarregou da internet (e.g., realstats-2013.xlam), e depois clique
em Ok.
 O comando Real Statistics ficará disponível no menu ADD-INS (ou Suplementos).

Para aplicar testes de comparação múltipla associados à ANOVA com um fator, procede-se da
seguinte forma:
 Seleciona-se a opção “Data Analysis Tools” no comando Real Statistics do menu ADD-
INS (ou Suplementos).
 Na janela de ferramentas do Real Statistics, seleciona-se a opção “Analysis of Variance”
e clica-se em Ok.
 Na janela “Analysis of Variance” (Figura 3), deve-se selecionar o método ANOVA mais
adequado ao delineamento experimental associado aos dados. A opção correspondente
à ANOVA com um fator é “Anova: one factor”. Depois, clique em Ok.

7
O ficheiro pode ser guardado em qualquer pasta do computador, mas o utilizador deverá recordar-se
mais tarde qual foi. Recomenda-se que o ficheiro seja guardado na pasta C:\Users\user-
name\AppData\Roaming\Microsoft\AddIns.
25

Figura 3: Métodos ANOVA/MANOVA disponíveis no suplemento Real Statistics Resource Pack do Excel

 Na janela “ANOVA: Single Factor” (Figura 4):


- Coloque o cursor na opção “Input Range” (Intervalo de entrada) e selecione os dados de
análise, arrastando o rato sobre as células.

- Selecione o nível de significância (Alpha), utilizando uma vírgula para separar as casas
decimais.
- Selecione uma das seguintes opções consoante a forma como a tabela de dados está
organizada e os dados foram selecionados na opção “Input Range”:
o “Excel format with column headings”: quando os dados estão organizados de
modo a que as observações de cada amostra (grupo) se encontram em
diferentes colunas (como na Tabela 2), e foram selecionadas as células com os
nomes dos grupos;
o “Excel format w/o column headings”: quando os dados estão organizados de
modo a que as observações de cada amostra (grupo) se encontram em
diferentes colunas (como na Tabela 2), mas não foram selecionadas as células
com os nomes dos grupos;
o “Standard (stacked) format”: quando os dados estão organizados de modo a
que todas as observações da variável resposta se encontram na mesma coluna,
e a coluna anterior identifica cada um dos grupos (como na Tabela 3). Neste
caso, as células com os nomes das colunas não devem ser selecionadas.

- Para além do teste-F da ANOVA, podem ser selecionados diversos testes estatísticos
associados à ANOVA com um fator:
o Testes alternativos à ANOVA:
 Teste de Kruskal-Wallis (não paramétrico)
 Teste de Welch (para populações normais heterocedásticas)
 Teste de Brown-Forsythe (para populações normais heterocedásticas)
o Testes de comparações múltiplas:
26

 Teste de Contrastes (para fazer análise de contrastes8; recomenda-se a


utilização de uma correção do nível de significância)
 Teste HSD de Tukey (e teste de Tukey-Kramer)
 Teste de Games-Howell (não paramétrico; não assume
homocedasticidade)
 Teste de Dunnett (utilizado para comparar as amostras com um grupo
de controlo)
 Teste de Scheffée (usado em comparações complexas; é mais
conservador do que o teste de Tukey, mas tem a vantagem de ter
alguma robustez relativamente às condições de normalidade e de
homocedasticidade)
 Teste de Contrastes KW (para fazer análise de contrastes após o teste
de Kruskal-Wallis; recomenda-se a utilização de uma correção do nível
de significância)
 Teste de Nemenyi (não paramétrico; idêntico ao teste HSD de Tukey;
usado após o teste de Kruskal-Wallis)
 Teste de Dunn (não paramétrico; idêntico ao teste de Nemenyi mas
para amostras de diferentes dimensões; usado após o teste de Kruskal-
Wallis)
 Teste de Dunnett KW (idêntico ao teste de Dunnett, mas não
paramétrico; utilizado para comparar as amostras com um grupo de
controlo; usado após o teste de Kruskal-Wallis)
 Teste de Levene (testa o pressuposto da homogeneidade de variâncias;
é calculada a versão baseada nas médias e nas medianas das amostras
de cada grupo).

- As opções de “Alpha correction for contrasts” permitem selecionar o método a usar para
corrigir, ou não (No Correction), o nível de significância dos testes de comparação
múltipla. No conjunto de testes disponíveis, apenas os testes de Contrastes requerem a
utilização da correção de Dunn-Sydak ou de Bonferroni.
- No campo “Output Range”, selecione uma célula para definir a célula superior esquerda
da tabela de resultados, ou clique no botão “Ne” para enviar os resultados para uma
nova folha do ficheiro Excel que está a ser utilizado.

8
A análise de contrastes baseia-se em testes de hipóteses sobre combinações lineares dos valores médios
dos grupos onde a soma do pesos (constantes) associados aos valores médios é igual a zero. Para mais
detalhes, veja-se por exemplo a documentação do suplemento Real Statistics Resource Pack
(http://www.real-statistics.com/one-way-analysis-of-variance-anova/planned-comparisons/; acedido 11
de junho de 2017).
27

Figura 4: Testes estatísticos associados à ANOVA com um fator disponíveis no suplemento Real Statistics
Resource Pack do Excel

Na tabela de resultados dos testes de comparações múltiplas, irá surgir uma coluna sombreada
a cinzento, designada por c (contraste), onde o utilizador tem que especificar o peso associado
a cada valor médio do teste de hipóteses pretendido9. Considerando os dados do exemplo
anterior (Tabela 2), suponhamos que se pretende testar 𝐻0 : 𝜇𝐵 − 𝜇𝐶 = 0. Neste caso, o
utilizador deverá introduzir o valor 1 na célula correspondente ao grupo B, e o valor –1 na célula
correspondente ao grupo C (Figura 5). Na tabela “Q TEST”, o campo sig fornece a conclusão do
teste estatístico para o nível de significância selecionado previamente.

9
Para mais detalhes, veja-se por exemplo a documentação do suplemento Real Statistics Resource Pack
(http://www.real-statistics.com/one-way-analysis-of-variance-anova/unplanned-comparisons/; acedido
11 de junho de 2017).
28

TUKEY'S HSD / TUKEY-KRAMER Alpha 0.05


Groups c mean n ss c^2/n c*mean
A 1.5 5 2.5 0 0
B 1 2.5 6 2.78 0.166667 2.5
C -1 1.7 6 3.24 0.166667 -1.7
D 2.8 5 1.94 0 0
22 10.46 0.333333 0.8
Q TEST
std err q-stat df q-crit lower upper sig x-crit Cohen d effect r
0.31121 2.570609 18 3.997 -0.44391 2.043908 no 1.243908 1.049447 0.5182

Figura 5: Tabela de resultados do teste de Tukey para verificar se o valor médio do grupo B difere do valor médio
do grupo C (suplemento Real Statistics Resource Pack).

Exemplo 5
Considerem-se novamente os dados do exemplo anterior (Tabela 2), referentes aos custos de
projetos de I&D encomendados a quatro hospitais (A, B, C e D). Através do teste-F da ANOVA,
concluiu-se anteriormente que há evidência de que os quatro hospitais não têm um
comportamento global igual, em valor médio, em relação ao agravamento dos custos. Importa
então investigar quais são os hospitais que diferem entre si em termos de custos médios. Para
tal, vamos aplicar o teste de Tukey-Kramer. As hipóteses estatísticas a testar são:

H0: A = B  H0: A – B = 0
H1: A  B H1: A – B  0

H0: A = C  H0: A – C = 0
H1: A  C H1: A – C  0

H0: A = D  H0: A – D = 0
H1: A  D H1: A – D  0

H0: B = C  H0: B – C = 0
H1: B  C H1: B – C  0

H0: B = D  H0: B – D = 0
H1: B  D H1: B – D  0

H0: C = D  H0: C – D = 0
H1: C  D H1: C – D  0

Utilizando o suplemento Real Statistics Resource Pack do Excel obtêm-se as tabelas de


resultados da Figura 6. Nas tabelas “Q TEST”, o campo sig fornece a conclusão do respetivo teste
estatístico para o nível de significância de 5%. Conclui-se então que não se rejeita a hipótese
29

nula em todos os testes de comparações múltiplas. Portanto, não há evidência de diferenças


entre os comportamentos médios dos hospitais no que se refere ao agravamento dos custos.

Relembre-se que o teste-F da ANOVA permitiu concluir que há evidência de que pelo menos
dois hospitais têm valores médios diferentes. Mas, verificamos agora com o teste de Tukey-
Kramer, que não há evidência de que os valores médios sejam diferentes, para o nível de
significância de 5%. Por vezes acontecem situações destas, em que os resultados são
inconclusivos! O que fazer a seguir? Como as amostras têm uma dimensão reduzida, deveria
tentar-se obter amostras maiores e repetir a análise.

Nota: O suplemento Real Statistics Resource Pack não fornece os valores p (p-value). Caso se
repetisse o procedimento para um nível de significância de 7%, concluía-se que havia evidência
estatística de que o valor médio do hospital A difere do hospital D. Na verdade, para níveis de
significância  ≥ 0.065 (valor p), rejeita-se a hipótese nula H0: A = D. Portanto, será melhor não
aceitar despreocupadamente esta hipótese. Como referido anteriormente, recomenda-se a
obtenção de amostras de maior dimensão em cada um dos grupos.
30

TUKEY'S HSD / TUKEY-KRAMER Alpha 0.05


Groups c mean n ss c^2/n c*mean
A 1 1.5 5 2.5 0.2 1.5
B -1 2.5 6 2.78 0.166667 -2.5
C 1.7 6 3.24 0 0
D 2.8 5 1.94 0 0
22 10.46 0.366667 -1
Q TEST
std err q-stat df q-crit lower upper sig x-crit Cohen d effect r
0.3264 -3.06372 18 3.997 -2.30462 0.304621 no 1.304621 1.311808 0.58544

TUKEY'S HSD / TUKEY-KRAMER Alpha 0.05


Groups c mean n ss c^2/n c*mean
A 1 1.5 5 2.5 0.2 1.5
B 2.5 6 2.78 0 0
C -1 1.7 6 3.24 0.166667 -1.7
D 2.8 5 1.94 0 0
22 10.46 0.366667 -0.2
Q TEST
std err q-stat df q-crit lower upper sig x-crit Cohen d effect r
0.3264 -0.61274 18 3.997 -1.50462 1.104621 no 1.304621 0.262362 0.142942

TUKEY'S HSD / TUKEY-KRAMER Alpha 0.05


Groups c mean n ss c^2/n c*mean
A 1 1.5 5 2.5 0.2 1.5
B 2.5 6 2.78 0 0
C 1.7 6 3.24 0 0
D -1 2.8 5 1.94 0.2 -2.8
22 10.46 0.4 -1.3
Q TEST
std err q-stat df q-crit lower upper sig x-crit Cohen d effect r
0.340914 -3.81328 18 3.997 -2.66263 0.062632 no 1.362632 1.705351 0.668471

TUKEY'S HSD / TUKEY-KRAMER Alpha 0.05


Groups c mean n ss c^2/n c*mean
A 1.5 5 2.5 0 0
B 1 2.5 6 2.78 0.166667 2.5
C -1 1.7 6 3.24 0.166667 -1.7
D 2.8 5 1.94 0 0
22 10.46 0.333333 0.8
Q TEST
std err q-stat df q-crit lower upper sig x-crit Cohen d effect r
0.31121 2.570609 18 3.997 -0.44391 2.043908 no 1.243908 1.049447 0.5182

TUKEY'S HSD / TUKEY-KRAMER Alpha 0.05


Groups c mean n ss c^2/n c*mean
A 1.5 5 2.5 0 0
B 1 2.5 6 2.78 0.166667 2.5
C 1.7 6 3.24 0 0
D -1 2.8 5 1.94 0.2 -2.8
22 10.46 0.366667 -0.3
Q TEST
std err q-stat df q-crit lower upper sig x-crit Cohen d effect r
0.3264 -0.91912 18 3.997 -1.60462 1.004621 no 1.304621 0.393543 0.211727
31

TUKEY'S HSD / TUKEY-KRAMER Alpha 0.05


Groups c mean n ss c^2/n c*mean
A 1.5 5 2.5 0 0
B 2.5 6 2.78 0 0
C 1 1.7 6 3.24 0.166667 1.7
D -1 2.8 5 1.94 0.2 -2.8
22 10.46 0.366667 -1.1
Q TEST
std err q-stat df q-crit lower upper sig x-crit Cohen d effect r
0.3264 -3.3701 18 3.997 -2.40462 0.204621 no 1.304621 1.442989 0.621989

Figura 6: Resultados do teste de Tukey-Kramer obtidos com o suplemento Real Statistics Resource Pack do Excel

Testes para a igualdade de k variâncias (amostras independentes)

Para além da normalidade das amostras de cada um dos grupos, a hipótese de


homocedasticidade deve ser sempre testada antes de se usar o teste-F da ANOVA. Nos testes à
igualdade de k variâncias, a hipótese alternativa é que pelo menos um par de populações têm
variâncias diferentes. De entre os testes paramétricos propostos na literatura, destacam-se o
Teste de Bartlett e o Teste de Levene. Ambos os testes pressupõem que as amostras das k
populações são independentes e que as respetivas populações são Normais. O teste de Levene
é menos sensível do que o teste de Bartlett a desvios à condição de normalidade, pelo que será
apresentado em mais detalhe.

Teste de Levene

O teste de Levene consiste em aplicar a análise de variância (ANOVA) a uma nova variável Zij que
̅ i∙ ) do
corresponde aos desvios absolutos entre os valores da variável resposta (Xij) e a média (X
respetivo grupo. Uma transformação alternativa, robusta para a não normalidade, foi proposta
por Brown e Forsythe (1974) e consiste em substituir a média de cada grupo pela mediana de
cada grupo. Ou seja, caso haja suspeitas de que a distribuição populacional não é Normal, deve-
se considerar a transformação dos valores da variável resposta com base na mediana de cada
grupo.

Sejam k  2 amostras aleatórias mutuamente independentes provenientes de populações com


distribuição Normal. O teste de Levene pode ser resumido da seguinte forma:
32

Hipóteses a testar:
H0: 12 = 22 = … = k2 = 2
H1: i,j (ij) i2  j2 (i  j: i, j = 1, 2, …, k)

Estatística do teste:
Para cada grupo, calculam-se os valores Z como sendo os desvios absolutos entre os
̅ i∙), ou a mediana (𝑋̃i∙ ), do respetivo grupo:
valores da variável resposta (Xij) e a média (X
𝑍𝑖𝑗 = |𝑋𝑖𝑗 − ̅
X i∙ | ou 𝑍𝑖𝑗 = |𝑋𝑖𝑗 − 𝑋̃i∙ |, respetivamente.

A estatística do teste obtém-se aplicando a formulação do teste-F da ANOVA à variável


transformada (𝑍𝑖𝑗 ):

∑𝑘𝑖=1 𝑛𝑖 (𝑍𝑖∙̅ − 𝑍̅)2



(𝑘 − 1)
𝐹= 𝑛𝑖 2 ~𝐹(𝑘−1,𝑛−𝑘)
∑𝑘𝑖=1 ∑𝑗=1 (𝑍𝑖𝑗 − 𝑍̅𝑖∙ )

(𝑛 − 𝑘)

𝑛 𝑍𝑖𝑗 1 𝑛
onde, 𝑍𝑖∙̅ = ∑𝑗=1
𝑖
𝑛
é a média do grupo i, e 𝑍̅ = 𝑛 ∑𝑘𝑖=1 ∑𝑗=1
𝑖
𝑍𝑖𝑗 é a média aritmética de
𝑖

todas as observações combinadas numa única amostra global.

Regra de decisão:
Rejeitar H0 se 𝐹𝑜𝑏𝑠 ≥ 𝐹(𝑘−1,𝑛−𝑘;1−𝛼) = 𝐹𝑐𝑟í𝑡𝑖𝑐𝑜 , sendo  o nível de significância

Valor p:
𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 𝑃(𝐹(𝑘−1,𝑛−𝑘) ≥ 𝐹𝑜𝑏𝑠 )

Exemplo 6
Considerem-se novamente os dados dos exemplos anteriores (Tabela 2), referentes aos custos
de projetos de I&D encomendados a quatro hospitais (A, B, C e D). Vamos agora usar o teste de
Levene para testar se existe algum par de populações (supostamente Normais) que têm
variâncias diferentes:

H0: A2 = B2 = C2 = D2 = 2


H1: i,j (ij) i2  j2 (i  j: i, j = A, B, C, D)

Utilizando o suplemento Real Statistics Resource Pack do Excel obtém-se a Tabela 6. Uma vez
que o valor p (p-value), do teste que considera a transformação mediana (medians), é superior
a 0.05, conclui-se que não se rejeita a hipótese nula para o nível de significância de 5%. Aliás,
33

como o valor p é muito elevado, há forte evidência de que tal aconteça (apenas se rejeita H 0
para ≥0.992617). Por outras palavras, não há evidência de que as variâncias das populações
subjacentes aos grupos (hospitais) sejam diferentes. Portanto, a não rejeição da hipótese nula
permite validar o pressuposto da homogeneidade de variâncias do teste-F da ANOVA.

Tabela 6: Resultados do teste de Levene obtidos com


o suplemento Real Statistics Resource Pack do Excel

type p-value
means 0.939184
medians 0.992617
trimmed 0.939184

Para aplicar o teste de Levene no SPSS seleciona-se no menu ANALISAR a opção “Comparar
médias”, e depois “ANOVA unidirecional”. Depois de se selecionar os dados, clica-se no botão
“Opções…” e escolhe-se a opção “Homogeneidade do teste de variância” (Figura 7). Depois,
basta clicar em Continuar e fazer OK na janela anterior.

Figura 7: Janelas do SPSS usadas para aplicar o teste de Levene

A tabela de resultados que se obtém apresenta a estatística do teste de Levene, bem como o
respetivo valor p (Sig.), com a transformação através das médias dos grupos.
34

Resumo

Neste capítulo foi introduzida a análise de variância (ANOVA) com um fator e efeitos fixos. Foram
discutidos os pressupostos da sua aplicação, e indicados alguns dos testes estatísticos
adequados para a verificação desses pressupostos. O teste de Levene, que permite testar o
pressuposto da homogeneidade de variâncias, foi apresentado detalhadamente. Para os casos
em que os pressupostos da ANOVA não se verifiquem, foram apontados testes estatísticos
alternativos.

Foi também discutida a utilização de testes de comparações múltiplas (post-hoc), os quais são
aplicados quando o teste-F da ANOVA rejeita a hipótese nula da igualdade dos valores médios
populacionais. Para além de serem apontados diversos testes post-hoc alternativos, foram
apresentados em detalhe os testes de Tukey.

Todos testes estatísticos abordados com maior detalhe (teste-F da ANOVA, teste de Tukey, e
teste de Levene) foram ilustrados utilizando ferramentas de suplementos gratuitos do Excel: o
Analysis Toolpak e o Real Statistics Resource Pack.

No final deste capítulo deverá ser capaz de responder às seguintes questões:

 Qual é a diferença entre análise de variância com efeitos fixos e efeitos aleatórios?

 Quais são os pressupostos da ANOVA?

 Como poderá verificar cada um dos pressupostos da ANOVA?

 Indique pelo menos uma alternativa ao teste-F da ANOVA, para situações em que as
variâncias das populações não são iguais.

 Quais são as hipóteses estatísticas da ANOVA?

 Como se interpretam os resultados da tabela ANOVA?

 Em que circunstâncias se devem utilizar os testes de comparação múltipla?

 Quais são as hipóteses estatísticas dos testes de comparação múltipla?

 Enumere quatro testes de comparação múltipla e discuta a sua aplicação.

 Qual é a diferença entre o teste HSD de Tukey e o teste de Tukey-Kramer? Como se


interpretam os resultados destes testes?
35

 Para testar a igualdade de k variâncias de populações normais com base em amostras


independentes, que testes estatísticos poderia utilizar? Indique um teste adequado caso
haja dúvidas quanto à normalidade das populações.

 Como se interpretam os resultados do teste de Levene?

Referências

Brown, M. B., Forsythe, A. B. (1974). Robust tests for the equality of variances. Journal of the
American Statistical Association, 69(346), 364-367.

Fernandes, E. M. (1999). Estatística Aplicada. Universidade do Minho, Braga, Portugal, 313 pp.
Disponível em http://www.norg.uminho.pt/emgpf/documentos/Aplicada.pdf (acesso: julho
2014).

Guimarães, R. C., Sarsfield Cabral, J. A. (2007). Estatística. Segunda edição, McGraw-Hill.


37

Anexo I – Estatística do teste-F da ANOVA

Supondo que os pressupostos da ANOVA com um fator se verificam, demonstram-se os


seguintes resultados.

Propriedade 1: SQE/2~2 (n-k).

 X 
ni
2
 Xi
ni  1S i2
ij
j1
 ~  (2ni 1)
 2
 2

 
 X 
ni
  Xi
2

k  ij


SQE j1
   ~  k
2

2 i 1  2   i
 n 1 
   i 1 
 
SQE
 ~  (2nk )
2

Propriedade 2: SQE/(nk) é um estimador centrado de 2, independentemente do facto de a


hipótese nula H0: 1= 2 =…= k ser verdadeira ou falsa.

SQE  SQE   SQE 


Pela Propriedade 1: ~  (2nk )   2   n  k  E 
2

 2
    n  k 

Logo, SQE/(nk) é um estimador centrado de 2, independentemente de H0.

Propriedade 3: Sob a hipótese nula H0: 1= 2 =…= k, tem-se SQT/2~2 (n-1).

Se H0 é verdadeira, verifica-se que 1= 2 =…= k e, portanto, a amostra formada pelo


conjunto global das n observações é uma amostra proveniente de uma população
N(,2) o que implica que

 Xij  X
k ni
2

i1 j1 SQT 2


2
 2
~  n1
 
38

Propriedade 4: Sob a hipótese nula H0: 1= 2 =…= k, tem-se SQTr/2~2 (k-1).

Pelas propriedades anteriores sabe-se que SQE/2~2 (n-k) e que, se H0 é verdadeira,


SQT/2~2 (n-1). Portanto,

SQT SQTr SQE SQTr 2


2
 2
 2
 2
~  k 1
   

Propriedade 5: Sob a hipótese nula H0: 1= 2 =…= k, tem-se SQTr/(k1) é um estimador
centrado de 2.

SQTr  SQTr   SQTr 


Pela Propriedade 4: ~  (2k 1)   2   k  1  E 
2

 2
    k  1 

Logo, SQTr/(k1) é um estimador centrado de 2 quando H0 é verdadeira.

2
Propriedade 6: Sejam 𝑋~𝜒2(𝑛) e 𝑌~𝜒(𝑚) variáveis aleatórias independentes, então

2
𝑋⁄ 𝜒(𝑛)⁄𝑛
𝑛
𝐹= = 2 ~𝐹(𝑛,𝑚)
𝑌⁄
𝑚 𝜒(𝑚)⁄
𝑚

Propriedade 7: Sob a hipótese nula H0: 1= 2 =…= k, a estatística do teste-F da ANOVA com um
fator é

𝑀𝑄𝑇𝑟
𝐹= ~𝐹(𝑘−1,𝑛−𝑘)
𝑀𝑄𝐸

Utilizando os resultados das Propriedades 1, 4 e 6, conclui-se:


39

2
𝑆𝑄𝑇𝑟 𝑆𝑄𝑇𝑟 𝜒(𝑘−1)
⁄(𝑘 − 1) ⁄ ⁄
MQTr 𝜎 2 (𝑘 − 1) (𝑘 − 1)
= = = 2 ~𝐹(𝑘−1,𝑛−𝑘)
MQE 𝑆𝑄𝐸 𝑆𝑄𝐸 𝜒(𝑛−𝑘)
⁄(𝑛 − 𝑘) ⁄𝜎 2 (𝑛 − 𝑘) ⁄
(𝑛 − 𝑘)
41

Anexo II – Modelo matemático da ANOVA com um fator

O modelo matemático aqui apresentado descreve o modelo subjacente à ANOVA com um fator
e efeitos fixos, supondo um delineamento experimental completamente aleatorizado. Esta
formulação da hipótese nula subjacente à ANOVA é especialmente útil quando se pretende
generalizar a análise de variância para mais de um fator, ou para um modelo com efeitos
aleatórios.

As variáveis aleatórias Xij são independentes e verificam (para cada unidade experimental
j=1,…,ni de cada grupo i=1,…,k):

Xij = µi + ij  Xij = µ + i + ij

onde,
µi = µ + i é o valor médio populacional do nível i do fator;
µ é o valor médio da população;
i é o efeito do fator
ij~N(0, 2) é um resíduo aleatório

Para verificar se existem diferenças significativas entre os grupos/tratamentos, formula-se a


seguinte hipótese nula:
H0: 1= 2 =…= k

Esta hipótese nula estabelece que não existem diferenças entre as médias das k populações. Ou
seja, estabelece que as diferenças dos efeitos da aplicação dos k tratamentos não são
estatisticamente significativos. Portanto, a hipótese alternativa estabelece que os efeitos da
aplicação dos tratamentos são significativos.

You might also like