You are on page 1of 69

Karla: 98898-8011

Universidade Federal da Bahia


Escola Politcnica

Disciplinas ENGD02 e ENGD83


Docente: Karla Patricia S Oliveira R Esquerre

LISTA DE EXERCCIOS UNIFICADA


ltima atualizao: 11/05/2016

ESTATSTICA DESCRITIVA
QUESTO ED1 OK
Para fins de vistoria ambiental, a concentrao de monxido de carbono (CO, mg/m3) foi medida em
quatro chamins. Os dados obtidos so apresentados a seguir,
Tabela 1 - Dados da concentrao (mg/m) de monxido de carbono (CO) medida em quatro chamins
Cham
1
Cham
2
Cham
3
Cham
4

40,5
41,6
4

41,5
58,3
6

42,5
42,2
9

43,5
57,7
1

44,5
42,9
3

45,5
57,0
7

46,5
43,5
7

47,5
56,4
3

48,5
44,2
1

49,5
55,7
9

50,5
44,8
6

51,5
55,1
4

52,5

53,5

55,5
53,8
6

59,5

54,5

54,5
46,1
4

45,5

35

37

42

53,9

53

50,6

50,5

53,8

52,5

53,6

50,4

52,2

52,7

52,4

52,7

51,4

53,8

44,5

45

45,5

46

46,5

47

47,5

48

48,5

49

49,5

50

50,5

51

51,5

52

52,5

46,79

Tabela 2 - Estatsticas descritivas


Varivel
Cham1
Cham2
Cham3
Cham4

Mdia
48,68
49,81
49,85
48,50

Desvio Padro
5,39
6,33
2,52

Mnimo
40,50
41,64
35,00
44,50

Q1
44,00
50,45
46,25

Mediana
50,0
50,0
52,45

Q3
53,00
56,11
53,30
51,38

Mximo
59,50
58,36
53,90
72,71

Figure 1 - Grficos de sries temporais


3

Cham1

60

60

55

55

50

50

45

45

40

40

Cham3

55

12

15

Cham2

Cham4

52

50

50

45

48

40

46

35

44
3

12

15

60

Dados

55

50

45

40

35

Cham1

Cham2

Cham3

Cham4

a) Complete o quadro das estatsticas descritivas destes dados.


Para a Chamin 1:
Mdia amostral:
X + + X n 1 n
X = 1
= X i Desvio Padro amostral:
n
n i =1

1
s=
( X i X )2

n1 i=1
Mnimo, mximo e primeiro e terceiro quartis:
Para determinar os valores de mnimo, quartil 1, mediana, quartil 3 e mximo necessrio organizar os
dados obtidos em ordem crescente.
> sort(chamines$Cham1)
#Ordenamento
[1] 40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5 49.5 50.5 51.5 52.5 53.5 54.5
[16] 55.5 59.5

Como determinar os Quartis:


Q1 = P25
Q2 = P50 = Mediana
Q3 = P75
Clculo dos percentis:
A posio do percentil de ordem i no conjunto de dados ordenado ser definida como:
n
i.
Posi =
100 , em que Posi = posio do percentil de ordem i; e n = nmero de elementos da srie.
1) Se Posi = valor inteiro, ento o percentil definido como a mdia dos valores que ocupam a
posio Posi e Posi + 1.
2) Se Posi = valor no inteiro, ento o percentil definido como o valor que ocupa a posio u + 1,
em que u = inteiro mais prximo que seja menor que Posi.
(Notas de Aula, MAT236 Mtodos Estatstico, IM-UFBA)
Q1 = P25
Pos25 = 25

17
100

= 4,25 logo Q1 o valor que ocupa a posio 5 do Rol, portanto Q1 = 44.5

Q2 = P50 = Mediana
17
.
Pos50 = 50 100 = 8,5 logo Q2 o valor que ocupa a posio 9 do Rol, portanto Q2 = 48.5
Q3 = P75
Pos75 = 75

17
100

= 12,75 logo Q3 o valor que ocupa a posio 13 do Rol, portanto Q3 = 52.5

Alternativamente:
Os quartis dividem a distribuio dos dados em quatro partes iguais. Para determinar o primeiro
quartil, encontra-se, primeiramente, a mediana, que corresponde ao segundo quartil e que divide os dados
metade. Em seguida obtm-se a mediana da primeira e da segunda parte dos dados que foram divididos
3

pela mediana da distribuio. Essas ltimas medianas devero corresponder ao primeiro quartil e terceiro
quartil respectivamente. Observar que, para determinar o primeiro e terceiro quartis, a mediana (segundo
quartil), deve ser considerado na diviso.
No exemplo:
[1] 40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5 49.5 50.5 51.5 52.5 53.5 54.5
[16] 55.5 59.5

Mediana = 48,5
Primeira parte dos dados:
40.5 41.5 42.5 43.5 44.5 45.5 46.5 47.5 48.5

Primeiro quartil = 44,5


Segunda parte dos dados:
48.5 49.5 50.5 51.5 52.5 53.5 54.5 55.5 59.5

Terceiro quartil = 52,5


No RStudio possvel encontrar os valores de mnimo, quartil 1, mediana, quartil 3 e mximo atravs da
funo quantile( ).
> quantile(chamines$Cham1) #Quartis
0% 25% 50% 75% 100%
40.5 44.5 48.5 52.5 59.5

Tabela 3 - Estatsticas descritivas atravs da funo summary()


Cham1
Cham2
Min. :40.50 Min. :41.64
1st Qu.:44.50 1st Qu.:44.21
Median :48.50 Median :46.79
Mean :48.68 Mean :49.81
3rd Qu.:52.50 3rd Qu.:55.79
Max. :59.50 Max. :58.36

Cham3
Cham4
Min. :35.00 Min. :44.5
1st Qu.:50.50 1st Qu.:46.5
Median :52.40 Median :48.5
Mean :49.85 Mean :48.5
3rd Qu.:53.00 3rd Qu.:50.5
Max. :53.90 Max. :52.5

Tabela 4 - Estatsticas descritivas obtidas de mtodo alternativo em R


Mdia Desvio.Padro Mnimo Quartil.1 Mediana Quartil.3 Mximo
Cham1 48.68
5.39 40.50
44.50 48.50
52.50 59.50
Cham2 49.81
6.33 41.64
44.21 46.79
55.79 58.36
Cham3 49.85
5.90 35.00
50.50 52.40
53.00 53.90
Cham4 48.50
2.52 44.50
46.50 48.50
50.50 52.50

Algumas estatsticas da Tabela 2 contm inconsistncias, se levados em considerao os dados da Tabela


1. As inconsistncias so destacadas em amarelo. A Tabela 5 mostra o quadro preenchido com valores
devidamente corrigidos.
Tabela 5 - Estatsticas descritivas corrigidas e completadas
Varivel
Cham1
Cham2
Cham3
Cham4

Mdia
48,68
49,81
49,85
48,50

Desvio Padro
5,39
6,33
5,90
2,52

Mnimo
40,50
41,64
35,00
44,50

Q1
44,50
44,21
50,50
46,50

Mediana
48,50
46,79
52,40
48,50

Q3
52,50
55,79
53,00
50,50

Mximo
59,50
58,36
53,90
52,50

b) Compare as distribuies quanto simetria com base nos grficos acima.

Avaliando somente os grficos de sries temporais no possvel inferir sobre a simetria das
distribuies. Avaliando os boxplots, observa-se que, para Cham1 e Cham2 os dados so bastante
assimtricos, onde boa parte dos dados parecem concentrar-se de um lado e h uma disperso maior do
outro. Para Cham3 verifica-se a presena de valores aberrantes, ou seja, valores considerados muito
distantes da massa de dados. Em Cham4 parece haver uma simetria nos dados, j que a mediana parece
dividir igualmente a massa de dados, no entanto, verificando o grfico de sries temporais verifica-se que
os dados no apresentam normalidade, apresentam na verdade comportamento linear. Analisando o
Histograma de Cham4 comprova-se a uniformidade dos dados, logo verifica-se que no se pode inferir
sobre simetria em nenhuma das distribuies.
c) Que chamin apresenta maior variao relativa? Analise criticamente sua resposta.
Para comparar a variabilidade de duas ou mais distribuies, mesmo quando referem-se a fenmenos
diferentes e sejam expressas em unidade de medida distintas, pode-se utilizar o Coeficiente de Variao
de Pearson, uma medida de disperso relativa dada por:
s
CV =
X
onde s o desvio padro amostral e
Varivel
Cham1
Cham2
Cham3
Cham4

Mdia
48,68
49,81
49,85
48,50

Desvio Padro
5,39
6,33
5,90
2,52

a mdia amostral.
CV (%)
11,07
12,71
11,84
5,21

Para a chamin 2 o coeficiente de variao no representa a disperso dos dados devido ao fato da
distribuio ser bimodal, verificado no grfico histograma. Os dados da chamin 3 so concentrados
porm apresentam outliers, que influenciam no clculo do coeficiente de variao. A retirada dos outliers
5

acarretariam a reduo do desvio padro dos dados e, por consequncia a reduo do coeficiente de
variao. Considerando a presena dos outliers os dados da chamin 3 apresentam o maior coeficente de
variao ou maior dispreso relativa. Por ltimo, as chamins 1 e 4 apresentam comportamento prximo
do linear, analisando os diagramas de sries temporais. Para a chamin 1 h, no entanto, um desvio maior
devido ao ltimo ponto observado que se distancia um pouco da reta, o que acarreta em maior disperso.
Para a chamin 4 os dados seguem um comportamento perfeitamente linear e por isso o desvio padro
menor, acarretando em menor variao relativa dos dados.
d) As estatsticas calculas podem ser utilizadas para descrever o comportamento dos dados?
As estatsticas calculadas no so suficientes para descrever o comportamento dos dados j que, atravs
dessas, no possvel determinar, por exemplo, o comportamento dos dados.
A anlise grfica que permite uma compreenso melhor acerca dos dados.
Os grfico Q-Q Plot permitem avaliar se as distribuies so prximas da normalidade.
>
>
>
+
+
+
+
+
+
+
+
+
+

par(mar=c(4,4,2,1))
par(mfrow = c(2, 2))
sapply(X = c("Cham1","Cham2","Cham3","Cham4"),
FUN=function(s) {
qqnorm(chamines[,s],
ylab= c("gs CO - (mg/m3)"),
main = paste("Normal Q-Q Plot, ",s),
col = "black",
pch=16 )
qqline(chamines[,s],
col='red' )
}
)

QUESTO ED2 OK
Os seguintes dados representam o nmero de acidentes dirios em um complexo industrial (colocados em
ordem crescente), durante o perodo de 50 dias. (Dados fictcios)
18
29
36
41
49

20
29
36
43
50

20
30
37
44
51

21
30
37
44
53

22
31
37
45
54

24
31
37
45
54

25
32
38
45
56

25
33
38
46
58

26
34
38
47
62

27
35
40
48
65

a) Construir o histograma de frequncia relativa para representar esses dados.

6
4
0

Frequency

10

Histogram of acidentes

20

30

40

50

60

acidentes
Grfico 1. Gerado pela funo hist(x= acidentes)
> #Nmero de amostras:
> n = length(acidentes)
>n
[1] 50
> #Valores extremos:
> min = min(acidentes)
> min
[1] 18
> max = max(acidentes)
> max
[1] 65
> #Amplitude Total:
> AT = max - min
> AT
[1] 47
> #Nmero de classes:
> k = 1 + 3.3 * log10(n) #Regra de Sturges ou Regra do Logartmo
>k
[1] 6.606601
> #alternativamente: k = sqrt(n)
> #Lembrar que, mesmo que hajam alguns mtodos para determin-lo, a escolha do nmero de
classes depender mais do bom senso de quem organiza os dados.
> #O nmero de classes deve ser um inteiro positivo, logo:
> k = round(k, 0)
>k
[1] 7
> #Amplitude do intervalo de classes:
> h = AT / k
>h
[1] 6.714286

> #Alternativa: Sabendo que n=50, faz-se k=10 classes com amplitude h=5, incluindo os dados
direita e excluindo esquerda.
> #intervalo = cut(x = acidentes, breaks = seq(15, 15+n, 5), right = FALSE) #right = FALSE para
Excluso direita e Incluso esquerda;
> intervalo = cut(x = acidentes, breaks = seq(15, 15+n, 5), right = TRUE) #right = TRUE para
Excluso esquerda e Incluso direita;
> #Tabela de distribuio de frequncias:
> cbind(freqAbs=table(intervalo), freqRel=100*prop.table(table(intervalo)))
freqAbs freqRel
(15,20]
3
6
(20,25]
5
10
(25,30]
6
12
(30,35]
6
12
(35,40]
10
20
(40,45]
7
14
(45,50]
5
10
(50,55]
4
8
(55,60]
2
4
(60,65]
2
4

logical; if TRUE, the histogram cells are right-closed (left open) intervals.

10

Histograma: Nmero de acidentes dirios


Frequncia (em dias)

right

10

20

30

40

50

60

70

N. de acidentes
Grfico 2. hist() com parmetro right = TRUE
9

10
8
6
4
2
0

Frequncia (em dias)

Histograma: Nmero de acidentes dirios

10

20

30

40

50

60

70

N. de acidentes
Grfico 3. hist() com parmetro right = FALSE
b) O estatstico decide separar destes dados os dias com nmero de acidentes inferior a dois desvios
padres abaixo da mdia e tambm separar os dias com nmero de acidentes superior a um e meio
desvio padro acima da mdia. Qual a porcentagem de dias que sero separados em cada caso?
> media = round(mean(acidentes), 2) #Mdia aritmtica
> media
[1] 38.32
> cat("Mdia de", round(media, digits = 0), "acidentes por dia")
Mdia de 38 acidentes por dia
> desvioPadrao = round(sd(acidentes), 2)
#Desvio Padro "Standard Deviation"
> desvioPadrao
[1] 11.58

Analisando os dados, dentre os 50 dias, nenhum dia tem nmero de acidente inferior a 15, portanto, 0%
dos dias, enquanto que 3 dos 50 dias tm nmero de acidentes superior a 56, dando um total de 6% dos
dias.
necessrio verificar a normalidade dos dados observados. Analisando o histograma dos dados, verificase que os dados indicam normalidade.
>
>
>
+
+
>
>

x <- seq(-min(acidentes), max(acidentes), 0.001)


y <- dnorm(x = x, mean = mean(acidentes), sd = sd(acidentes))
hist(h <- acidentes, probability = TRUE,
col = "lightgreen", main = "",
xlab = "x", ylab = "Densidade de probabilidade")
lines(x, y, type = "l", col = "red")

10

> ## Admitindo normalidade


> ## Caso 1:
> x = media - 2*desvioPadrao
>x
[1] 15.16
> #z = (x - media) / desvioPadrao
> #z
> prob = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail
logical; if TRUE (default), probabilities are P[X ??? x]
> prob
[1] 2.275013
> paste0("So separados ", round(prob, 2), "% de dias")
[1] "So separados 2.28% de dias"
>
> ## Caso 2:
> x = media + 1.5*desvioPadrao
>x
[1] 55.69
> #z = (x - media) / desvioPadrao
> #z
> prob = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
> prob
[1] 6.68072
> paste0("So separados ", round(prob, 2), "% de dias")
[1] "So separados 6.68% de dias"

A distribuio normal a que mais se aproxima da distribuio de acidentes dirios do complexo


industrial.

11

2
0

P (%)

FDP, Normal

20

40

60

N. de acidentes

20 40 60
0

P (%)

80

FDA, Normal

20

40

60

N. de acidentes
> ############ Grfico da Funo Distribuio Acumulada da distribuio Poisson
############
> x=0:70
> y=100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE);
> names(y)=x;
> plot(y,ylim=c(0,100), type="h", xlim=c(0,75), lwd=2, bty="l", main="FDA, Normal", xlab = "N. de
acidentes",ylab = "P (%)")

QUESTO ED3 OK
Sejam X1 ~ N(150,30), X 2 ~ N(200,20) e X 3 ~ N(100,14) independentes. Seja X = X 1 X 2 + X 3 tambm
com distribuio normal. Calcule P(47 X 58).
12

Propriedades da Esperana
1) Dada uma constante a, temos:
E(a + X) = a + E(X)
E(a . X) = a . E(X)
2) Sejam X1, X2,..., Xn variveis aleatrias
E(X1 X2 ... Xn) = E(X1) E(X2) ... E(Xn)
3) Sejam X e Y variveis aleatrias independentes. Ento,
E(X.Y) = E(X) . E(Y)
Propriedades da varincia
a) Dada uma constante a, temos:
V(X + a) = V(X)
V(a . X) = a 2 . V(X)
b) Sejam X1, X2,..., Xn, n variveis aleatrias independentes. Ento
V(X1 X2 ... Xn) = V(X1) + V(X2) +... + V(Xn) ; As varincias sempre se somam.
E(X) = E(X1 - X2 + X3) = E(X1) - E(X2) + E(X3) = 150 - 200 + 100 = 50
V(X) = V(X1 - X2 + X3) = V(X1) + V(X2) + V(X3) = 30 + 20 + 14 = 64
Logo, X ~ N(50, 64)
> media = 150 - 200 + 100
> #media = 50
> variancia = 30 + 20 + 14
> #variancia = 64
>
> desvioPadrao = sqrt(variancia)
> desvioPadrao
[1] 8
>
> #Calcular P(47 X 58).
>
> #Normalizando: Z ~ N(0, 1)
> z1 = (47 - media) / desvioPadrao
> z1
[1] -0.375
>
> z2 = (58 - media) / desvioPadrao
> z2
[1] 1
> # Utilizando uma tabela de Distribuio Normal Padro, pode-se calcular das seguintes formas:
>
> # P(47 X 58) = P(-0.2590674 Z 0.6908463)
>
> #Tabela P(0 Z z) = p
> # P(-0.6123724 Z 1.632993) = P(0 Z 0.6123724) + P(0 Z 1.632993)
> #Tabela P(Z z) = p
> # P(-0.6123724 Z 1.632993) = - P(Z -0.6123724) + P(Z 1.632993)
> #Tabela P(Z > z) = p
> # P(-0.6123724 Z 1.632993) = P(Z > -0.6123724) - P(Z > 1.632993)
>

13

> # Utilizando funes R:


>
>
> #P = pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail
logical; if TRUE (default), probabilities are P[X x]
> p1 = pnorm(q = 47, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> p2 = pnorm(q = 58, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> P = p2 - p1
>P
[1] 0.4875145
>
> #P = pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
> p1 = pnorm(q = 47, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> p2 = pnorm(q = 58, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> P = p1 - p2
>P
[1] 0.4875145

P(47 X 58) = 0,4875145 49%


QUESTO ED4 OK
Que caractersticas pretende-se realar quando se representa um conjunto de dados sob a forma de um
histograma e de um diagrama de sries temporais?
O histograma fornece uma impresso visual da forma da distribuio das medidas, assim como
informao sobre a tendncia central e o espalhamento ou disperso dos dados. Essa disposio grfica
fornece, frequentemente, discernimento acerca de possveis escolhas de distribuies de probabilidades
para usar como um modelo para a populao. (Montgomery)
A tendncia central caracterizada pelo valor (ou faixa de valores) tpicos da varivel.
A disperso, ou variabilidade, permite representar o quanto os dados variam.
A forma diz respeito concentrao dos dados, de forma a classificar a distribuio quanto simetria:
Tipos bsicos:
Simtrico (valores igualmente distribudos em torno de um valor mais provvel);
Assimtrico:
Concentrao esquerda (assimetria com concentrao esquerda ou assimetria com cauda
direita);
Concentrao direita (assimetria com concentrao direita ou com assimetria cauda
esquerda);
O diagrama de sries temporais frequentemente permitem enxergar tendncias, ciclos ou outras
caractersticas dos dados que no poderiam ser vistas de outra forma. (Montgomery)
Um dos objetivos do estudo de sries temporais conhecer o comportamento da srie ao longo do tempo
(aumento, estabilidade ou declnio dos valores). Em alguns estudos, esse conhecimento pode ser usado
para se fazer previses de valores futuros com base no comportamento dos valores passados.
QUESTO ED5
Sries histricas de produo de petroqumicos e vazo de efluentes orgnicos de uma determinada
empresa foram avaliados considerando mdias anuais de 4 anos. O engenheiro responsvel por esse
processo informou que com o aumento de produo h um maior consumo de matrias primas e insumos,
14

e que no 2 ano houve muitas paradas na planta. Discuta o que acontece com a vazo de efluentes, e sua
relao com a produo, considerando estas informaes. (2,5 PONTOS)

Quando a produo est menor, e portanto menor quantidade de matrias primas e insumos so
consumidos, h um desperdcio maior, causando aumento da vazo de efluentes.
Quando a produo aumenta, as matrias primas e insumos so melhor utilizados, de forma que o
desperdcio diminui, causando consequentemente reduo da vazo de efluentes.
No 2 ano, em funo da maior quantidade de paradas, os ndices variaram consideravelmente. No
entanto, possvel perceber que, a medida que a produo aumenta, a variabilidade da produo diminui,
ao passo que, se a produo continuar aumentando, a variabilidade da vazo de efluentes parece tender a
aumentar, ou seja, deve haver um ponto timo de produo que implique em melhor consumo e
consequentemente menor vazo de efluentes.
Quando h maior
QUESTO ED6
Discos de alumnio so produzidos e a cada 15 minutos 3 discos so retirados da linha e pesados. Os
dados obtidos durante um perodo de quase 7 horas esto apresentados na tabela abaixo. Estime e analise
criticamente as estatsticas de mdia e varincia do peso dos discos de alumnio (g).
N

Tempo

Obs

Amostra

Peso

Tempo

Obs

Peso

Tempo

Obs

Amostr
a
10

9:00

29

11:15

9:00

30

9:00

170,38
4
169,81
7
170,66
7

31

Amostr
a
19

170,667

13:30

11:15

10

170,384

11:30

11

171,234

5
7
5
8
5
9

Peso
170,384

13:45

20

170,667

13:45

20

170,667

15

9:15

9:15

9:15

9:30

9:30

9:30

1
0
11

9:45

9:45

1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
4
2
5
2
6
2
7
2
8

9:45

10:00

10:00

10:00

10:15

10:15

10:15

10:30

10:30

10:30

10:45

10:45

10:45

11:00

11:00

11:00

11:15

10

169,53
3
169,81
7
170,38
4
170,95
1
170,66
7
170,66
7
170,66
7
170,95
1
170,66
7
170,10
0
169,81
7
170,38
4
169,81
7
170,10
0
170,10
0
170,66
7
170,38
4
170,10
0
170,38
4
170,95
1
170,38
4
170,38
4
170,66
7
170,10
0
170,10
0

32

11:30

11

170,667

33

11:30

11

170,951

34

11:45

12

170,667

35

11:45

12

170,384

36

11:45

12

170,100

37

12:00

13

170,951

38

12:00

13

170,667

39

12:00

13

171,234

40

12:15

14

170,667

41

12:15

14

170,667

42

12:15

14

170,951

43

12:30

15

170,951

44

12:30

15

170,667

45

12:30

15

170,951

46

12:45

16

170,951

47

12:45

16

170,100

48

12:45

16

170,384

49

13:00

17

171,234

50

13:00

17

170,667

51

13:00

17

170,951

52

13:15

18

171,518

53

13:15

18

170,667

54

13:15

18

171,234

55

13:30

19

170,951

56

13:30

19

171,234

6
0
6
1
6
2
6
3
6
4
6
5
6
6
6
7
6
8
6
9
7
0
7
1
7
2
7
3
7
4
7
5
7
6
7
7
7
8
7
9
8
0
8
1
8
2
8
3
8
4

13:45

20

170,667

14:00

21

171,234

14:00

21

171,518

14:00

21

170,951

14:15

22

171,801

14:15

22

170,951

14:15

22

171,234

14:30

23

171,518

14:30

23

171,234

14:30

23

170,667

14:45

24

171,518

14:45

24

171,234

14:45

24

170,951

15:00

25

171,234

15:00

25

171,801

15:00

25

171,518

15:15

26

171,518

15:15

26

170,951

15:15

26

171,234

15:30

27

170,951

15:30

27

171,234

15:30

27

170,951

15:45

28

171,801

15:45

28

171,801

15:45

28

171,518

O Teorema central do limite um importante resultado da estatstica e a demonstrao de muitos outros teoremas
estatsticos dependem dele. Em teoria das probabilidades, esse teorema afirma que quando o tamanho da amostra
aumenta, a distribuio amostral da sua mdia aproxima-se cada vez mais de uma distribuio normal. (Wikipedia)

QUESTO ED7

16

Uma determinada empresa qumica faz uso


de gua superficial e de poos no seu
processo produtivo, o qual inclui a operao
de trs plantas (figura 1). Um indicador do
consumo de gua (ICA) foi construdo
considerando a relao entre captao total
de gua (ou consumo de gua) e produo
total. Analise criticamente qual a influncia
da variabilidade dos dados no indicador,
considerando as figuras 2 (a) e (b). (2,5
PONTOS)

ICA (m3
INDSTRIA
gua /
CONS
t
U
Planta 1
POOS
DE
MCAPTAO produ
DE
Planta 2
OGUA BRUTA
o)
(1,

Produo

DE2, 3, 4)
G
POO
UA INTERNO
GUA CLARIFICADA
(AGC)

Planta 3

GUA
DESMINERALIZA
DA (AGC)
GUA POTVEL
(AGP)
VAPOR DE ALTA E
MDIA PRESSO
(V-42 e V-15)
Figura 1: Balano hdrico.

(a)
17

(b)
Figura 2: Grficos de disperso da produo de captao de gua total (a) e por tipo de gua (b).

DISTRIBUIES DE PROBABILIDADE
QUESTO DP1 OK
A funo de densidade de probabilidade do comprimento de uma barra de metal f(x)=2,0, para 2,3 < x <
2,8. Se as especificaes para este processo so de 2,25 a 2,75 metros, que proporo de barras no se
encontra dentro das especificaes? (2,5 PONTOS)
+

Para f(x) ser funo densidade,

f ( x ) dx=1

18

2.0
1.5

2.5

FDP

2.2
>
>
>
>
>
>
>

2.3

2.4

2.5

2.6

2.7

2.8

2.9

2.7

2.8

2.9

#FDP
par(mar=c(3, 3, 2, 1))
x = c(2.3, 2.8)
y = c(2, 2)
plot(x, y, type="b", xlim = c(2.2, 2.9), main = "FDP")
grid()

0.0

0.2

0.4

0.6

0.8

1.0

FDA

2.2
>
>
>
>
>

2.3

2.4

2.5

2.6

#FDA
x = c(2.2, 2.3, 2.8, 2.9)
y = c(0, 2*2.3-4.6, 2*2.8-4.6, 2*2.8-4.6)
plot(x, y, type="l", axes=FALSE, main = "FDA")
grid()

19

> axis(side=1, at=seq(2.2, 2.9, 0.1))


> axis(side=2, at=seq(0, 1, length.out = 6))
> box()

QUESTO DP2 OK
A funo de densidade de probabilidade do peso lquido, em libras, de um pacote de herbicida qumico
f(x)=2,0 para 49,75 < x < 50,25 libras. Se as especificaes para este processo so 49,0 a 50,0 libras.

2.0
1.5

2.5

FDP

49.00
>
>
>
>
>
>
>
>
>

49.25

49.50

49.75

50.00

50.25

50.50

par(mar=c(3, 3, 2, 1))
x = c(49.75, 50.25)
y = c(2, 2)
plot(x, y, type="b", xlim = c(49, 50.5), main = "FDP", axes=FALSE)
axis(side=1, at=seq(48, 52, 0.25))
axis(side=2, at=c(1.5, 2, 2.5))
grid()
box()

20

0.0

0.2

0.4

0.6

0.8

1.0

FDA

49.00
>
>
>
>
>
>
>
>

49.25

49.50

49.75

50.00

50.25

50.50

#FDA
x = c(49, 49.75, 50.25, 50.5)
y = c(0, 2*49.75-99.5, 2*50.25-99.5, 2*50.25-99.5)
plot(x, y, type="l", xlim = c(49, 50.5), axes=FALSE, main = "FDA")
axis(side=1, at=seq(48, 52, 0.25))
axis(side=2, at=seq(0, 1, length.out = 6))
grid()
box()

a) Determine a proporo de barras no se encontra dentro das especificaes.


b) Quanto produto qumico est contido em 90% de todos os pacotes?
c) Calcule a mdia e a varincia.

21

Referncia: Apostila MAT236

QUESTO DP3 OK
O tempo gasto no vestibular de uma determinada universidade tem distribuio normal, com mdia 120
min e desvio padro de 15 min. (a). Sorteando um aluno ao acaso, qual a probabilidade que ele termine o
exame antes de 100 min. (b) Qual deve ser o tempo de prova de modo a permitir que 95% dos
vestibulandos terminem no prazo estipulado.
> ### DP3
> par(mar=c(3, 3, 2, 1))
>
> media = 120 #min
> desvioPadrao = 15 #min
> ############ Grfico da Funo de Probabilidade da distribuio Normal
############
> x = (media-3.5*desvioPadrao):(media+3.5*desvioPadrao)
> y = 100 * dnorm(x, mean = media, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(120, 15)", xlab =
"tempo",ylab = "P (%)")

22

1.5
1.0
0.0

0.5

P (%)

2.0

2.5

FDP, N(120, 15)

80

100

120

140

160

> ############ Grfico da Funo Distribuio Acumulada da distribuio Normal


############
> x = (media-3.5*desvioPadrao):(media+3.5*desvioPadrao)
> y = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE);
> names(y)=x;
> plot(x, y,ylim=c(0,100), type="l", lwd=2, bty="l", main="FDA, N(120, 15)", xlab = "tempo",ylab
= "P (%)")

60
40
0

20

P (%)

80

100

FDA, N(120, 15)

80

100

120

140

160

> #a) Sorteando um aluno ao acaso, determinar a probabilidade de ele terminar o exame antes de
100 min
> x = 100 #min
> z = (x - media) / desvioPadrao

23

> z #Consultar P(Z z) na Tabela da Normal Padronizada


[1] -1.333333
> prob = 100 * pnorm(q = z, mean = 0, sd = 1, lower.tail = TRUE)
> #lower.tail
logical; if TRUE (default), probabilities are P[X x]
> prob
[1] 9.121122
>
> #diretamente:
> prob = 100 * pnorm(q = x, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail
logical; if TRUE (default), probabilities are P[X x]
> prob
[1] 9.121122
>
> paste0("Um aluno ao acaso tem ", round(prob, 2), "% de chance de concluir antes de 100 min.")
[1] "Um aluno ao acaso tem 9.12% de chance de concluir antes de 100 min."
>
> #b) Determinar qual deve ser o tempo de prova de modo a permitir que 95% dos vestibulandos
terminem no prazo estipulado
> prob = 95 #%
> prob = prob/100
> prob
[1] 0.95
>
> #z #Consultar Z da tabela da Normal Padro
> z = qnorm(p = prob, mean = 0, sd = 1, lower.tail = TRUE)
> #lower.tail
logical; if TRUE (default), probabilities are P[X x]
>z
[1] 1.644854
> #z = (x - media) / desvioPadrao
> x = (z * desvioPadrao) + media
>x
[1] 144.6728
>
> #diretamente:
> x = qnorm(p = prob, mean = media, sd = desvioPadrao, lower.tail = TRUE)
> #lower.tail
logical; if TRUE (default), probabilities are P[X x]
>x
[1] 144.6728
>
> paste0("So necessrios ", round(x, 2), " minutos de tempo de prova.")
[1] "So necessrios 144.67 minutos de tempo de prova."

QUESTO DP4 OK
Suponha que a relao entre a fora aplicada x e o tempo at a falha y seja descrita por um modelo de
regresso linear simples com uma reta de regresso real y = 65-1,2x e = 8. Portanto, para qualquer valor
fixo x* de fora, o tempo at a falha tem uma distribuio normal com valor mdio 65-1,2x* e desvio
padro 8. Para x = 20, estime a probabilidade de que o tempo de falha (y) ultrapasse 50 quando a fora
aplicada (x) for igual a (a) 20 e (b) 25. Compare os resultados nas letras (a) e (b) de forma grfica com
base na funo de distribuio de probabilidade normal.
> ### DP4
> par(mar=c(3, 3, 2, 1))
>

24

> # x -> Fora aplicada


> # y -> Tempo at a falha
> # Modelo: y = 65-1.2*x e = 8
>
> # x* ser representado por xq
> # Tempo at a falha ~ Normal(65-1.2*xq, 8)
> # onde xq representa qualquer valor fixo de fora
>
> desvioPadrao = 8
>
> # Estimar a probabilidade de o tempo at a falha (y) ultrapassar 50 quando a
> #fora aplicada (x) for igual a:
> #a) 20
> x1 = 20
> y1 = 65-1.2*x1
> y1
[1] 41
> #z = (50 - y1) / desvioPadrao
> #z #Consultar P(Z > z) na Tabela da Normal Padronizada
>
> #P(y > 50)
> prob = 100 * pnorm(q = 50, mean = y1, sd = desvioPadrao, lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
> prob
[1] 13.02945
> paste0("Probabilidade de ", round(prob, 2), "% de tempo at falha ultrapassar 50")
[1] "Probabilidade de 13.03% de tempo at falha ultrapassar 50"
>
>
> #b) 25
> x2 = 25
> y2 = 65-1.2*x2
> y2
[1] 35
> #z = (50 - y2) / desvioPadrao
> #z #Consultar P(Z > z) na Tabela da Normal Padronizada
>
> #P(y > 50)
> prob = 100 * pnorm(q = 50, mean = y2, sd = desvioPadrao, lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
> prob
[1] 3.039636
> paste0("Probabilidade de ", round(prob, 2), "% de tempo at falha ultrapassar 50")
[1] "Probabilidade de 3.04% de tempo at falha ultrapassar 50"
>
> #Concluso: Quanto maior a fora aplicada, maior a susceptibilidade falha.
>#
Quanto mais fora aplicada, mais rpido dever falhar.
> par(mfrow = c(1, 1))
> #Comparao grfica:
> x = (min(y1, y2)-3.5*desvioPadrao):(max(y1, y2)+3.5*desvioPadrao)
> y = 100 * dnorm(x, mean = y1, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, Normal(, )", xlab = "N. de
acidentes",ylab = "P (%)", col = "blue")

25

> abline(v=50, col = "black", lty = "dotted")


> ###### Pintando rea sob a curva 1: ##############
> cord.x <- c(50, seq(50, max(x), 0.01), max(x))
> cord.y1 <- c(0, dnorm(seq(50, max(x), 0.01), y1, desvioPadrao), 0) * 100
> polygon(cord.x,cord.y1,col='skyblue')
> ################################################
> par(new=TRUE)
> y = 100 * dnorm(x, mean = y2, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l",lty="dotted", lwd=2, bty="o", main="FDP, Normal(, )",
xlab = "N. de acidentes",ylab = "P (%)", col = "red")
> # Adiciona legenda imagem:
> legend(52, 4.5, legend=c("N(20, 8)","N(25, 8)"), lty=c("solid", "dotted"),
col=c("blue","red"),lwd=3,bty="n")
> ###### Pintando rea sob a curva 2: ##############
> #cord.y2 <- c(0, dnorm(seq(50, max(x), 0.01), y2, desvioPadrao), 0) * 100
> #polygon(cord.x,cord.y2,col='skyblue')
> ################################################

FDP, Normal(, s)

3
0

P (%)

N(20, 8)
N(25, 8)

10

20

30

40

50

60

70

> ### Plotando os dois grficos lado a lado: #####


> par(mfrow = c(1, 2))
> #Comparao grfica:
> x = (min(y1, y2)-3.5*desvioPadrao):(max(y1, y2)+3.5*desvioPadrao)
> y = 100 * dnorm(x, mean = y1, sd = desvioPadrao);
> names(y)=x;
> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(20, 8)", xlab = "N. de
acidentes",ylab = "Densidade f(x)")
> ###### Pintando rea sob a curva 1:
> cord.x <- c(50, seq(50, max(x), 0.01), max(x))
> cord.y1 <- c(0, dnorm(seq(50, max(x), 0.01), y1, desvioPadrao), 0) * 100
> polygon(cord.x,cord.y1,col='skyblue')
> ################################################
> y = 100 * dnorm(x, mean = y2, sd = desvioPadrao);
> names(y)=x;

26

> plot(x, y,ylim=c(0,max(y)), type="l", lwd=2, bty="o", main="FDP, N(25, 8)", xlab = "N. de
acidentes",ylab = "P (%)")
> ###### Pintando rea sob a curva 2:
> cord.y2 <- c(0, dnorm(seq(50, max(x), 0.01), y2, desvioPadrao), 0) * 100
> polygon(cord.x,cord.y2,col='skyblue')
> #####################################
> # A rea sob a curva em azul, N(20, 8), maior do que a rea sob a curva em vermelho, N(25,
8).
> #portanto, a h uma maior probabilidade de durar mais tempo quando a fora aplicada menor.

4
3
0

P (%)

3
2
1
0

Densidade f(x)

FDP, N(25, 8)

FDP, N(20, 8)

10 20 30 40 50 60 70

10 20 30 40 50 60 70

27

QUESTO DP5 OK
Dois estudantes foram informados de que alcanaram as variveis reduzidas (Z) de 0,8 e -0,4,
respectivamente, em um exame de mltipla escolha de ingls. Se seus rendimentos foram 88 e 64,
respectivamente:
a) Determinar a mdia e o desvio padro dos rendimentos do exame.
b) Determinar a probabilidade de um estudante alcanar um rendimento maior que 96.
>
>
>
>
>
>
>
>
>
>
>
>
>

### DP5
par(mar=c(3, 3, 2, 1))
z1 = 0.8
x1 = 88
z2 = -0.4
x2 = 64
#a) Determinar a mdia e o desvio padro dos rendimentos do exame.
# As notas dos alunos foram normalizadas, para isso,
#a mdia e o desvio padro devem ser fixos, logo:

28

> #sabendo que a normalizao dada por: z = (x - media) / desvioPadrao


>
> #onde:
>
> # z1 = (x1 - media) / desvioPadrao
> # z2 = (x2 - media) / desvioPadrao
>
> # desvioPadrao = (x1 - media) / z1
> # desvioPadrao = (x2 - media) / z2
>
> # desvioPadrao = desvioPadrao, logo:
> # (x1 - media) / z1 = (x2 - media) / z2
> # x1 - media = (x2 - media) * (z1 / z2)
> # x1 - media = x2 * (z1 / z2) - media * (z1 / z2)
> # x1 - media + media * (z1 / z2) = x2 * (z1 / z2)
> # media * (-1 + (z1 / z2)) = -x1 + x2 * (z1 / z2)
> media = (-x1 + x2 * (z1 / z2) ) / (-1 + (z1 / z2))
> media
[1] 72
>
> # desvioPadrao = (x1 - media) / z1
> desvioPadrao = (x2 - media) / z2
> desvioPadrao
[1] 20
>
> paste0(" = ", media, ", = ", desvioPadrao)
[1] " = 72, s = 20"
> paste0("Rendimento ~ N(", media, ", ", desvioPadrao,")")
[1] "Rendimento ~ N(72, 20)"
>
> #b) Determinar a probabilidade de um estudante alcanar um rendimento maior que 96.
>
> z = (96 - media) / desvioPadrao
> z #Consultar P(Z > z) na Tabela da Normal Padronizada
[1] 1.2
>
> #Atravs do RStudio:
> prob = 100 * pnorm(q = 96, mean = media, sd = desvioPadrao, lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
> prob
[1] 11.50697
>
> paste0("P(Rendimento > 96) = ", round(prob, 2), "%.")
[1] "P(Rendimento > 96) = 11.51%."

INFERNCIA
QUESTO I1 OK
Abaixo so apresentadas 20 medidas do tempo residual de inflamabilidade (em segundos) de um
determinado tecido. Determine um intervalo de confiana de 95% para o tempo residual mdio de
inflamabilidade. Interprete o resultado.
9,85

9,93

9,75

9,77

9,67

9,87

9,67

9,94

9,85

9,75
29

9,83

>
>
>
>
>

9,92

9,74

9,99

9,88

9,95

9,95

9,93

9,92

#I1:
closeAllConnections()
rm(list=ls())
#Tempo residual de inflamabilidade (em segundos) de um determinado tecido:
dados = c("9,85
9,93
9,75
9,77
9,67
9,87
9,67
9,94
9,75
+ 9,83 9,92
9,74
9,99
9,88
9,95
9,95
9,93
9,92
9,89")
> #### Dados inseridos com vrgula como decimal, so inseridos como CHAR,
> ##Os tratamentos a seguir os transformam em nmeros com ponto como decimal.
> library("stringr", lib.loc="~/R/win-library/3.3")
> dados = str_replace_all(dados, pattern = " ", "")
> dados = str_replace_all(dados, pattern = ",", ".")
> dados = str_replace_all(dados, pattern = "\t", ",")
> dados = str_replace_all(dados, pattern = "\n", ",")
> dados = strsplit(dados, ",")
> #Transformar em vetor coluna de dados numricos
> dados = data.matrix(as.numeric(unlist(dados)))
> class(dados)
[1] "matrix"
> dim(dados)
[1] 20 1
> str(dados)
num [1:20, 1] 9.85 9.93 9.75 9.77 9.67 9.87 9.67 9.94 9.85 9.75 ...
> dados
[,1]
[1,] 9.85
[2,] 9.93
[3,] 9.75
[4,] 9.77
[5,] 9.67
[6,] 9.87
[7,] 9.67
[8,] 9.94
[9,] 9.85
[10,] 9.75
[11,] 9.83
[12,] 9.92

9,89

9,85

30

[13,] 9.74
[14,] 9.99
[15,] 9.88
[16,] 9.95
[17,] 9.95
[18,] 9.93
[19,] 9.92
[20,] 9.89
> ## ALTERNATIVAMENTE:
> #Ajustar todos os dados para o padro R
> #dados = c(9.85,
9.93,
9.75,
9.77,
9.67,
9.87,
9.67,
9.94,
9.85,
9.75,
>#
9.83,
9.92,
9.74,
9.99,
9.88,
9.95,
9.95,
9.93,
9.92, 9.89)
> hist(dados)
> plot(dados)
> #Estimadores:
> mediaAmostral = mean(dados)
> mediaAmostral # X-Barra
[1] 9.8525
> #Desvio padrao estimado
> s = sd(dados)
> s #com desconhecido, estima-se s
[1] 0.09645697
> #Intervao de confiana de (1-)*100 = 95%
> #Nvel de significncia = 5% = 0.05
> n = length(dados)
>n
[1] 20
> #As observaes no so Normais, no entanto espera-se que as mdias sigam distribuio normal
> #Admitindo normalidade de mdias, com amostra pequena de n elementos (n < 30)
> #e desvio padro desconhecido:
> #com desconhecido, estima-se o desvio atravs de s
> # T = (mediaAmostral - ) / (s / sqrt(n)) ~ t(n-1)
> #Intervalo de confiana:
> #IC = [, 100(1-)%] = mediaAmostral ( t(/2, n-1) * s/sqrt(n) )
> #IC = [, 100(1-)%] = [mediaAmostral - ( t(/2, n-1) * s/sqrt(n) ); mediaAmostral + ( t(/2, n-1) *
s/sqrt(n) )]
> = 0.05 #5%, nvel de significncia
>n
#tamanho da amostra
[1] 20
> #distribuio t-Student
> t = qt(p = (/2), df = (n-1), lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
>t
[1] 2.093024
> IC = c( mediaAmostral - (t * s/sqrt(n)), mediaAmostral + (t * s/sqrt(n)) )
> IC
[1] 9.807357 9.897643
> #Alternativamente, utilizando funo do R:
> t.test(x = dados, alternative = "two.sided", mu = mediaAmostral, conf.level = 0.95)
One Sample t-test
data: dados
t = 0, df = 19, p-value = 1

31

alternative hypothesis: true mean is not equal to 9.8525


95 percent confidence interval:
9.807357 9.897643
sample estimates:
mean of x
9.8525
> ###
> #Para um grau de confiana de 95%, o Intervalo de confiana,
> #IC = [9.807357, 9.897643]
> #Espera-se que o tempo residual mdio de inflamabilidade esteja continho no intervalo IC com
95% de confiana.

QUESTO I2 OK
A tenso de ruptura dos cabos produzidos por um fabricante apresenta a mdia de 1800kg e o desvio
padro de 100kg. Mediante nova tcnica no processo de fabricao, proclamou-se que a tenso de ruptura
pode ter aumentado. Para testar essa declarao, ensaiou-se uma amostra de 50 cabos, tendo-se
determinado a tenso mdia de ruptura de 1850kg. Pode-se confirmar a declarao com nvel de
significncia 0,01?
> #I2:
> closeAllConnections()
> rm(list=ls())
> # Processo:
> = 1800 #kg
> = 100 #kg
> #Amostra:
> n = 50 #tamanho amostral
> mediaAmostral = 1850 #kg
> ##Testar suspeita de que a mdia aumentou:
> #Teste de hipteses para a mdia populacional com conhecido e n 30.
> = 0.01 #1%, nvel de significncia
> z = (mediaAmostral - ) / ( / sqrt(n))
> #Teste Unilateral Direita
> # H0: = 1800 ( 1800)
Mdia no aumentou
> # H1: > 1800
Mdia aumentou
> #Rejeitar H0 se z > z
> z = qnorm(p = 1-, mean = 0, sd = 1, lower.tail = TRUE)
> #lower.tail
logical; if TRUE (default), probabilities are P[X x]
> z = qnorm(p = , mean = 0, sd = 1, lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
> #Deciso:
> paste0("H0: = 0 ( <= 0); H1: Mdia aumentou")
[1] "H0: = 0 ( <= 0); H1: Mdia aumentou"
> if (z > z) { paste0("Rejeitar H0") } else { paste0("No rejeitar H0") }
[1] "Rejeitar H0"
> ######Teste pelo P-Valor para Normal unilateral:
> #z = (mediaAmostral - ) / ( / sqrt(n))
> p.valor = pnorm(q = abs(z), mean = 0, sd = 1, lower.tail = FALSE)
> #lower.tail
logical; if FALSE, probabilities are P[X > x].
> if (p.valor > ) { paste0("No rejeitar H0") } else { paste0("Rejeitar H0") }
[1] "Rejeitar H0"

32

Concluso: Ao nvel de confiana de 99%, verifica-se que h evidncias suficientes para suspeitar que a
tenso de ruptura dos cabos aumentou.
QUESTO I3
O desempenho de dois catalisadores est sendo testada de forma a determinar-se se eles exigem tempos
diferentes de imerso para a remoo de quantidades idnticas de material fotorressistente. Doze lotes
foram submetidos ao catalisador 1, resultando em uma mdia amostral do tempo de imerso de 24,6
minutos e em um desvio padro de 0,85 minutos. Quinze lotes foram submetidos ao catalisador 2,
resultando em um tempo mdio de imerso de 22,1 minutos e um desvio padro de 0,98 minutos.
Verifique se h diferena significativa entre o desempenho dos catalisadores considerando um nvel de
significncia de 5% considerando:

Os desvios populacionais so desconhecidos assim, estes foram estimados. No sendo possvel identificar se as varincias so
iguais ou diferentes, inferiu-se sobre o desempenho em cada caso. Para cada caso, para 95% de confiana, os desempenhos de
cada catalisador so diferentes.

33

Montgomery, 4Ed, p. 213-214

a) Intervalo de confiana. Justifique sua resposta.


b) Teste de hipteses. Justifique sua resposta.
O zero no faz parte do intervalo, logo a diferena entre as mdias diferente de zero, portanto, os
processos so diferentes.
QUESTO I4 OK
n Z 2 ( )(1 ) ( p ) 2

Dado que a expresso para o tamanho da amostra para a proporo


,
descreva detalhadamente como maximizar n se o parmetro desconhecido? Lembre-se: a
proporo da populao.
> #I4:
> #Montgomery, 196-197
> #TRIOLA, 273-274
> # n = Z()(1-) / (p-)
> #A expresso mostra que o tamanho amostral no depende do tamanho N da populao; o
tamanho amostral depende do nvel de confiana desejado, que aparece na estatstica Z, e da
margem de erro dada por (p-) no denominador.
> #Para maximizar o tamanho amostral, toma-se a primeira derivada da parcela ()(1-) igualando
zero para determinar o mximo local:
> # d[(1-)]/d = 0
> # 1.(1-) + .(-1) = 0
> # 1-- = 0
> # -2 = -1
> # = 1/2 = 0.5
> #Ou seja, (1-) mximo quando = 0.5. Quando no se tem informao alguma a respeito da
proporo de uma populao, razovel supor que esta proporo esteja dividida igualmente,
=0.5 e (1-)=0.5, para n suficientemente grande.
> #Logo, definida uma margem de erro e o nvel de confiana da estatstica, o tamanho amostral
pode ser maximizado fazendo = 0.5.
> #Parece comum tratar essa suposio como um abordagem conservadora ou otimista.
> #Ou ainda, fazendo a primeira derivada igual a zero considerando a parcela do erro:
> # d[ ()(1-) / (p-) ]/d = 0
> #obtem-se:

34

> # = p / (2p-1), tal que a funo tem assintota vertical em p=1/2. (e assintota horizontal em
=1/2)
> #Dessa forma interessante que o pesquisador defina o erro admissvel, (p-).
2

n=

Z ( )(1 )
( p )2

d (1 )
d
QUESTO I5 OK
Deseja-se estimar a resistncia mdia de certo tipo de pea com preciso de 2kg e 95% de confiana.
Desconhecendo-se a variabilidade dessa resistncia, roperam-se cinco peas, obtendo-se para elas os
seguintes valores de sua resistncia (em kg): 50,58,52,49,55. Com base no resultado obtido, determinouse que deveriam ser rompidas mais quinze peas, a fim de se conseguir o resultado desejado. Qual sua
opinio a respeito dessa concluso?
> #I5:
> setwd(dir = "K:/2016_1 UFBA/ENGD02/Statistics R WDir")
> closeAllConnections()
> rm(list=ls())
>
############################################################
#########
> dados = c(50,58,52,49,55)
> erro = 2 #kg
> = 0.05 #5%, nvel de significncia
> s = sd(dados)
>s
[1] 3.701351
> n = length(dados)
>n
[1] 5
> #distribuio t-Student
> t = qt(p = (/2), df = (n-1), lower.tail = FALSE)
>t
[1] 2.776445
> n = ( t * s/erro )^2
> n = ceiling(n)
> n #n = 27
[1] 27
> #distribuio t-Student
> #Calculando a nova probabilidade t com df=27-1:
> t = qt(p = (/2), df = (n-1), lower.tail = FALSE)
>t
[1] 2.055529
> #Calculando novo n, com erro=2kg:
> n = ( t * s/erro )^2
> n = ceiling(n)
> n #N = 15
[1] 15

QUESTO I6
Foram realizados testes sobre a fora de trao em duas classes diferentes de ligas de alumnio usadas na
fabricao de avies de transporte comerciais. Pela experincia passada com o processo de fabricao de
35

ligas e pelo procedimento de teste, se supem conhecidos os desvios padres das foras de trao. Os
dados obtidos so apresentados na tabela abaixo:
Classe de
liga
1
2

Tamanho da
amostra
10
12

Fora de trao amostral mdia


(kg/mm2)
87,6
74,5

Desvio padro
(kg/mm2)
1,0
1,5

Se 1 e 2 representam as verdadeiras foras mdias de trao para as duas classes de ligas, encontre um
intervalo de confiana de 90% para a diferena das mdias. Interprete o resultado.
QUESTO I7
A empresa gua de Poo fornece gua engarrafada para as casas do permetro municipal em vasilhames
de 15 litros. O gerente quer estimar o nmero mdio de vasilhames que uma casa usa por ms. Uma
amostra de 75 casas selecionada e o nmero de vasilhames registrado igual a 3,2. O desvio padro
conhecido e igual a 0,78. a) O que podemos deduzir de um intervalo de confiana de 92% para a mdia
mensal de vasilhames registrados por casa? b) Considerando que o gerente acha o intervalo estimado no
item (a) muito grande, quantas casas ele deveria amostrar para construir um intervalo de 99% com erro
menor que 0,10 vasilhames?
QUESTO I8
Voc concorda com a seguinte afirmativa? Experimentos pareados so usados, dentre outras
situaes, quando difcil controlar todos os fatores que podem influenciar a varivel em estudo.
Justifique sua resposta com base no exemplo a seguir. Sugesto: Compare os resultados obtidos entre os
testes pareados e testes para amostras independentes
Exemplo: Deseja-se testar dois mtodos de anlise (A e B), que so realizados as segundas, quartas e
sextas-feiras (Seg, Qua, Sex). Dados levantados referentes aos mtodos so apresentados na tabela
abaixo.
Dia
Seg
Qua
Sex
Mdias
Varincias

Mtodo
A
B
5
3
7
5
8
6
6,67
4,67
2,3
2,3

Diferena
2
2
2
2
0

QUESTO I9
Um sistema de tratamento de gases na foi mudado com a expectativa de que a interveno pudesse
reduzir o nvel de poluio em 25 unidades, sem alterao significativa da variabilidade do processo. Ou
seja, deseja-se detectar se a mdia antes da interveno e aps a interveno diferem em 25 unidades. As
estimativas antes da interveno so: mdia = 234,3 e desvio padro = 58, baseados em uma amostra de
tamanho igual a 10. O gerente de projeto deseja determinar, com 95% de confiana, se a reduo de 25
unidades foi obtida.
QUESTO I10
Deseja-se estimar o intervalo de confiana da proporo de um experimento. Considere que h um
incremento de 20% do custo de coleta de dados a cada retorno a campo. Indique como a pesquisa deveria
ser realizada em campo de forma a minimizar o uso dos recursos financeiros, garantindo um nvel de
confiana de 90%.
36

Tratar das distribuies Z e T, tratar da definio do ERRO esperado, tratar do desvio da populao, se j
conhecido, se h dados histricos, e para o caso de precisar estimar baseado em alguma amostra, falar
da amostragem. (iniciar pela amostragem?)
REGRESSO LINEAR MLTIPLA
QUESTO RLM1 OK
Acredita-se que a vazo de vapor (em ton/h) usada mensalmente por uma planta qumica est relacionada
com a temperatura ambiente (em oF) daquele ms. Os usos e temperaturas dos ltimos anos esto
mostradas na tabela que segue:
Ms

Jan

Fev

Mar

Abr

Mai

Jun

Jul

Ago

Set

Out

Nov

Dez

Temp.
Vazo/1000

21
185,79

24
214,47

32
288,03

47
424,84

50
454,58

59
539,03

68
621,55

74
675,06

62
562,03

50
542,93

41
369,95

30
273,98

> closeAllConnections()
> rm(list=ls())
> par(mar=c(4,4,1,1))
> par(mfrow=c(1,1))
> setwd(dir = "K:/2016_1 UFBA/ENGD02/Statistics R WDir")
> planta = read.table(file = "RegressaoLinearMultipla/RLM1/PlantaQuimica.txt", header = TRUE, dec
= ',')
> #Importante: Deve haver um \n ao fim do vetor de dados no arquivos .txt para evitar um alerta no
RStudio
> #Transpor matriz mantendo os nomes do caberio:
> planta = setNames(data.frame(t(planta[,-1])), planta[,1])
> modelo = lm(planta$`Vazo/1000` ~ planta$Temp.) #Modelo Linear
> summary(modelo)
Call:
lm(formula = planta$`Vazo/1000` ~ planta$Temp.)
Residuals:
Min
1Q Median
3Q
Max
-11.528 -8.467 -6.977 -6.130 81.014
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.2621 23.0726 -0.141
0.89
planta$Temp. 9.3036
0.4673 19.910 2.24e-09 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 26.88 on 10 degrees of freedom
Multiple R-squared: 0.9754,
Adjusted R-squared: 0.9729
F-statistic: 396.4 on 1 and 10 DF, p-value: 2.243e-09
> plot(planta$Temp.)

Avaliando as probabilidades Pr(>|t|), verifica-se que o coeficiente da Temperatura diferente de Zero,


comparando a qualquer nvel de significncia, j que a probabilidade da ordem de 10-9. O coeficiente de
interceptao (coeficiente linear) por sua vez, no pode ser considerado como diferente de Zero j que a
probabilidade muito alta, ou ainda, adotando um nvel de significncia, = 5%, a hiptese nula, H0: B0
= 0, no poder ser rejeitada.
Concluso: 0 = 0 e 1 = 9.3036
37

70
60
50
40
20

30

planta$Temp.

10

12

10

12

Index

600
500
400
300
200

planta$`Vazo/1000`

> plot(planta$`Vazo/1000`)

6
Index

> plot(planta$Temp., planta$`Vazo/1000`)

38

600
500
400
300
200

planta$`Vazo/1000`

20

30

40

50

60

70

planta$Temp.
> hist(modelo$residuals)

6
4
0

Frequency

10

Histogram of modelo$residuals

-20

20

40

60

80

100

modelo$residuals
> boxplot(modelo$residuals)

39

80
60
40
20
0
> #Teste de Shapiro-Wilk -> Verificar se um conjunto de dados normal
> shapiro.test(modelo$residuals)
Shapiro-Wilk normality test
data: modelo$residuals
W = 0.41436, p-value = 4.413e-06
> boxplot(planta$Temp.)

20

30

40

50

60

70

Avaliando o p-valor do Teste de Normalidade, conclui-se que os resduos so normais, j que o p-valor
muito pequeno quando comparado a qualquer nvel de significncia.

> boxplot(planta$`Vazo/1000`) #Verificar pontos aberrantes (Valores atpicos)

40

600
500
400
300
200
>
>
>
>

#Grficos de avaliao de modelo


par(mar=c(4,5,2,2))
par(mfrow = c(2, 2))
plot(modelo)

-20

400

500

600

-1.5

-1.0

-0.5

0.0

0.5

Fitted values

Theoretical Quantiles

Scale-Location

Residuals vs Leverage

400

500

600

700

1.0

1.5

10

1
0.5

Standardized residuals

1.5
1.0
0.5

300

700

10

200

300

0.0

Standardized residuals

200

10

10

Standardized residuals

20 40 60 80

Normal Q-Q

Residuals

Residuals vs Fitted

Cook's distance
8

0.00

Fitted values

0.05

0.10

0.15

0.20

0.25

0.30

Leverage

> #R o valor que explica o quanto o modelo representa os dados.


> #R Ajustado - Penalizao do R pelo nmero de parmetros que se adiciona e tamanho amostral

a) Assuma que o modelo de regresso linear simples apropriado e ajuste o modelo de regresso
relacionando a vazo de vapor (y) e a temperatura (x).
Vazao = -3,26 + 9,30*Temp
b) Avalie a significncia do modelo de regresso.
Multiple R-squared: 0.9754,
Adjusted R-squared: 0.9729
F-statistic: 396.4 on 1 and 10 DF, p-value: 2.243e-09

41

O coeficiente de determinao mltipla, R e o R ajustado servem como parmetro para explicar a


variabilidade dos dados observados usando as variveis independentes. Como o modelo tem uma nica
varivel independente, a Temperatura, e tanto o R mltiplo quanto o R ajustado so muito prximo de 1,
pode-se concluir que 97% dos dados de vazo observados so explicados pela variao da temperatura.
A significncia melhor avaliada a partir da anlise de varincia que retorna uma estatstica F = 396.4
com p-valor da ordem de 10-9 que, para as hipteses:
H 0 : 1=0
, no existe relao linear
H 1: 1 0

, existe relao linear

e para um nvel de significncia muito pequeno, por exemplo =0,01 que retorna uma estatstica F =
F0,01 ;1 ;n2=F 0,01 ;1 ;10=6055,85
6055,85,
, conclui-se que a hiptese nula pode ser rejeitada, ou seja,
para um nvel de confiana de 99% existe relao linear entre Vazo e Temperatura (

1 0

).

c) Analise o significado de cada p-valor (P) apresentado ao lado


Predictor t-valor p-valor
fazendo-se uso do teste de hipteses. Voc faria alguma sugesto
Constant
-0.14
0.890
de alterao do seu modelo de regresso?
Temp.
19.91
0.000
Avaliando as probabilidades Pr(>|t|), verifica-se que o coeficiente da Temperatura diferente de Zero,
comparando a qualquer nvel de significncia, j que a probabilidade da ordem de 10-9. O coeficiente de
interceptao (coeficiente linear) por sua vez, no pode ser considerado como diferente de Zero j que a
probabilidade muito alta, ou ainda, adotando um nvel de significncia, = 5%, a hiptese nula,
H 0 : 0 =0
, no poder ser rejeitada.
Concluso:

=0e

= 9.3036

QUESTO RLM2 SINTETIZAR


Como identificar a existncia de correlao no linear entre as variveis? Qual a influncia de pontos
aberrantes em um modelo de regresso?
Uma relao linear uma tendncia nos dados que pode ser modelada por uma linha reta.
####
Uma relao linear uma tendncia nos dados que pode ser modelada por uma linha reta que mostra uma
taxa estvel de aumento ou reduo.
Se a relao entre duas variveis no linear, a taxa de aumento ou reduo pode mudar quando uma
varivel muda, causando um "padro curvo" nos dados. Essa tendncia curva pode ser melhor modelada
por uma funo no linear
####
A associao linear entre duas variveis avaliada usando correlao. Para predizer o valor de uma
varivel contnua a partir de uma outra varivel e para descrever a relao entre duas variveis utiliza-se
regresso (veja o prximo captulo).
O primeiro estgio em qualquer um dos casos produzir um grfico de pontos dos dados para obter
alguma ideia da forma e grau de associao entre duas variveis.
Para obter uma medida do grau de associao da relao linear entre duas variveis, usamos o coeficiente
de correlao
42

Somente relaes lineares so detectadas pelo coeficiente de correlao que acabamos de descrever
(tambm chamado coeficiente de correlao de Pearson). Nos dados abaixo, mesmo existindo uma clara
relao (no-linear) entre e , o coeficiente de correlao zero. Sempre faa o grfico dos dados de
modo que voc possa visualizar tais relaes.
####
A anlise grfica da relao entre variveis importante, mas os olhos nem sempre so um bom juiz da
intensidade de uma relao linear.
Os diagramas a seguir ilustram precisamente os mesmos dados, mas o grfico inferior menor em um
campo mais amplo (escala diferente).
Nossos olhos podem ser enganados por uma mudana de escalas, ou pela quantidade de espao em
branco em torno do aglomerado dos pontos.
Deve-se, ento, utilizar uma medida numrica para suplementar o grfico.
Coeficiente de Correlao Linear (r)
r -> mede o grau de relacionamento linear entre valores emparelhados x e y em uma
amostra.
Mede a intensidade e a direo da relao linear entre duas variveis quantitativas.
Chamado tambm de Coeficiente de Correlao de Pearson (Karl Pearson, 1857-1936).
Quanto mais prximo de 1: maior correlao negativa
Quanto mais prximo de 1: maior correlao positiva
Quanto mais prximo de 0: menor a correlao linear
O valor de r no varia se todos os valores de qualquer uma das variveis so convertidos para uma escala
diferente.
O valor de r no afetado pela escolha de x ou y. Permutando x e y, r permanece inalterado.
r: s mede a intensidade ou grau de relacionamentos lineares. No serve para medir intensidade de
relacionamentos no lineares.
http://leg.ufpr.br/~paulojus/CE003/ce003/node8.html
https://www.eecis.udel.edu/~portnoi/classroom/prob_estatistica/2006_2/lecture_slides/aula20.pdf
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-andcorrelation/basics/what-is-a-linear-relationship/
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-andcorrelation/basics/linear-nonlinear-and-monotonic-relationships/
O coeficiente de correlao sensvel a pontos aberrantes, portanto importante que o diagrama de
pontos seja analisado.
O coeficiente de determinao mltipla, R e o R ajustado servem como parmetro para explicar a
variabilidade dos dados observados usando as variveis independentes. Quando R ajustado mais
prximo de 1, indica que existe relao linear, no entanto deve-se tomar cuidado pois a adio de
variveis aumenta o valor de R.
Para avaliar a existncia ou no da relao linear, pode-se recorrer ao teste de hipteses, onde avalia-se a
significncia do modelo atravs das hipteses:
H 0 : i=0
, no existe relao linear
43

H 1: i 0
Definido um

, existe relao linear

e calculando a estatstica F possvel realizar o teste de hipteses para verificar a

existncia da relao linear.


MQ regresso
Fcalculado =
MQresiduos
Encontra-se o valor de F para o nvel de significncia estabelecido e, comparando com o
temos:
F ; glN ; glD < Fcalculado
Se
, rejeita-se a hiptese nula,

H0

Fcalculado

, portanto, conclui-se que os dados indicam

relao linear. Caso contrrio, no h indcios que indiquem a existncia da relao linear.
possvel ainda avaliar a existncia de correlao no-linear a partir da anlise grfica dos resduos, de
modo que, atravs da anlise dos resduos pode-se observar comportamento diferente do comportamento
linear ou outras inadequaes do modelo, como dependncia dos erros, desgaste, ou seja, varincia noconstante.

QUESTO RLM3 ANULADA


Os dados de amostra x1, x2, ..., xn algumas vezes representam uma srie temporal, onde xi = valor
observado de uma varivel resposta x no momento t. Frequentemente, a srie observada mostra grande
variao aleatria, o que dificulta o estudo do comportamento de longo prazo. Nessas situaes,
desejvel produzir uma verso suavizada da srie. Uma das tcnicas usadas a suavizao exponencial.
xt

O valor de uma constante de suavizao escolhido (0 < < 1). Ento, com
xt
xt x t 1 x t 1
instante t, definimos
= x1, e para t = 2, 3, ..., n,
.

= valor ajustado no

a) Considere a seguinte srie temporal em que xt = temperatura de um efluente em uma estao de


tratamento de esgoto no dia t: 47, 54, 53, 50, 46, 46, 47, 50, 51, 50, 46, 52, 50, 50. Plote cada coordenada
xt em relao a t em um sistema bidimensional (um grfico de srie temporal). Parece haver algum
padro?
44

xt

b) Calcule o
suavizada?

xt

usando = 0,1. Repita para = 0,5. Que valor de fornece uma srie

xt 1 xt 1 1 xt 2

c) Substitua

xt

no lado direito da expresso de

xt 3

mais

xt 2

e ento substitua

em termos

xt

de xt-2,
e assim por diante. De quantos valores de xt, xt-1, ..., x1,
coeficiente de xt-k quando k aumenta?

depende? O que acontece com o

xt

d) Consulte o item (c). Se t for grande, qual a sensibilidade de


Explique.

xt

em relao ao valor inicial

= x1?

QUESTO RLM4
Considerando que o modelo de predio da Demanda Bioqumica de Oxignio (DBO) construdo em sala
de aula (05/05/08) no foi satisfatrio, novos dados foram fornecidos pela empresa e so apresentados na
planilha Q4 do arquivo Dados. Construa um modelo de regresso linear mltipla para predio da DBO
fazendo-se uso dos novos dados fornecidos (planilha Q4), analise criticamente os resultados obtidos e
sugira meios para melhoria do modelo.
Nomenclatura (Planilha Q4)
in: entrada do volume de controle
out: sada do volume de controle
Dados do efluente:
Vaz: Vazo
Col: Cor
Cond: Condutividade
DBO: Demanda bioqumica de oxignio
DQO: Demanda qumica de oxignio
Nam: Nitrognio amoniacal
NN: Nitrognio nitrato
SS: Slidos suspensos
T: Temperatura da gua
Dados de produo:
PCel: Produo de celulose
PPapel: Produo de papel
Outros:
Chuva: Precipitao diria

QUESTO RLM5
Acredita-se que a vazo de vapor (em ton/h) usada mensalmente por uma planta qumica est relacionada
com a temperatura ambiente (em oF) daquele ms. Os usos e temperaturas dos ltimos anos esto
mostradas na tabela que segue:

QUESTO REPETIDA
Ms
Temp.
Vazo/1000

Jan
21
185,79

Fev
24
214,47

Mar
32
288,03

Abr
47
424,84

Mai
50
454,58

Jun
59
539,03

Jul
68
621,55

Ago
74
675,06

Set
62
562,03

Out
50
542,93

Nov
41
369,95

Dez
30
273,98

a) Assuma que o modelo de regresso linear simples apropriado e ajuste o modelo de regresso
relacionando a vazo de vapor (y) e a temperatura (x).
45

b) Avalie a significncia do modelo de regresso.


c) Analise o significado de cada p-valor (P) apresentado ao lado
fazendo-se uso do teste de hipteses. Voc faria alguma sugesto
de alterao do seu modelo de regresso?

Predictor T P
Constant
-0.14 0.890
Temp.
19.91 0.000

QUESTO RLM6 SINTETIZAR


O modelo de regresso linear pode ser extrapolado? Como definir o domnio de aplicao de um
modelo de regresso linear? Justifique sua resposta
Relaes de regresso so vlidas somente para valores do regressor dentro da faixa dos dados originais.
A relao linear que temos tentado considerar pode ser vlida sobre toda a faixa original de x, mas ela
pode ser improvvel de ser mantida se extrapolarmos isto , se usarmos valores de x alm daquela
faixa. Em outras palavras, medida que nos movemos alm da faixa de valores de x para a qual os dados
foram coletados, tornamo-nos menos certos acerca da validade do modelo adotado. Modelos de regresso
no so necessariamente vlidos para finalidades de extrapolao.
Agora, isso no significa nunca extrapole. H situaes com problemas em cincias e em engenharia em
que a extrapolao de um modelo de regresso a nica maneira para abordar o problema. No entanto, h
uma grande advertncia para ser cauteloso. Uma extrapolao modesta pode ser perfeitamente certa em
muitos casos, porm uma grande extrapolao quase sempre no produzir resultados aceitveis.
MONTGOMERY
Realizar previses sobre o comportamento futuro de algum fenmeno da realidade.
Neste caso extrapola-se para o futuro as relaes de causa-efeito j observadas no passado entre as
variveis.
Extrapolao: A relao linear assumida para as variveis resposta e explicativa no pode ser estendida
para fora do domnio de atuao dos dados observados, a no ser que haja informao adicional sobre a
validade do modelo para esse domnio estendido.
Modelos de regresso linear no costumam ser vlidos para fins de extrapolao, apenas de
interpolao
O modelo de regresso uma representao de uma massa de dados obtidos experimentalmente,
portanto, esse modelo dever ser usado para fins de interpolao. Havendo elementos que justifiquem a
possibilidade de extrapolao e ainda, tomando todo cuidado com essa extrapolao, possvel faz-la.
QUESTO RLM7 OK
Um modelo linear multivariado foi construdo para representar uma varivel de um processo. Para tanto,
foi utilizado o mtodo Stepwise. Sendo voc um especialista do processo, sugira um meio de interferir na
seleo das variveis pelo mtodo Stepwise; justifique sua resposta considerando inclusive conceitos
estatsticos.
Qualquer procedimento para seleo ou excluso de variveis de um modelo baseado em um algoritmo
que checa a importncia das variveis, incluindo ou excluindo-as do modelo se baseando em uma regra
de deciso. A importncia da varivel definida em termos de uma medida de significncia estatstica do
coeficiente associado varivel para o modelo. Essa estatstica depende das suposies do modelo.
No Stepwise da regresso linear um teste F usado desde que os erros tenham distribuio normal.1
1
http://www.portalaction.com.br/analise-de-regressao/4251-selecao-stepwise
46

Sabendo disso, o especialista, conhecendo o processo estudado e sabendo da importncia ou no de

determinadas variveis, poder interferir na seleo de variveis alterando o nvel de significncia, ,


do teste.
A regresso stepwise padro adiciona e remove preditores conforme necessrio em cada etapa. O
procedimento para quando todas as variveis fora do modelo possuem valores p maiores que o alfa
especificado para incluso e quando todas as variveis no modelo possuem valores p menores que ou
iguais aos valores alfa para excluso.
Varivel sai do modelose p-valor
Varivel entra no modelo

se p-valor

Dessa forma, aumenta-se o nvel de significncia para permitir que determinada varivel entre no modelo
e diminui-se o nvel de significncia para fazer com que determinada varivel saia do modelo, tendo em
vista a importncia da varivel em questo atravs do teste de hipteses.

Problemas com a regresso stepwise:2

Quando duas variveis preditoras so altamente correlacionadas, possvel que


apenas uma fique no modelo mesmo se a outra for importante.
Como o procedimento ajusta muitos modelos, ele pode selecionar aqueles que
ajustam os dados bem apenas por acaso.
A regresso stepwise pode no parar necessariamente com o modelo com o valor
R mais alto possvel para um nmero especificado de preditores.
Procedimentos automticos no consideram conhecimento especializado que o
analista poderia ter sobre os dados. Por isso o modelo selecionado pode no ser o
melhor sob um ponto de vista prtico.

PLANEJAMENTO DE EXPERIMENTOS
QUESTO PE1
Um planejamento de experimentos foi realizado com o objetivo de aumentar a atividade de uma
determinada enzima em funo do pH e temperatura. Desta forma o experimento foi realizado de acordo
com a tabela a seguir:
Fatores
A
B
+
-

Ordem
1
2

1
218
67

Repeties
2
121
73

Mdias
3
170
76

200
72

2
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-andcorrelation/basics/basics-of-stepwise-regression/
47

+
+

3
4

402
222

399
258

411
270

404
250

Mdias = (Rep.1 + Rep.2 + Rep.3)/3


?
Observar valor errado.
Repetio 2 = 211 resulta em mdia = 199,67
De acordo com os dados,
a) Calcule os efeitos principais, o efeito sinrgico, e indique as condies de maior atividade enzimtica.
Efeito de A = -141; Efeito de B = 191; Efeito AB = -13;
A atividade da enzima diminui, em mdia, em 141 unidades, quando o fator A passa do nvel inferior para
o nvel superior.
A atividade da enzima aumenta, em mdia, em 191 unidades, quando o fator B passa do nvel inferior
para o nvel superior.
Avaliando o efeito sinrgico AB, percebe-se que h uma significativa interao entre estas variveis, no
entanto, essa interao no se mostra to significativa em vista dos efeitos individuais.
Quando AB passa do nvel inferior para o nvel superior, a atividade da enzima diminui, em mdia, em 13
unidades.
Concluso: Deve-se adotar A com nvel inferior (-1) e B com nvel superior (+1) para que se tenha
mximo aumento da atividade da enzima.
b) Critique a forma que os experimentos foram realizados.
1. Foram realizados na ordem, no uma boa opo, no entanto deve ter sido feito observando a
independncia nos resultados ou em funo da impossibilidade de alterar os fatores em outra ordem que
no a apresentada.
2. Os dados foram coletados em triplicatas e ento calculadas as mdias para cada combinao.
Essa medida fornece uma melhor confiabilidade dos dados e permite inferncias do processo (?).
3. Os nveis dos fatores no so apresentados na tabela.
4. O valor obtido para a mdia do primeiro fator no corresponde aos valores obtidos nas
repeties.
5. Deveriam ser informadas as condies e os momentos de coleta das observaes, j que em
muitos problemas a forma como uma varivel coletada e o tempo at a coleta so fatores importantes a
serem considerados.
c) Caso realizssemos o experimento inserindo mais uma varivel (tipo de enzima), quais devem ser as
premissas adotadas para alcanar o modelo de regresso?
Embora j se conhece a natureza de algumas variveis atravs do experimento previamente
realizado, todos os tratamentos do novo experimento devero ser considerados, pois no se conhece a
sinergia entre as variveis j estudadas e a nova varivel (tipo de enzima).
Na impossibilidade de realizar o experimento com todos os tratamentos, alguns devero ser
selecionados criteriosamente a fim de abranger toda a natureza do experimento.
1. Definir os nveis do(s) fator(es) para verificar quantos tratamentos sero necessrios avaliar,
atravs do planejamento fatorial: n1 x n2 x n3, ou n^k onde k o nmero de fatores com n nveis cada.
2. Verificar quantos experimentos podero ser realizados.
3. Selecionar tratamentos a serem experimentados, na impossibilidade de realizar todos. Essa
seleo poder considerar as variveis j observadas no experimento anterior de forma a otimizar o
entendimento acerca dos novos resultados.
Fatorial completo x Fatorial fracionrio
Fatorial fracionrio: Tratamento = n^(k-1); Usa uma frao de todo o planejamento fatorial.
4. Deve-se observar ainda o grau de confundimento dos fatores.
48

QUESTO PE2
Um experimento conhecido por Teste de Jarro realizado para encontrar-se as melhores condies
operacionais para a quebra da emulso leo-gua com uma combinao de cloreto frrico e cido
sulfrico de forma que o leo livre possa ser removido por flotao. Um experimento fatorial completo
foi realizado, obtendo-se os resultados apresentados ao lado.
a) Estime e analise os efeitos principais e de interao
do cido sulfrico e do cloreto frrico e indique qual a
melhor condio para a separao da emulso leo-gua.
b) Proponha meios de estimar a significncia dos
resultados obtidos.
c) Qual a vantagem em se realizar cada experimento em
duplicata?

QUESTO PE3
Deseja-se maximizar o rendimento de uma reao e para tanto, foi realizado um planejamento
experimental. Que concluses se pode tomar a partir do experimento realizado cujos resultados so
apresentados abaixo. Critique a forma como os fatores foram estabelecidos.
Corrida

Ordem

Temperatura
(oC)

Tempo de
reao
(min)

Rendimento
(%)

40

Baixo

57

61

60

Baixo

92

88

40

Alto

55

53

60

Alto

66

70

Analisando os dados, verifica-se que o rendimento maximizado quando a Temperatura 60C e o


Tempo de reao Baixo; no entanto h algumas crticas quanto ao modelo e portanto essa concluso
deve ser observada com cuidado:
1. Todos os tratamentos foram considerados.
2. A ordem foi alterada porm no privilegiou mudanas significativas dos nveis dos
fatores, j que s altera uma varivel por vez, da mesma forma que ocorreria se a
ordem no fosse alterada.
49

3. Os dados de rendimento foram obtidos em duplicatas. As mdias para cada


tratamento devem ser calculadas.
4. Os Tempos de reao so anunciados em minutos, porm so indicados atravs dos
nveis Baixo e Alto, assim no se sabe qual esse tempo, dificultando a inferncia
sobre o processo.
5. Necessrio calcular os efeitos principais e os efeitos sinrgicos.

QUESTO PE4
Um experimento conhecido por Teste de Jarro realizado para encontrar-se as melhores condies operacionais
para a quebra da emulso leo-gua com uma combinao de cloreto frrico e cido sulfrico de forma que o leo
livre possa ser removido por flotao. A concentrao inicial do leo de 5000 ml/L e dois experimentos
sequenciais foram realizados. O que se pode concluir dos experimentos 1 e 2? Critique a forma em que os
experimentos foram realizados.
FeCl3 (mg/L)
H2SO4 (mg/L)
leo (mg/L)

1,0
0,1
4200

Experimento 1
1,1
1,2
1,3
0,1
0,1
0,1
2400
1700
175

1,4
0,1
650

Experimento 2
1,3
1,3
1,3
0
0,1
0,2
1600
175
500

QUESTO PE5
Considere que se deseja realizar experimentos considerando trs fatores e uma resposta e que apenas 5
experimentos possam ser realizados.
a) Proponha um planejamento de experimentos e indique que experimentos sero realizados.
Justifique sua resposta.
b) Indique qual a resoluo (grau de confundimento) e que fatores sero confundidos considerando
sua resposta em (a). Justifique sua resposta.

c) Como voc avaliaria a existncia de relaes no lineares entre fatores e respostas? Justifique sua
resposta.
CONTROLE ESTATSTICO DE PROCESSOS
QUESTO CEP1
O sistema de controle de qualidade de cinco bombas apresenta as alturas das bases de uma parte da
bomba (medidas realizadas em polegadas) como se pode observar na tabela a seguir.

50

Avalie os dados da tabela acima e construa o(s) grfico(s) de controle mais adequado(s).
Justificando e indicando as etapas para o seu desenvolvimento.
b) Qual a premissa principal a ser considerada na construo da carta de controle de individuais (Xbarra) e de subgrupos (X-barra-barra)?
a)

Amostras
1
2
3
4
5
6
7
8
9
10
11
12
13
14

B1
0,831
0,834
0,836
0,833
0,830
0,829
0,835
0,818
0,841
0,832
0,831
0,831
0,838
0,815

B2
0,829
0,826
0,826
0,831
0,831
0,828
0,833
0,838
0,831
0,828
0,838
0,826
0,822
0,832

B3
0,8400
0,8312
0,8220
0,8310
0,8330
0,8320
0,8300
0,8340
0,8330
0,8320
0,8270
0,8320
0,8300
0,8310

B4
0,836
0,831
0,831
0,835
0,831
0,828
0,829
0,835
0,831
0,836
0,844
0,828
0,835
0,831

B5
0,826
0,831
0,816
0,833
0,820
0,841
0,841
0,830
0,832
0,825
0,826
0,827
0,830
0,838

QUESTO CEP2
O programa guapura vem atuando na reduo do consumo de gua da UFBA, tendo obtido resultados
significativos atravs de um acompanhamento sistemtico vianet do consumo por unidade
(http://teclim.ufba.br/aguapura/index.php, ver exemplo abaixo). Considerando conceitos da estatstica,
proponha outra(s) forma(s) de acompanhamento do consumo de gua da UFBA. Descreva todas as
premissas e implicaes consideradas na(s) sua(s) proposta(s).

Consumo de gua dirio ( esquerda) e mensal


(acima) da Escola Politcnica. Finais de semana so
destacados em amarelo (grfico esquerda).

QUESTO CEP3
Dois grficos de controle (a) e (b) foram construdos considerando dados de subgrupos de tamanho 5 e 4,
respectivamente. Analise criticamente estes grficos de controle e discuta se eles poderiam ser utilizados
para o acompanhamento de processos.

51

Xbar-R Chart of dados

Xbar-R Chart of dados


22,8

16

Sample Mean

Sample Mean

UCL=15,049
14
__
X=11,530

12
10

21,6

UCL=21,395

20,4

__
X=20,154

19,2

LCL=18,912

18,0
8

LCL=8,012
1

11

13

15

17

19

21

23

25

11

15

17

19

21

23

25

UCL=4,550

UCL=12,90

12

4
Sample Range

Sample Range

13
Sample

Sample

9
_
R=6,1

6
3
0
3

11

13

15

17

19

21

23

_
R=2,152

2
1
0

LCL=0
1

LCL=0
1

25

11

13

15

17

19

21

23

25

Sample

Sample

(b)

(a)

QUESTO CEP4
O contedo de cobre, em ppm, de um banho de platina medido trs vezes ao dia e os resultados de Xbarra e R so apresentados na tabela abaixo. Sabendo-se que os limites de especificao so 6,0 1,0: a)
Indique se esse processo est sobre controle (Utilize apenas a regra 1: pontos fora dos limites de controle)
e b) Estime a capabilidade do processo e interprete o resultado.
Dia
X-barra

1
5,45

1,21

Dia
X-barra

14
7,01

1,45

2
5,3
9
0,9
5
15
5,8
3
1,3
7

3
6,8
5
1,4
3
16
6,3
5
1,0
4

4
6,7
4
1,2
9
17
6,0
5
0,8
3

5
5,8
3
1,3
5
18
7,11
1,3
5

6
7,2
2
0,8
8
19
7,3
2
1,0
9

7
6,3
9
0,9
2
20
5,9
0
1,2
2

8
6,5
0
1,1
3
21
5,5
0
0,9
8

9
7,1
5
1,2
5
22
6,3
2
1,2
1

10
5,9
2
1,0
5
23
6,5
5
0,7
6

11
6,4
5
0,9
8
24
5,9
0
1,2
0

12
5,3
8
1,3
6
25
5,9
5
1,1
9

13
6,0
3
0,8
3

QUESTO CEP5
Barras de chocolate so produzidas e a cada 15 minutos 3 barras so retiradas da linha e pesadas. Cartas
de controle para mdia e amplitude so construdas para monitorar o peso dessas barras; o tamanho da
amostra 3 e X-barra e R so estimadas a cada 28 amostras, obtendo-se, respectivamente, 170,785g e
0,515g.
a) Estime os limites de controle para X-barra e R.
b) Estime o desvio padro deste processo. Com base na carta de controle (X-barra) abaixo, verifique se
este valor estimado representa a variabiliade do processo (justifique sua resposta).
52

Xbar-R Chart of Peso


1

171.6

Sample Mean

UCL=171.313

171.2

_
_
X=170.785

170.8
170.4

LCL=170.258

170.0

1
1

10

13

16

19

22

25

28

Sample
1.5

Sample Range

UCL=1.327
1.0

0.5

10

13

10

16

19

22

25

28

0.0

_
R=0.515

LCL=0
1

Sample

D
4

3,
27

2,
57

2,
28

2,
11

2,
00

1,
92

1,
86

1,
82

1,
78

0,
08

0,
14

0,
18

0,
22

1,
88

1,
02

0,
73

0,
58

0,
48

0,
42

0,
37

0,
34

0,
31

A
2

A1

A2

d2

D3

D4

E2

3,7
6

1,88

1,12
8

3,2
7

2,6
6

2,3
9

1,02
3

1,69
3

2,5
7

1,7
7

1,8
8

0,72
9

2,05
9

2,2
8

1,4
6

QUESTO CEP6
53

O sistema de controle de qualidade de cinco bombas apresenta as alturas das bases de uma parte da
bomba (medidas realizadas em polegadas) como se pode observar na tabela a seguir.
a) Avalie os dados da tabela acima e construa o(s) grfico(s) de controle mais adequado(s).
Justificando e indicando as etapas para o seu desenvolvimento.
b) Qual a premissa principal a ser considerada na construo da carta de controle de individuais (Xbarra) e de subgrupos (X-barra-barra)?
Amostras
1
2
3
4
5
6
7
8
9
10
11
12
13
14

B1
0,831
0,834
0,836
0,833
0,830
0,829
0,835
0,818
0,841
0,832
0,831
0,831
0,838
0,815

B2
0,829
0,826
0,826
0,831
0,831
0,828
0,833
0,838
0,831
0,828
0,838
0,826
0,822
0,832

B3
0,8400
0,8312
0,8220
0,8310
0,8330
0,8320
0,8300
0,8340
0,8330
0,8320
0,8270
0,8320
0,8300
0,8310

B4
0,836
0,831
0,831
0,835
0,831
0,828
0,829
0,835
0,831
0,836
0,844
0,828
0,835
0,831

B5
0,826
0,831
0,816
0,833
0,820
0,841
0,841
0,830
0,832
0,825
0,826
0,827
0,830
0,838

QUESTO AM1
a) Descreva uma situao em que seria
necessrio o uso das componentes principais
como variveis independentes de um modelo de
regresso linear multivariado.
b) Considerando o grfico abaixo, voc excluiria
alguma varivel da sua anlise? Justifique sua
resposta

Segundo Componente Principal

ANLISE MULTIVARIADA

1.0

Var.5

0.8
0.6
0.4
0.2

Var.4

Var.3

0.0

Var.2
Var.1

-0.2
-0.4
-0.50

-0.25

0.00

0.25

0.50

Primeiro Componente Principal

QUESTO AM2
Os grficos abaixo foram gerados para a anlise multivariada dos dados do sistema de tratamento de
efluentes discutidos em sala. Descreva o uso de cada grfico.

54

Vaz_in

Segunda componente

Primeira componente

0.75
0.50
0.25

DQO_in
0.00

DBO_in

-0.25

pH_in

-0.50
-0.75

SS_in
-0.50

-0.25

0.00

0.25

0.50

1
0
-1
-2
-3
-4
-5

Segunda componente

-3

-2

-1

Primeira componente

QUESTO AM3
Explique quais as vantagens em transformar os variveis originais em componentes principais e utilizlas na construo de um modelo de regresso.
QUESTES UNIFICADAS
QU1
A demanda bioqumica de oxignio (DBO em mg/L) foi obtida a partir de uma pesquisa em resduos
industriais. Noventa e nove (99) observaes foram levantadas a cada 4 horas, fornecendo seis (6)
observaes dirias para 16 dias, mais trs (3) observaes no 17o dia. O entendimento do
comportamento horrio e composto (mdia diria) ser necessrio para projetar o tratamento do processo.
Os padres de variao tambm precisam ser vistos porque eles influenciam, por exemplo, a
exeqibilidade em utilizar-se unidades de equalizao do processo para reduzir as variaes de carga de
DBO. Os dados podem ter propriedades interessantes, assim a apresentao deve ser completamente clara
e no estar aberta para interpretaes confusas.
Quadro 1: Estatsticas descritivas da DBO (mg/L)
Estatsticas descritivas: DBO mdia (mg/L)
Varivel
Mdia DP Mnimo Q1 Mediana
DBO mdia (mg/L) 683,9 105,3 557,0 585,9 652,3

Q3 Mximo Assimetria Curtose


770,8 925,5
0,70
-0,06

Estatsticas descritivas: DBO (mg/L) em 4h; 8h; 12h; 16h; 20h; 24h
DBO(mg/L) Mdia
4h
701,9
8h
650,9
12h
687,5
16h
760,6
20h
695,1
24h
630,0
DP. Desvio Padro

DP
307,8
303,9
289,5
305,4
316,4
280,7

Mnimo
316,0
221,0
207,0
233,0
235,0
266,0

Q1
405,0
369,5
429,5
511,0
380,8
370,3

Mediana Q3
717,0 1027,0
691,0 898,0
659,0 948,5
826,5 1055,5
693,0 970,0
576,0 822,8

Mximo Assimetria Curtose


1174,0
0,23
-1,46
1105,0
-0,02
-1,41
1187,0
0,35
-0,85
1185,0
-0,35
-1,07
1158,0
0,03
-1,46
1142,0
0,47
-0,99

Figura 1: Grfico de tendncias da DBO (mg/L)

55

1200

DBO (mg/L)

1000

800

600

400

200
1

10

20

30

40

50

60

70

80

90

100

Observao em intervalos de 4 horas

Figura 2: Grfico de tendncias (esquerda) e box plot (direita) da DBO (mg/L) por hora amostrada.
5

10
8h

15

1000
800
600

800

900

600

600

400

400

900

900

600

600

300

300
1

10

1000

300

200
1200

1200

1200

1200

1000

DBO (mg/L)

1
4h

1200

1200
1000

800
600

800

400

600
400

15

200
1

10

15

12

16

20

24

Tempo (h)

Dias

Figura 3: Grfico de pontos da DBO (mg/L) total (acima) e por hora (abaixo)

200

400

600

800

1000

1200

Tempo (h)

DBO (mg/L)
4
8
12
16
20
24

280

420

560

700

840

980

1120

DBO (mg/L)
Figura 4: Grfico de probabilidade dos valores individuais (esquerda), mdio (direita) e por hora (abaixo) da DBO (mg/L)
99,9

99
95
90

80
60
40

Percent

Percent

95

20
5

0,1
-500

80
70
60
50
40
30
20
10
5

500

1000

DBO (mg/L)

1500

1
400

500

600

700

800

900

1000

DBO mdia (mg/L)

56

4h

Probability

0,99

8h

0,99

0,99

0,9

0,9

0,9

0,5

0,5

0,5

0,1

0,1

0,1

0,01

0,01
0

1000

0,01

2000

800

1600

0,99

0,99

0,99

0,9

0,9

0,9

0,5

0,5

0,5

0,1

0,1

0,1

0,01

0,01
0

1000

800

1600

0,01

2000

1000

2000

800

1600

Figura 5: Grfico de controle da mdia da DBO (mg/L). LSC: limite superior de controle e LIC: limite inferior de controle

DBO mdia (mg/L)

1200

LSC=1195

900
_
_
X=687

600

300
LIC=180
1

11

13

15

17

Tempo (dias)

a) Do ponto de vista estatstico, qual a importncia de avaliar a concentrao de DBO por perodo de
amostragem (4h, 8h, 12h, 16h, 20h, e 24h) ao invs de utilizar unicamente a DBO mdia para as anlises
posteriores?
b) Avalie se a concentrao de DBO horria mdia varia significativamente durante 24h de operao.
Descreva todas as premissas necessrias para basear sua anlise. Quando necessrio, considere um nvel
de confiana de 90%.
c) Um dos critrios estabelecidos para avaliar a inviabilidade tcnica de instalao de uma unidade de
tratamento da DBO baseada na avaliao da probabilidade em que a DBO horria exceda os limites de
especificao.Tests
Considera-se
o processo
de tratamento invivel se a probabilidade da DBO (mg/L)
performed with unequal
sample sizes
ultrapassar o seu valor mdio + 10% for igual ou superior a 30%. Pergunta-se, este processo vivel
tecnicamente? Justifique sua resposta.
QU2
Deseja-se caracterizar a qualidade do efluente tratado de uma indstria de papel e celulose atravs do
parmetro demanda bioqumica de oxignio (DBO_out), medido na sada do sistema de tratamento
orgnico. Os demais parmetros de qualidade apresentados so analisados no afluente da estao de
tratamento: demanda bioqumica de oxignio (DBO_in), demanda qumica de oxignio (DQO_in),
pH (pH_in), slidos em suspenso (SS_in) e vazo (Vaz_in). Na Figura 1 e Quadro 1 so apresentados
alguns grficos e estatsticas utilizados para o monitoramento do processo. (6,0 PONTOS)

57

Figura 1: Grficos de caixa (box-plot), pontos (dot plot), histograma e de tendncia dos parmetros de
qualidade do afluente (in) e efluente tratado (out).

Valores escalonados de 0 a 1

0,8
0,7

DBO_out

0,6

DBO_in
DQO_in

0,5
0,4

pH_in
SS_in

0,3

Vaz_in

0,2
DBO_out

DBO_in

DQO_in

pH_in

SS_in

Vaz_in

0,24

0,32

0,3 0,4 0,5 0,6 0,7


DBO_out

0,40

DBO_in

0,48

0,56

0,64

0,72

Valores escalonados de 0 a 1

DBO_out

DQO_in

15

30

45

DBO_in

DQO_in

0,8

30

0,6

Frequencia

20

0,4

10

pH_in

SS_in

Vaz_in

pH_in

0,8

SS_in

0,2

Vaz_in

30

0,6
20

0,4
10

0,2
0

0,3 0,4 0,5 0,6 0,7

15

30

45

15

30

45

Amostras em ordem cronolgica

0,3 0,4 0,5 0,6 0,7

Quadro 1: Estatsticas descritivas dos parmetros de qualidade do afluente (in) e efluente tratado (out).

Estatsticas descritivas
Varivel
DBO_out
DBO_in
DQO_in
pH_in
SS_in
Vaz_in

Mdia
0,457
0,504
0,577
0,528
0,342
0,562

DP
0,0766
0,0696
0,0689
0,0300
0,0800
0,0418

Mnimo
0,326
0,303
0,364
0,479
0,231
0,346

Q1
0,410
0,464
0,540
0,510
0,281
0,550

Mediana
0,453
0,509
0,569
0,521
0,336
0,573

Q3
0,498
0,533
0,614
0,540
0,391
0,588

Mximo
0,723
0,680
0,766
0,638
0,668
0,613

Tamanho amostral
52
52
52
52
52
52

Q1: 1o quartil e Q3: 3o quartil.

(a) Avalie criticamente se h melhoria da qualidade do efluente tratado considerando os grficos


apresentados na Figura 1, as estatsticas apresentadas no Quadro 1 e um nvel de confiana de 90%.
(b) O engenheiro responsvel pela operao e gesto da qualidade do sistema de tratamento de efluentes
da empresa decide no utilizar a incerteza de medies para caracterizar a disperso dos valores que
podem ser atribudos aos parmetros que definem a qualidade do afluente e efluente tratado. Critique a
deciso do engenheiro.
(c) Uma anlise especfica ser realizada considerando dados com maior probabilidade de ocorrncia.
Qual o valor limite do pH caso deseje-se considerar nesta anlise dados com probabilidade superior a
80%?
QU3
58

O processo de gerao e distribuio de vapor, bem como o sistema de co-gerao, de uma determinada
indstria podem ser representados pela figura 1. O primeiro controlador (PC-1) controla a presso do
sistema de distribuio de vapor de mdia presso (15 kgf/cm2) em uma faixa de modo a evitar que fique
abaixo de um valor requerido. Para isto, quando ocorre diminuio da presso do sistema de distribuio
de vapor, o controlador PC-1 comanda a abertura de uma vlvula redutora de presso que injeta vapor
diretamente na linha de distribuio, sem passar pela turbina. O segundo controlador (PC-2) controla a
presso do sistema de distribuio de vapor em outra faixa, evitando que a presso fique acima de um
valor definido como seguro para o processo. Para fazer esse controle, o PC-2 comanda a abertura de uma
vlvula de alvio que lana na atmosfera o excesso de vapor, gerando perdas de vapor e,
consequentemente, de gua e energia.

Figura 1: Fluxograma simplificado do sistema de gerao e distribuio de vapor e cogerao.


A Figura 2 mostra que 40% da perda de vapor pode ser explicada pela relao entre a gerao de
energia eltrica pelas turbinas, sendo esta e o alvio de vapor as principais fontes de variao a serem
analisadas. Na Tabela 1 so apresentados os dados de perda de vapor e consumo de energia eltrica.
Correlao: Perda de vapor vs Energia gerada
Perda (%) = 4,568 + 0,000548 EE gerada (kwh)
30

S
R-Sq
R-Sq(adj)

3,32352
42,5%
39,6%

Perda (%)

25

20

15

10
20000

24000
28000
EE gerada (kwh)

32000

36000

Correlao
moderada
Figura 2: Grfico de correlao entre as perdas de vapor e a gerao de energia eltrica pelas
turbinas.
a) Estime as estatsticas descritivas de mdia e desvio padro dos dados referentes a perda de vapor da
Tabela 1 considerando um nvel de confiana de 95%. Discuta os resultados considerando as informaes
apresentadas no Quadro 1 e Figura 1.
b) Selecionando-se uma unidade amostral ao caso: (a) Qual a probabilidade que esta amostra tenha perda
superior a 25%. (b) Qual deve ser a perda de vapor para que 95% da perda seja inferior a 25%?
59

c) (a) Considerando que o engenheiro responsvel pelo processo acha o intervalo estimado no item 1(a)
muito grande, quantas amostrar ele deveria ter para um intervalo de 95% com erro menor que 0,5% de
perdas de vapor? (b) Esperava-se que a perda mdia de vapor da unidade no ultrapasse 18%, ao nvel de
confiana de 95%, para que no haja atuao manual no processo. Verifique se este procedimento deve
ser alterado com base na teoria de teste de hipteses. Avalie a influncia da alterao do nvel de
confiana para 99% sobre os erros do tipo 1 para este sistema.
d) Atividade no R:
d.1. Complemente a anlise realizada na questo 1 utilizando outras estatsticas descritivas e grficos
alm dos apresentados na Figura 1.
d.2. Solucione a questo 2 utilizando o R.
d.3. Solucione a questo 3 utilizando o R.
Quadro 1: Estatsticas descritivas da varivel perda com e sem o outlier.
Descriptive Statistics:
Variable
Mean StDev Minimum Q1 Median
Q3 Maximum
% Perda
17,001 5,147 8,830 14,010 15,887 19,660 37,631
% Perda (sem outlier) 16,542 4,148 8,830 13,912 15,715 19,612 27,170

Boxplot of % Perda; % Perda (sem outlier)

12

40

% Perda

Frequencia absoluta

35

Data

30
25
20

16

20

24

28

32

36

% Perda (sem outlier)

12

12

10

10

15
10
% Perda

% Perda (sem outlier)

12

16

20

24

28

32

36

Figura 1: Grficos da varivel perda com e sem o outlier.


Tabela 1: Variveis monitoradas do processo de gerao de distribuio de vapor.
Data

Produo Total / (t/ms)

Perda Total / (t/ms)

Mdia Diria / (t/dia)

% Perda

jan/06

37213

4032

130

11

fev/06

33767

3297

118

10

mar/06

38540

3403

110

abr/06

36588

4738

158

13

mai/06

39984

4324

139

11

jun/06

33902

4783

159

14

jul/06

36187

7124

230

20

ago/06

39209

9844

318

25

set/06

36121

5927

198

16

60

out/06

44997

6537

211

15

nov/06

37974

6238

208

16

dez/06

40726

6400

206

16

jan/07

42001

5760

186

14

fev/07

37422

5644

195

15

mar/07

42258

6490

209

15

abr/07

27716

6281

209

23

mai/07

42857

16127

520

38

jun/07

44480

9463

315

21

jul/07

42547

7233

233

17

ago/07

43833

6648

214

15

set/07

40902

7272

242

18

out/07

44605

6983

225

16

nov/07

43026

7885

263

18

dez/07

44834

9041

292

20

jan/08

43755

8334

269

19

fev/08

38334

10415

359

27

mar/08

40754

10283

332

25

abr/08

36805

7676

256

21

mai/08

42597

6058

195

14

jun/08

39327

7728

258

20

jul/08

38301

7173

231

19

ago/08

39324

6531

211

17

set/08

35214

7453

248

21

out/08

44506

6829

220

15

nov/08

37587

7776

259

21

dez/08

36037

7053

228

20

jan/09

34122

4240

137

12

fev/09

32953

4380

151

13

mar/09

19964

2519

81

13

abr/09

41439

4223

141

10

mai/09

40593

5854

189

14

jun/09

36338

5429

181

15

jul/09

39598

6359

205

16

ago/09

42836

6378

206

15

set/09

40022

6722

224

17

out/09

47682

6258

202

13

d) Acredita-se que os dados de perda de vapor (t/ms) e produo (t/ms) sejam correlacionados.
d.1. Verifique se essa afirmao verdadeira considerando os resultados apresentados no Quadro 2 e Figura 4. No se esquea
de utilizar tambm a teoria do teste de hipteses nas suas justificativas.
d.2. Proponha um algoritmo para construo de um modelo de regresso multivariado. Considere que variaes na temperatura
ambiente, presso na linha de distribuio e percentual de condensado na linha podem causar variaes na perda de vapor.
Considere a possibilidade de existir diferentes padres por turno de produo (7-15h, 15-23h, 23-07h), relaes no lineares,
correlao entre variveis preditoras, valores aberrantes, etc.
Quadro 2: Resultados do modelo de regresso.
The regression equation is
Perda Total / (t/ms) = - 1149 + 0,200 Produo Total / (t/ms)

61

Predictor
Constant
Produo Total / (t/ms)
S = 2072,88

Coef
-1149
0,20003

R-Sq = 18,4%

SE Coef
2505
0,06353

T
-0,46
3,15

P
0,649
0,003

R-Sq(adj) = 16,5%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
44
45

SS
42591282
189060773
231652055

MS
42591282
4296836

F
9,91

P
0,003

Unusual Observations

Obs
16
17
39

Produo
Total /
(t/ms)
27716
42857
19964

Perda
Total /
(t/ms)
6281
16127
2519

Fit
4395
7423
2844

SE Fit
787
387
1255

Residual
1886
8704
-325

St Resid
0,98 X
4,27R
-0,20 X

R denotes an observation with a large standardized residual.


X denotes an observation whose X value gives it large influence

Residual Plots for Perda Total / (t/ ms)


Normal Probability Plot of the Residuals

Residuals Versus the Fitted Values

99

10000

Residual

Percent

90
50
10
1
-5000

5000

5000

10000

3000

4500

Residual

Histogram of the Residuals

9000

Residuals Versus the Order of the Data

12

Residual

Frequency

7500

10000

16

8
4
0

6000
Fitted Value

-3000

3000
Residual

6000

9000

5000

10

15 20 25 30 35
Observation Order

40

45

Figura 4: Grficos dos resduos.

QU4
A eutrofizao das guas propiciada pelo incremento de nutrientes no corpo d'gua, levando ao
crescimento excessivo das plantas aquticas, com consequente desequilbrio do ecossistema aqutico e
progressiva degenerao da qualidade da gua dos corpos d'gua. A eutrofizao, inicialmente, pode
62

ocorrer de forma natural em ecossistemas aquticos, todavia o estado trfico de lagos tem sido alterado
principalmente pelo influxo de nutrientes provenientes do despejo de esgotos urbanos e industriais.
A avaliao de parmetros de qualidade das guas de um rio pode permitir a anlise de seu estado de
eutrofizao, sendo a clorofila um dos principais parmetros de qualidade avaliados. O ndice de
eutrofizao (IET), proposto pela CETESB, utilizado para avaliar-se a eutrofizao de corpos d'gua.
Nesse ndice, usualmente, considerado o fsforo como o agente principal causador da eutrofizao e a
clorofila deve ser considerada como uma medida da resposta do corpo hdrico ao agente causador. Assim,
o ndice mdio engloba, de forma simplria, a causa e o efeito do processo, utilizando-se a mdia nos
meses em que estejam disponveis dados de ambas variveis, conforme observado nas faixas de trofia do
Quadro 1.
Slidos totais, turbidez, fsforo total, nitrognio amoniacal, nitrognio total, nitrato e clorofila A de
um determinado rio em So Paulo foram levantados em seis pontos de amostragem (ver Figura 1) em
dois perodos seco e mido. Para estimativa do IET, utilizou-se dados histricos levantados no ponto 6.
Com base no Quadro 1 e Figuras 1 a 7, conclua sobre a condio de eutrofizao do rio X. Considere o
ponto 6 como ponto de interesse na anlise da eutrofizao.
a) Considerando novos dados de monitoramento levantados para o ano de 2012 apresentados no Quadro
2:
a.1. Compare se h mudanas no estado de eutrofizao do rio para os perodos seco e mido
considerando a avaliao de intervalos de confiana do IET e nvel de significncia de 10%.
a.2. Com base na teoria do teste de hipteses, verifique, se possvel, se o comportamento das amostras no
perodo seco e mido encontrado para o IET tambm verificado para a clorofila e fosfato.
b) Considerando os dados apresentados no Quadro 2:
b.1. Qual a probabilidade de uma amostra selecionada ao acaso apresentar valores de IET na faixa trfica.
b.2. Uma anlise especfica ser realizada considerando dados com maior probabilidade de ocorrncia.
Qual o valor limite de IET caso deseje-se considerar nesta anlise dados com probabilidade superior a
80%?

63

Quadro 1. Nveis Trficos. Fonte: (CETESB, 2004)

Figura 1: Pontos de monitoramento.

Figura 1. Dotplot dos principais parmetros monitorados nas pocas mida (1) e seca (2).

64

Figura 3. Matriz de correlao considerando o conjunto total de dados (poca seca + mida).

Figura 4. Boxplot considerando o conjunto total de dados (poca seca + mida) no ponto 6.

65

Figura 5. Dot plot do IET considerando o conjunto total de dados (poca seca + mida) no ponto 6.

Figura 6. Srie histrica do ndice de eutrofizao considerando o conjunto total de dados (poca seca +
mida) no ponto 6.

66

Figura 7. Boxplot do IET considerando o conjunto total de dados (poca seca + mida).

Quadro 2: Estatsticas descritivas da clorofila, fosfato e IET para o ano de 2012.


Varivel
Clorofila A (ug/L)

poca
Seco
mido

N
29
27

Mdia
17,66
14,60

DP
18,03
9,79

Q1
2,55
5,64

Mediana
10,56
15,38

Q3
34,22
22,30

FosfatoT (mgPO4-P/L)

Seco
mido

40
39

0,02000
0,03750

0,01483
0,02121

0,01000
0,02000

0,02000
0,03000

0,02000
0,06250

IET

Seco
mido

35
32

59,279
57,488

4,964
4,618

55,667
55,742

60,293
58,168

62,958
60,634

DP: Desvio padro


Quando necessrio, lacunas no banco de dados foram preenchidas por interpolao para estimativa do IET.

c) Proponha um modelo de regresso para estimativa do IET. Foram disponibilizados dados histricos
(classificados pela poca do ano que foram amostradas) de fsforo total, turbidez, clorofila A, contagem
de clulas, pH, demanda bioqumica de dissolvido (DBO5) e oxignio dissolvido (OD), ver Tabela 1.
Discuta todos os passos e resultados obtidos na construo dos modelos. Considere o uso da
estatstica descritiva at a anlise dos resduos dos modelos.
67

Data
05/07/04
04/01/07
03/08/06
01/10/03
16/06/08
03/07/06
10/09/07
10/10/07
27/07/07
26/02/10
17/11/09
10/10/05
06/07/07
05/01/10
03/11/04
29/10/09
02/09/04
11/07/07
29/09/08
12/12/08
28/11/05
12/06/06
23/09/09
03/12/09
06/07/05
07/04/09
05/05/06
02/03/06
11/08/09
28/04/08
31/03/09
10/06/10
01/04/04
05/01/04
01/02/07
29/07/09
04/04/05
28/06/07
10/05/07
20/03/06
23/03/09
26/11/07
25/05/10
21/09/10

poca
mido
Seco
mido
Seco
mido
mido
mido
Seco
mido
Seco
Seco
Seco
mido
Seco
Seco
Seco

Tabela 1. Dados coletados para o modelo de regresso do IET.


Clorofila
Clulas
Turbidez
Fsforo
pH
1,092
381,89
7,5
0,02
6,68
0,182
6592,43
2
0,04
7,16
4,52871
80
4,7
0,01
6,95
1,456
266,97
3,1
0,03
6,9
1,96239
407094,02
4,6
0,012
6,94
1,82
116,69
55
0,01
6,63
3,74485
7724,83
6,1
0,018
6,64
1,092
139102,56
13
0,042
6,84
6,56945
436,7
6
0,022
7,48
8,36881
7017,49
NA
0,025
4,6
9,964
2357,89
NA
0,028
NA
5,096
277,58
4,9
NA
7,1
11,3967
3657,11
3,2
0,031
6,65
11,3967
92735,04
NA
0,031
2,3
6,188
492,39
3,5
NA
7,16
2,548
6301,59
3,3
0,077
7,7

mido
mido
mido
Seco
Seco
mido
mido
Seco
mido
mido
mido
Seco
mido
mido
Seco
mido
mido
Seco
Seco
mido
mido
mido
mido
Seco
Seco
Seco
mido
mido

6,916
13,8871
20,2
14,9845
8,008
15,3321
15,3321
16,3261
8,918
16,6424
18,1254
10,56
19,7206
19,9697
20,2145
22,0333
14,56
14,74
23,0612
23,0612
16,2
23,8327
21,66
18,38
24,7411
25,0887
25,2593
30,39

203,32
6417,84
144871,79
60
53,04
68,51
1971,32
2012
4650
68461,54
576923,08
7917,55
609,96
348974,36
43376,07
468,52
564
2853,55
40341,88
461,01
12050,69
3383,95
168547,01
72505,68
100427,35
1814957,3
835,38
1311,41

4,5
3,5
5,4
NA
2,7
15
NA
NA
20
NA
28
6,1
8,7
9,3
NA
NA
5,8
8,6
8,4
9,7
20
5,6
6,3
5,7
35
83
3,7
4,4

NA
0,037
0,018
0,04
0,02
0,041
0,041
0,044
0,06
0,045
0,05
0,03
0,056
0,057
0,058
0,066
0,05
0,08
0,071
0,071
0,06
0,075
0,062
0,03
0,08
0,082
0,083
0,066

6,82
6,58
7,88
7,8
7,15
6,55
6,9
6,98
6,66
7,02
6,76
6,96
7,07
6,88
7
7
7,03
7,64
7,69
8,5
6,84
6,57
7,27
7,17
9,8
10,3
4,5
6,77

DBO5
1,24
1,63
1,92
1,02
1,7
1,56
1,9
2,7
3,8
4
2
2,06
3,05
1
1
2,2

OD
4,9
5,7
7,6
5,5
6,9
5
5,5
5,3
8,8
4,2
5,1
4,4
5,7
5,7
5,8
5,4

IET
47,2
47,6
48,4
48,6
49,5
49,7
52
52,1
53,2
54
54,7
54,7
55,3
55,3
55,7
56

1,31
3,8
4
3
1,33
1,88
4
3
1,42
2,5
4,05
1,57
1
3
4
3
1,09
2,12
4,12
1
2,29
1,69
3,25
2,46
3,8
7,1
NA
2,7

3,7
5,1
6,4
7,9
5,5
4,7
5
5,9
4,5
7,3
8,3
5,8
4,4
6,5
5,8
3,4
5,8
7,6
6,5
4,1
3,9
3,3
5,6
7,5
7
8,7
4
5,7

56,2
56,3
56,7
56,8
56,9
57
57
57,4
57,5
57,5
58,2
58,3
58,9
59
59,1
59,9
59,9
59,9
60,3
60,3
60,4
60,6
60,6
61
61
61,2
61,2
61,7

68

Data
05/01/05
01/11/06
27/01/10
24/08/10
27/05/08
28/03/08
23/12/08
02/10/06
20/04/10
30/03/10
27/12/07
02/02/06
20/07/10
01/12/06
30/01/08
25/03/09

poca
Seco
Seco
Seco
mido
mido
Seco
Seco
Seco
mido
Seco
Seco
Seco
mido
Seco
Seco
Seco

Clorofila
21,66
26,8605
26,8605
26,8605
24,21
28,5688
45,5
29,7263
30,4483
34,22
32,0016
32,6181
35,0159
35,1844
57,15
38,04

Clulas
16919,76
150,28
8904,09
645,32
139743,59
320662,39
109401,71
26858,97
274,04
4923,88
553162,39
1002,46
402,22
57,46
588547,01
500000

Turbidez
5,7
2,3
6,8
6,9
7,7
7,9
9,1
22
21
6,2
38
8,1
8,3
7,1
110
9,2

Fsforo
0,08
0,093
0,093
0,093
0,009
0,105
0,073
0,114
0,12
0,15
0,134
0,14
0,166
0,168
0,235
0,376

pH
7,52
7,12
3,7
7,6
6,98
6,8
6,98
6,9
7,5
7,45
9,49
7,42
6,5
7,12
8,87
9,28

DBO5
1,78
1,24
NA
NA
1,8
3,6
5
2,22
1,03
5,1
11,2
1,75
9,8
1,39
5,6
7,1

OD
4,9
5,5
5,8
4,4
6,1
4
3,9
3,9
4,1
5,3
5,2
7,3
4,2
6,7
2,2
5,9

IET
61,8
61,9
61,9
61,9
62,4
62,7
63
63,2
63,5
64,1
64,1
64,4
65,4
65,5
67,1
67,5

Clorofila [mg.L-1], Clulas [unidades], Turbidez [mg.L-1], Fsforo [mg.L-1], DBO5 [mg.L-1], OD [mg.L-1],
IET [adimensional] NA - Valor no informado.

69