Professional Documents
Culture Documents
Estatstica
Profa. Jussara M. Almeida
1o Semestre de 2010
Por qu?
Modelagem probabilstica
Avaliao dos resultados
Qual a probabilidade do tempo de residncia no disco 1
ser inferior a 0.5 segundo?
Depende da distribuio de probabilidade do tempo de
residncia?
O tempo mdio de resposta uma boa estimativa do
desempenho do sistema?
Depende da variabilidade de R: varincia, desvio padro
Caracterizao da carga
Como modelar o tempo entre chegada de requisies no
servidor?
Varivel Aleatria
Uma varivel aleatria (VA) X em um espao
amostral s uma funo X: S que atribui um
nmero real a cada ponto amostral em S
ou
(iid)
Distribuio de Probabilidade de
uma Varivel Aleatria
Funo de distribuio acumulada (CDF) F da VA
X definida para todos os nmeros reais b,
b , como:
F(b) = P(X b)
lim F (b) 1
b
lim F (b) 0
p ( xi ) 1
i 1
CDF e PMF:
F ( a ) p ( xi )
i 1
p(x)
1
# visitas ao disco
Histograma
# Requisies
600
500
400
300
200
100
0
0
1
# visitas ao disco
Propriedades:
P ( a X b) f ( x )
a
f(x) 0, x
f (x ) 1
CDF e PDF:
F (a )
f ( x)
Expectativa
Valor Esperado de uma VA X
E( X )
xp( x )
E( X )
x , p ( x )0
X discreta
xf ( x ) dx
X contnua
Expectativa
Expectativa de uma funo da VA X
E ( g ( x ))
g ( x ) p( x )
x , p ( x )0
E ( g ( x ))
X discreta
g ( x ) f ( x )dx
X contnua
Varincia
Varincia de uma VA X: variabilidade, espalhamento
dos valores de X
0.6
0.25
0.5
0.2
p(Y)
p(X)
0.4
0.3
0.2
0.15
0.1
0.05
0.1
0
80
90
100
X
110
140
Varincia
Varincia de uma VA X: variabilidade, espalhamento
dos valores de X
0.6
0.25
0.5
0.2
p(Y)
p(X)
0.4
0.3
0.2
0.15
0.1
0.05
0.1
0
80
90
100
X
110
140
Var ( X ) E ( X ) 2 E ( X 2 ) E ( X ) 2
Var ( aX b) a Var ( X )
2
Desvio Padro e
Coeficiente de Variabilidade
Desvio Padro SD(X)
SD ( X ) Var ( X )
Coeficiente de Variabilidade (CV)
SD ( X )
CV ( X )
E( X )
Diferentemente de SD, que depende da unidade das medies,
o CV uma medida sem unidade
Mede a quantidade de variabilidade relativo ao valor mdio
Permite comparar a variabilidade existente em
distribuies/amostras diferentes
Distribuio de Probabilidade
Para uma caracterizao completa de uma VA preciso
determinar a sua distribuio de probabilidade
CDF ou PMF (se discreta) ou PDF (se contnua)
Existem vrias distribuies discretas e contnuas na
literatura que seguem comportamento bem definido
Conhec-las importante, pois podemos aplicar resultados
previamente desenvolvidos
Ex: uma distribuio exponencial tem uma cauda mais leve
do que uma distribuio Pareto
Distribuies Discretas
Bernoulli
Binomial
Poisson
Geomtrica
Zipf
Vrias outras no livro do Ross
Distribuies Discretas
Bernoulli (p)
X = {0,1}
X = {sucesso, falha}
Binomial (n, p)
X = # sucessos em n experimentos independentes,
onde a probabilidade de sucesso em um experimento p
n i
p(i ) p (1 p )1i
i
E(X) = np
i 0,1,..., n
Var(X) = np(1-p)
Distribuies Discretas
Poisson ()
Nmero de eventos independentes que ocorrem em um intervalo de
tempo (veja discusso em Ross, 4.8)
Nmero de chegadas em um servidor em 1 hora
Nmero de erros de impresso em uma pgina de um livro
p (i ) P ( X i ) e
i
i!
i 0,1,..., n
E(X) = Var(X) =
= # mdio de eventos que ocorrem no perodo
Aproximao para VA Binomial com n grande e p pequeno (Ross)
Se X = Binomial(n,p), X Poisson( = np)
Distribuies Discretas
Poisson ()
Muito comumente usado para modelar chegada de sesses
de usurios
servidores Web, multimdia, banco de dados, ftp, e-mail
Sesses so iniciadas por usurios
Chegada de duas sesses tendem a ser independentes:
Poisson uma boa aproximao
Contra-exemplo:
Chegada de requisies em um servidor Web
Premissa de independncia no vlida: existe
dependncia entre requisies para o arquivo HTML
e as imagens embutidas nele
Distribuies Discretas
Geomtrica (p)
Nmero de experimentos (sucesso/falha) at que um
sucesso ocorra
p( n ) P ( X n ) (1 p ) n 1 p
n 1,..., n
E(X) = 1/p
Var(X) = (1-p)/p2
Distribuies Discretas
Zipf()
Comumente usada quando a distribuio altamente
concentrada em poucos valores
Popularidade de arquivos em servidores Web/multimdia
90% dos acessos so para 10% dos arquivos
Popularidade de palavras na lngua inglesa
C
P( X i )
i
i 1,2,...
C a constante de normalizao
Zipf: lei das Potncias
Distribuio Zipf
Modela popularidade dos remetentes de e-mails
para a UFMG
Distribuies Contnuas
Uniforme
Normal
Exponencial
Pareto
LogNormal
Gamma : ver Ross
Weibull : ver Ross
Distribuies Contnuas
Uniforme (a,b)
PDF : f ( x )
1
se a x b
ba
0
caso contrrio
CDF : F ( x )
0
xa
ba
1
se x a
se a x b
se x b
Normal (, ) ou Gaussiana
f ( x)
1
e
2
( x )2
2 2
= valor esperado
2 = varincia
Distribuies Contnuas
Exponencial ()
F ( x ) 1 e x
f ( x ) e x
= taxa de chegadas
x0 0
P(T1 t) = P(N(t) = 0) = e
-t
T1 exponencial()
-t
T2 exponencial()
Tempo entre
Chegadas
Exponencial
Independncia
entre eventos
Distribuio Exponencial
Exponencial () :
P ([ X t x ] [ X t ])
P( X t )
P (t X t x )
1 P( X t )
P( X t x ) P( X t )
1 P( X t )
P( X t x | X t )
Propriedade
sem memria
(memoryless)
1 e ( t x ) (1 e t )
1 (1 e t )
1 e r e x 1 e t
e t
e r (1 e x )
x
e
P( X x )
t
e
Propriedade Memoryless
Propriedade Memoryless
Distribuio exponencial a nica
distribuio contnua que tem a
propriedade memoryless
Por sua vez, distribuio geomtrica
a nica discreta que tem a
propriedade memoryless
(FAZER)
k
f ( X ) (,
k x)
x k , k 0
F(X ) 1
Lognormal
x
Durao de sesses de usurios e de reqs interativas a vdeo
( 1)
Tamanho de e-mails
Uma VA X Lognormal (, ) se Y = ln(X) Normal (, )
f (X )
1
e
2 x
(ln( x ) ) 2
2 2
x0
xk
Sumrio
Caracterizao de uma VA X
Mdia de X
Varincia, desvio padro, CV
CDF
PMF (discreta) ou PDF (contnua)
Modelo de distribuio e seus parmetros
Vrias outras
Melhor caracterizao depende do que voc est
tentando calcular
(contnuas)
p1
p2
pm
fluxo 1
fluxo 2
fluxo m
n
n1 n2
p1 p2 ... pmnm
P ( X 1 n1 X 2 n2 ... X m nm )
n1n2 ...nm
( ) x
( )
( ) x
e
dx
Soma de Poissons
X e Y so VAs independentes, X Poisson(1) e Y Poisson(2)
Qual a distribuio de Z=X+Y ?
n
P( X Y n ) P( X k , Y n k )
k 0
n
P ( X k ) P(Y n k )
k 0
n
e 1
k 0
1k 2 n2 k
e
k!
( n k )!
Z=X+Y Poisson(1+ 2)
k n k
( 1 2 )
1 2
e
k 0 k! ( n k )!
n
e ( 1 2 )
n!
n!
e ( 1 2 )
k n k
n
1 2
1
2
k
!
(
n
k
)!
n
!
k 0
n
n i n i
Teorema Binomial : p q ( p q) n
i 0 i
n
Poisson 1 + 2++ n
Poisson n
Soma de Exponenciais
X e Y so independentes, X exponencial () e Y exponencial()
Qual a distribuio de Z=X+Y ?
z
F ( Z X Y z ) F ( X x | Y z x ) F (Y z x )dx
0
F ( X x ) F (Y z x )dx
0
( x ) f Y ( z x )dx
e x e ( z x ) dx
0
z
e
0
2 z
dx ze
0
2 z 2 z
e
2
Soma de Exponenciais
Genericamente: X1, X2, ... Xn, todas independentes e
exponencial(): Z = X1 + X2 + ... Xn Erlang de n estgios
( z ) k z
F (Z z)
e
k!
k 0
n 1
z0
Exp()
Exp()
Exp()
Erlang(n,)
n
n 1
P( exatamente 1 X i z ) FX ( z )1 FX ( z )
1
n
z
z n 1
1 e 1 (1 e )
1
n
z j
z n j
1 e e
j 1 j
n
Z tem distribuio
exponencial com
parmetro n
p = (1-e-z)
n j
n j
p 1 p
j 1 j
n
n j
n j
p 1 p
j 0 j
n
n 0
n
p 1 p
0
1 (1 p ) 1 1 1 e
n
1 e nz
Front-end:
atraso desprezvel
P( Z z ) P (max( X i ) z )
P ( X 1 z X 2 z ... X n z )
P ( X n z ) P ( X 2 z )...P( X n z )
(1 e z )(1 e z )...(1 e z ) (1 e z ) n
Exemplo
Considere um computador paralelo com n processadores.
Sejam X1, X2, ..., Xn, os tempos de falha dos processadores,
cada um exponencialmente distribudo com parmetro .
Qual a distribuio da capacidade de processamento Cn do
computador?
Ordene Xis em ordem crescente.
Seja Yi a VA que ocupa a i-esima posio: Y1 = min(Xi)
Cn = nY1 + (n-1) (Y2 Y1) + (n-2)(Y3-Y2)+ ... +
(n-j)(Yj+1 Yj)+ ... + (Yn Yn-1)
Y1 = min(Xi) exponencial(n)
Exemplo (cont.)
Sejam W1, W2, ..., Wn-j os tempos restantes de processamento
de cada um dos processadores ainda operando depois que j
processadores falharam
Yj+1 Yj = min(W1, W2, ..., Wn-j)
Pela propriedade memoryless da exponencial
Wi exponencial()
Logo Yj+1 Yj exponencial((n-j) )
Exemplo (cont.)
Lembre que: Cn = nY1 +... +(n-j)(Yj+1 Yj)+ ... + (Yn Yn-1)
Quais as distribuies de: (n-j)(Yj+1 Yj) e nY1
Se X exponencial():
P ( rX x ) F ( X x / r ) 1 e
x
r
Y = rX exponencial(/r)