Professional Documents
Culture Documents
Vtor H. Nascimento
29 de outubro de 2015
1 Introducao e definicao
Vamos falar agora sobre o conceito de valor esperado, que, apesar de aparentemente simples, e
uma ideia com uma grande variedade de aplicacoes em qualquer area que use probabilidades.
Vamos comecar com um exemplo, para ter um pouco de intuicao.
Suponha que X seja uma variavel aleatoria, e que SX seja o conjunto dos resultados
possveis de X. Por exemplo, se X for o resultado do lancamento de um dado, temos SX =
{1, 2, 3, 4, 5, 6}. Agora imagine que o experimento seja repetido N vezes, independentemente.
Para cada vez, voce observa um valor da variavel aleatoria. Vamos chamar esses valores
observados de x(1), x(2), . . . , x(N). Por exemplo, no caso do dado e para N = 4, os valores
poderiam ser x(1) = 2, x(2) = 1, x(3) = 5, x(4) = 5.
Se voce calcular a media dos x(n), quer dizer,
N
1 X
(N) = x(n), (1)
N n=1
sera que (N) tende para alguma coisa quando N ? No exemplo do lancamento do
dado, podemos construir uma tabela com os resultados e o valor correspondente de (N)
(ver a Tabela 1).
1
Observando a tabela, aparentemente os valores de (N) ficam girando em torno de 3,5
quando N cresce. Sera que isso e uma coincidencia? Para entender melhor o que acon-
tece, ainda considerando o exemplo do dado, vamos reescrever a soma (1) da seguinte ma-
neira: vamos chamar de n1 (N) o numero de vezes que o resultado do dado e 1 dentre os N
lancamentos, e assim por diante para n2 (N), ate n6 (N). No exemplo da tabela 1, os valores
sao n1 (10) = 3, n2 (10) = 1, n3 (10) = 1, n4 (10) = 1, n5 (10) = 3, n6 (10) = 1.
Para manter a discussao geral, vamos denotar os elementos de SX por xi , quer dizer,
SX = {x1 , x2 , x3 , . . . }. No caso do dado, temos simplesmente x1 = 1, x2 = 2, e ate x6 = 6,
mas em outros casos a relacao e diferente1 .
A observacao importante agora e que os termos que compoem a somatoria que define
(N) podem ser reagrupados de outra maneira: Se juntarmos todas as vezes que deu 1 (ou
seja, x1 ), todas as vezes que deu 2 (ou seja, x2 ), etc, podemos escrever
N 6 6
1 X 1 X X ni (N)
(N) = x(n) = ni (N)xi = xi .
N n=1 N i=1 i=1
N
2
No caso de variaveis contnuas, a definicao e semelhante, trocando a somatoria por uma
integral: Z
X = E{X} = xfX (x) d x. (4)
Note que, rigorosamente falando, (3) ou (4) e o valor esperado de uma dada variavel
aleatoria X, enquanto que (1) e a media de um conjunto de realizacoes da variavel. No
entanto, por causa da relacao (2), e comum informalmente chamar tambem E{X} de media
de X.
Vamos ver alguns exemplos.
1+2+3+4+5+6
Exemplo 1. No caso do dado, temos X = 6
= 3,5. A figura 1 mostra a evolucao
de (N) para N variando entre 1 e 1.000.
(N)
4
3.5
2.5
1.5
0 100 200 300 400 500 600 700 800 900 1000
N
Figura 1: (N) em funcao de N para o exemplo do dado.
3
e PX (x) = 0 caso contrario. O valor esperado fica, entao
X n X n X n
E{X} = n e = n e = e
n=0
n! pois o termo
n=1
n! n=1
(n 1)!
para n = 0
some
X n1 X m
= e = e = .
n=1
(n 1)! (m=n1)
m=0
m!
| {z }
=1
(N)
0.6
0.5
0.4
0.3
0.2
0.1
0.1
0.2
0.3
0 100 200 300 400 500 600 700 800 900 1000
N
4
Exemplo 5. Desta vez vamos ver o que acontece se a variavel X for Gaussiana, ou seja,
X N(, 2 ). O valor esperado sera
Z Z
1 (x)
2
1 (x)2
X = E{X} = x e 22 d x = (x + ) e 22 d x
Z 2 2 Z 2 2
1 (x)2 1 (x)2
= (x ) e 22 d x + e 22 d x = .
2 2 2 2
| {z } | {z }
=0, pois a funcao e mpar =1
Vemos entao que o valor esperado de uma variavel Gaussiana N(, 2 ) e sempre igual a
.
O valor esperado pode tambem ser interpretado como uma medida de localizacao de uma
variavel aleatoria: ele da uma ideia de onde estao acontecendo as coisas interessantes (lembre
da analogia com centro de massa). Essa ideia e imperfeita, mas em algumas condicoes e muito
util. Por exemplo, se X Bernoulli(p), temos E{X} = 0 (1 p) + 1 p = p. Se p 0,
X = 0 quase toda vez, e o valor esperado realmente se aproxima de zero. Se p 1, a
situacao se inverte: X = 1 quase toda vez, e o valor esperado se aproxima de 1. Por outro
lado, se p = 0,5, o valor esperado fica no meio do caminho entre zero e um. No caso da
variavel Gaussiana, veja a figura 3, o valor esperado e facil de achar: e o eixo de simetria
da distribuicao. Para a distribuicao exponencial, que nao e simetrica, e preciso calcular a
integral.
0.7
N(1,0,5)
Exponencial(0,5)
0.6
0.5
0.4
Y
0.3
0.2
X
0.1
0
2 1 0 1 2 3 4 5
x
E importante lembrar que o nome valor esperado nao quer dizer que E{X} seja o valor
que voce deve esperar que a variavel X assuma em uma realizacao e a media de varias
5
realizacoes de X que voce espera que fique proxima de E{X}. Na verdade, como no caso
da Bernoulli, o valor esperado pode nem ser um dos valores possveis que a variavel pode
assumir.
Observacao 1. Ate agora estamos dando separadamente as formulas para variaveis discretas
e contnuas. No entanto, repare que para variaveis discretas e possvel definir uma funcao
densidade de probabilidade usando o impulso de Dirac: por exemplo, se X e o resultado do
lancamento de um dado, entao sabemos que
1
6
, x = 1, 2, 3, 4, 5, 6,
PX (x) =
0, caso contrario.
Com a PX (x) podemos calcular a probabilidade de qualquer evento de interesse somando as
probabilidades dos elementos de SX = {1, 2, 3, 4, 5, 6}, por exemplo, Pr{X 2} = 1/6+1/6 =
1/3. Os mesmos resultados seriam obtidos definindo a funcao densidade de probabilidade
1 1 1 1 1 1
fX (x) = (x 1) + (x 2) + (x 3) + (x 4) + (x 5) + (x 6)
6X 6 6 6 6 6
= PX (xi )(x xi ).
xi SX
Note que o limite superior da integral e 2+ , pois o conjunto de interesse e {X 2}, e a area
do impulso (x 2) deve ser contada. Se o conjunto fosse {X < 2}, o limite superior de
integracao seria 2 .
6
A partir dessa tabela, podemos calcular a PY (yi ). Vemos que ha quatro valores possveis
para Y , 0, 1, 4 e 9. 0 e 9 acontecem apenas em uma situacao, enquanto 1 e 4 acontecem em
duas situacoes diferentes, portanto
yi PY (yi )
0 1/6
1 1/3
4 1/3
9 1/6
+ 0 1/6 +9 1/6
|{z} |{z}
=PY (0) =PY (9)
19
= 4 2/6 + 1 2/6 + 0 1/6 + 9 1/6 = .
6
Esse resultado pode ser demonstrado facilmente para variaveis discretas:
X X X
E{Y = g(X)} = yi PY (yi ) = yi PX (xj )
yi SY yi SY xj :yi =g(xj )
X X X
= g(xj )PX (xj ) = g(xj )PX (xj ).
yi SY xj :yi =g(xj ) xj SX
Na ultima igualdade, note que, por definicao, se somarmos para todos os xj SX , chegaremos
a todos os yi possveis, ou seja, todos os yi SY .
A demonstracao para o caso contnuo e semelhante, mas um pouco mais chata. O im-
portante e lembrar que o resultado vale sempre:
X
E{Y = g(X)} = g(xi )PX (xi ), (caso discreto)
x SX
Zi (5)
E{Y = g(X)} = g(x)fX (x) d x, (caso contnuo).
7
Exemplo 6. Suponha que voce joga duas moedas, e aposta com seu amigo que ele lhe paga
R$ 2,00 caso voce obtenha duas caras, um real se o resultado for uma cara e uma coroa, e
voce pague R$ 3,00 caso o resultado seja duas coroas. Qual e o valor esperado do seu ganho
G?
Neste caso,
3 Variancia e desvio-padrao
Como dito anteriormente, o valor esperado de uma variavel aleatoria e uma medida de
localizacao, de posicao da variavel no eixo real. A variancia mede a dispersao da variavel
aleatoria em torno da media sua definicao e
2
X = var{X} = E{(X X )2 }, (8)
8
Um resultado util que ajuda a simplificar as contas e o seguinte: repare que, no calculo
da variancia, no calculo de x X , o valor X e uma constante no exemplo acima, vale
3,5. Entao, podemos fazer (usando a Observacao 1, vamos fazer a demonstracao usando
a funcao densidade de probabilidade assim a demonstracao vale tanto para variaveis
discretas quanto para variaveis contnuas)
Z Z
2
var{X} = (x X ) fX (x) d x = (x2 2x X + 2X )fX (x) d x
|{z} |{z}
constante constante
Z Z Z
2 2
= x fX (x) d x 2X xfX (x) d x +X fX (x) d x
| {z } | {z } | {z }
=E{X 2 } =X =1
2
= E{X } 2X X + 2X = E{X } (X ) = E{X 2 } (E{X})2 .
2 2
Esse resultado e util para simplificar contas. Por exemplo, no caso do dado, temos
E{X 2 } = (12 + 22 + 32 + 42 + 52 + 62 )/6 = 91/6, e portanto, var{X} = 91/6 3,52 = 2,917.
Exemplo 9. Se X Bernoulli(p), ja sabemos que E{X} = p.
E{X 2 } = 02 (1 p) + 12 p = p,
e portanto var{X} = p p2 = p(1 p).
Exemplo 10. No caso da distribuicao uniforme, temos: se X Uniforme(a, b), entao
Z b
2 1 b3 a3
E{X } = x2 d x = .
ba a 3(b a)
A variancia e
2 b3 a3 (a + b)2 4(b3 a3 ) 3(b a)(a + b)2
X = =
3(b a) 4 12(b a)
3 3 2 2 3
b a 3ab + 3a b (b a) (b a)2
= = = .
12(b a) 12(b a) 12
2
Exemplo 11. Para uma variavel X N(, X ), lembrando que X = para variaveis
Gaussianas, temos (neste caso e mais facil calcular E{(X X )2 } diretamente).
Z
1 (x)2
2
E{X } = (x )2 e 22 d x.
2 2
Para simplificar, vamos fazer uma mudanca de variaveis w = x . Nesse caso, d w = d x,
e x w , portanto
Z
1 w2
var{X} = w 2 e 22 d w.
2 2
Integrando por partes, escolhendo
u=w d u = d w,
2 w2
w2
d v = we 2 dw v = 2 e 22 ,
9
obtemos Z
2 w w22 1 w2
var{X} = e 2 + 2
e 22 d w = 2 .
2 2 2 2
| {z } | {z }
=0 =1
2
Portanto, os parametros e de uma variavel aleatoria Gaussiana sao exatamente seu
valor esperado e sua variancia.
Exemplo 12. Se X Exponencial(), ja vimos que E{X} = 1/. Por outro lado,
Z Z
2 2 x
2 x
E{X } = xe dx = x e 0
+2 xex d x = 2/2 .
| 0 {z } |0 {z }
=1/2
u = x2 d u = 2x d x,
d v = ex d x v = ex
= {X X } X X X + x
Figura 4: Regiao |X X | .
10
Nas regioes acima, vale (x X )2 2 , portanto
Z X Z
2 2
X fX (x) d x + fX (x) d x .
X +
| {z }
=Pr{|XX |}
Repare que o resultado vale para qualquer tipo de variavel, mesmo variaveis discretas ou
mistas.
=E{X 2 }
Derivando esse resultado com relacao a x e igualando a zero para achar o ponto de mnimo,
obtemos3
2 E{X} + 2x = 0 x = E{X}.
A conclusao e que o numero que melhor representa a variavel aleatoria X, no sentido de
minimizar a esperanca do quadrado do erro, e o valor esperado X = E{X}. Este resultado
vai ficar bastante util quando comecarmos a trabalhar com distribuicoes condicionais, em
3
Para verificar que o resultado e um ponto de mnimo mesmo, calcule a derivada segunda, e veja que ela
vale 2 > 0.
11
que vamos calcular nao diretamente o valor esperado de uma variavel X, mas o seu valor
esperado E{X|A}, dado o resultado de uma observacao A. A desigualdade de Chebyshev
nos diz que, quando a variancia e pequena, o valor esperado realmente serve para de alguma
forma (que sera melhor explicada mais tarde), representar uma variavel aleatoria.
2
para k N. Note que mX,1 = X , mX,2 = X + 2X .
Tambem se definem os momentos centrais de uma variavel aleatoria,
Z
k
sX,k = E{(X X ) } = (X X )k fX (x) d x. (11)
2
Repare que sX,1 = 0, sX,2 = X .
Como veremos mais tarde, em uma grande classe de problemas, particularmente pro-
blemas lineares envolvendo apenas variaveis Gaussianas, e suficiente trabalhar com erros
quadraticos, e portanto com momentos de primeira e segunda ordem (ou seja, medias e
variancias). No entanto, para problemas em que nao-linearidades ou variaveis nao Gaussia-
nas sao importantes, pode ser melhor minimizar nao a variancia do erro, como na secao 4,
mas um momento de ordem mais elevada4 .
Momentos de ordem maior ou igual a tres tambem sao usados para o problema conhecido
como separacao cega de fontes. Pense por exemplo em uma sala em que ha duas pessoas
falando. Algoritmos para separacao cega de fontes podem ser usados para separar o sinal de
cada pessoa a partir apenas da informacao de dois microfones colocados em pontos diferentes
da sala.
Exemplo 13. Para uma variavel X Uniforme(a, b), o k-esimo momento e dado por
Z b b
k 1 k xk+1 = b
k+1
ak+1
mX,k = E{X } = x dx = .
ba a (k + 1)(b a) a (k + 1)(b a)
O k-esimo momento central sera
Z b k
k 1 a+b
sX,k = E{(X X ) } = x d x.
ba a 2
Fazendo a mudanca de variaveis y = x a+b2
, temos: d y = d x, x = a y = (b a)/2,
x = b y = (b a)/2, assim
Z (ba)/2 (
k+1 k+1 (ba)k
1 k (b a) (a b) k (k+1) , se k par,
sX,k = y dy = k+1
= 2
b a (ba)/2 2 (k + 1)(b a) 0, se k mpar.
4
Alias, o termo momento de ordem elevada e usado para qualquer momento de ordem maior que dois.
12
Exemplo 14. Vamos calcular os momentos centrais de uma distribuicao Gaussiana. Seja
entao X N(, 2 ). Os momentos centrais sao
Z Z
1 (x)2
k 2 2 1 y2
k
sX,k = E{(X ) } = (x ) e dx = y k e 22 d y.
2 2 y=x 2 2
Para continuar, vamos agora integrar por partes, escolhendo
( (
u = y k1 d u = (k 1)y k2 d y,
y 2 y2
d v = ye 22 d y v = 2 e 22 .
Assim, ficamos com
Z
k1 y22 2 1 y2
k2 2 2
sX,k = y e 2
+(k 1) y e d y = (k 1) 2 sX,k2 .
2 2 2
| {z } | {z }
=0 =sX,k2
Como sabemos que sX,1 = 0 e sX,2 = 2 , podemos calcular qualquer outro momento central
pela recursao sX,k = (k 1) 2 sX,k2:
sX,1 = 0, sX,3 = 0, . . . sX,k = 0, k mpar
2 4
sX,2 = , sX,4 = 3 , . . . sX,2k = (k 1)(k 3) . . . 3 1 k , k par.
13
Exemplo 15. Considere uma variavel X Bernoulli(p). Entao, temos:
Z
X (s) = ((1 p)(x) + p(x 1)) esx d x = (1 p) + pes , MX () = (1 p) + pej .
x2 2x + 2 2 2 sx x2 2( + 2 s)x + 2 (2 2 s + 4 s2 )
=
2 2 2 2
x 2( + s)x + ( + 2 s)2 (2 2s + 4 s2 )
2 2
=
2 2
2
(x ( + 2 s)) 2s + 2 s2
= + .
2 2 2
Substituindo este valor na integral, obtemos
Z 2
2 2 1 (x(+2s)) 2 s2
s+ 2s
X (s) = e e 2 2 d x = es+ 2 ,
2 2
| {z }
=1
2 2
j 2
MX () = e .
14
A propriedade que da nome a funcao geradora de momentos e a seguinte: vamos calcular
a derivada
R Z Z
d (s) d fX (x)esx d x d esx
= = fX (x) dx = xfX (x)esx d x.
ds ds ds
Exemplo 19. Podemos usar essa propriedade para calcular os momentos da distribuicao de
Poisson. Se X Poisson(),
s
d e(e 1) s
= es e(e 1) ,
ds
0 1)
e portanto E{X} = e0 e(e = .
A derivada segunda e
s
d2 e(e 1) s s
2
= es e(e 1) + 2 e2s e(e 1) ,
ds
e portanto
0 1) 0 1)
E{X 2 } = e0 e(e + 2 e20 e(e = + 2 .
15