You are on page 1of 267

Notas de Probabilidades y

Estadstica
Captulos 1 al 12
Vctor J. Yohai
vyohai@dm.uba.ar
Basadas en apuntes de clase tomados por Alberto Dboli, durante el ao 2003
Versin corregida durante 2004 y 2005, con la colaboracin de Mara Eugenia Szretter
5 de Marzo de 2008
2
ndice general
1. Espacios de Probabilidad. 7
1.1. Experimentos aleatorios. Algunas consideraciones heursticas. 7
1.2. Axiomas de probabilidad. . . . . . . . . . . . . . . . . . . . . 8
1.2.1. lgebras. . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2. Espacios de Probabilidad. . . . . . . . . . . . . . . . . 10
1.3. lgebra generada por una familia de conjuntos. . . . . . . 18
1.4. Espacios de probabilidad nitos o numerables. . . . . . . . . . 21
1.5. Probabilidad condicional. . . . . . . . . . . . . . . . . . . . . 23
1.6. Independencia de eventos. . . . . . . . . . . . . . . . . . . . . 25
2. Variable Aleatoria. 31
2.1. Concepto de variable aleatoria. . . . . . . . . . . . . . . . . . 31
2.2. Espacio de probabilidad asociado a una variable aleatoria. . . 32
2.3. Funcin de distribucin de una variable aleatoria. . . . . . . . 35
3. Variables aleatorias discretas y continuas. 41
3.1. Variables aleatorias discretas. . . . . . . . . . . . . . . . . . . 41
3.2. Ejemplos de distribuciones discretas. . . . . . . . . . . . . . . 43
3.2.1. Distribucin Binomial. . . . . . . . . . . . . . . . . . . 43
3.2.2. Distribucin Binomial Negativa (o Distribucin de Pas-
cal). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2.3. Distribucin Geomtrica. . . . . . . . . . . . . . . . . 46
3.2.4. Distribucin Hipergeomtrica. . . . . . . . . . . . . . . 47
3.2.5. Distribucin de Poisson. . . . . . . . . . . . . . . . . . 48
3.2.6. Grco de la funcin de distribucin asociada a una
variable aleatoria discreta. . . . . . . . . . . . . . . . . 49
3.3. Variables aleatorias absolutamente continuas. . . . . . . . . . 49
3.4. Ejemplos de distribuciones continuas. . . . . . . . . . . . . . . 53
3.4.1. Distribucin uniforme en un intervalo. . . . . . . . . . 53
3.4.2. Generacin de distribuciones a partir de la distribu-
cin uniforme en [0,1] . . . . . . . . . . . . . . . . . . 55
3.4.3. Distribucin Normal N

,
2

. . . . . . . . . . . . . . 59
3.4.4. Distribucin Exponencial. . . . . . . . . . . . . . . . . 62
3
3.5. Variables aleatorias mixtas. . . . . . . . . . . . . . . . . . . . 65
4. Vectores aleatorios. 69
4.1. Denicin de vector aleatorio. . . . . . . . . . . . . . . . . . . 69
4.2. Espacio de probabilidad inducido. . . . . . . . . . . . . . . . . 70
4.3. Funcin de distribucin conjunta de un vector aleatorio. . . . 71
4.4. Algunas propiedades de vectores aleatorios. . . . . . . . . . . 78
4.5. Independencia de variables aleatorias. . . . . . . . . . . . . . 80
4.5.1. Algunas consideraciones heursticas. . . . . . . . . . . 80
4.5.2. Conservacin de la independencia por transformaciones. 86
4.5.3. Independencia de vectores aleatorios. . . . . . . . . . . 86
5. Vectores aleatorios discretos y continuos. 89
5.1. Vectores aleatorios discretos. . . . . . . . . . . . . . . . . . . 89
5.1.1. Funcin de densidad de probabilidad conjunta. . . . . 91
5.1.2. Caracterizacin de la funcin de densidad marginal
asociada a un subconjunto de variables. . . . . . . . . 92
5.2. Ejemplos de vectores aleatorios con distribucin discreta. . . 94
5.2.1. Distribucin Multinomial. . . . . . . . . . . . . . . . . 94
5.2.2. Distribucin Hipergeomtrica Multivariada. . . . . . . 96
5.3. Vectores Aleatorios de tipo absolutamente continuo. . . . . . 98
6. Transformaciones de variables y vectores aleatorios. 105
6.1. Transformaciones montonas de variables aleatorias. . . . . . 105
6.1.1. Distribucin Normal . . . . . . . . . . . . . . . . . . . 107
6.2. Transformaciones inyectivas de vectores aleatorios. . . . . . . 109
6.3. Algunas aplicaciones a la distribucin normal. . . . . . . . . . 112
6.4. Transformaciones no inyectivas . . . . . . . . . . . . . . . . . 114
6.4.1. Distribucin Chi-cuadrado con un grado de libertad. 115
6.5. Algunas distribuciones complementarias. . . . . . . . . . . . . 116
6.5.1. Distribucin Gamma. . . . . . . . . . . . . . . . . . . 116
6.5.2. Distribucin beta. . . . . . . . . . . . . . . . . . . . . 121
6.5.3. Distribucin Chi-cuadrado. . . . . . . . . . . . . . . . 123
6.5.4. Distribucin t de Student . . . . . . . . . . . . . . . . 123
7. Esperanza Matemtica. 125
7.1. Integral de Riemann-Stieltjes. . . . . . . . . . . . . . . . . . . 125
7.1.1. Denicin de la integral. . . . . . . . . . . . . . . . . . 125
7.2. Denicin de Esperanza Matemtica. . . . . . . . . . . . . . . 128
7.2.1. Algunas consideraciones heursticas. . . . . . . . . . . 128
7.2.2. Esperanza de una variable aleatoria discreta. . . . . . 129
7.2.3. Denicin general de esperanza matemtica. . . . . . 129
7.2.4. Esperanza matemtica para una variable absolutamente
continua. . . . . . . . . . . . . . . . . . . . . . . . . . 133
4
7.2.5. Algunas propiedades de la esperanza matemtica . . . 134
7.3. Esperanza del producto de variables aleatorias independientes. 149
7.4. Una frmula general para la esperanza de una variable trans-
formada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
7.5. Esperanza de distribuciones simtricas . . . . . . . . . . . . . 154
7.6. Mediana de una variable aleatoria. . . . . . . . . . . . . . . . 158
7.7. Varianza de una variable aleatoria. . . . . . . . . . . . . . . . 161
7.7.1. Esperanzas y varianzas de distribuciones normales . . 163
7.8. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
7.9. Distribucin Normal Bivariada. . . . . . . . . . . . . . . . . . 167
8. Teora de la Prediccin. 173
8.1. Error cuadrtico medio y predictores ptimos. . . . . . . . . . 173
8.2. Predictores constantes. . . . . . . . . . . . . . . . . . . . . . . 175
8.3. Predictores lineales. . . . . . . . . . . . . . . . . . . . . . . . 176
9. Esperanza y distribucin condicional. 179
9.1. Caso discreto. . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
9.2. Caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
9.3. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
9.4. Varianza condicional . . . . . . . . . . . . . . . . . . . . . . . 192
10.Convergencia de Variables Aleatorias. 195
10.1. Convergencia de funciones. . . . . . . . . . . . . . . . . . . . 195
10.2. Convergencia casi segura y en probabilidad. . . . . . . . . . . 196
10.3. Preservacin de la convergencia por funciones continuas. . . . 199
10.4. Ley dbil de los grandes nmeros. . . . . . . . . . . . . . . . . 204
10.5. Ley fuerte de los grandes nmeros. . . . . . . . . . . . . . . . 207
10.6. Teorema de la Convergencia Dominada . . . . . . . . . . . . . 213
11.Convergencia en Distribucin. 217
11.1. Denicin de convergencia en distribucin. . . . . . . . . . . . 217
11.2. Funciones caractersticas. . . . . . . . . . . . . . . . . . . . . 220
11.2.1. Variables aleatorias complejas. . . . . . . . . . . . . . 220
11.2.2. Denicin de funcin caracterstica y propiedades. . . 221
11.3. Momentos y funcin caracterstica. . . . . . . . . . . . . . . . 226
11.3.1. Derivacin dentro del signo esperanza. . . . . . . . . . 226
11.3.2. Derivadas de la funcin caracterstica y momentos. . . 227
11.4. Funcin caracterstica de una distribucin normal. . . . . . . 229
11.5. Teorema Central del Lmite. . . . . . . . . . . . . . . . . . . . 233
11.5.1. Caso de variables independientes idnticamente dis-
tribuidas . . . . . . . . . . . . . . . . . . . . . . . . . 233
11.5.2. Teorema Central del Lmite para variables no idnti-
camente distribuidas. . . . . . . . . . . . . . . . . . . . 236
5
11.5.3. Una Aplicacin a la Binomial. . . . . . . . . . . . . . . 240
11.6. Teorema de Slutsky. . . . . . . . . . . . . . . . . . . . . . . . 242
11.7. Aplicacin a intervalos de conanza. . . . . . . . . . . . . . . 253
11.8. Un teorema til de Convergencia en Distribucin . . . . . . . 255
12.Procesos de Poisson. 257
12.1. Procesos de punto. . . . . . . . . . . . . . . . . . . . . . . . . 257
12.2. Axiomtica de los Procesos de Poisson . . . . . . . . . . . . . 257
12.3. Distribucin de un proceso de Poisson. . . . . . . . . . . . . . 259
12.4. Tiempos de espera . . . . . . . . . . . . . . . . . . . . . . . . 264
12.5. Procesos de Poisson en el plano. . . . . . . . . . . . . . . . . 265
6
Captulo 1
Espacios de Probabilidad.
1.1. Experimentos aleatorios. Algunas considera-
ciones heursticas.
Se llamar experimento aleatorio a un experimento tal que (i) no se puede
preveer el resultado de un solo experimento, (ii) si se repite el experimento
varias veces, la frecuencia con la cual el resultado est en un conjunto A
converge a un nmero.
Ejemplo 1.1 El experimento consiste en arrojar una moneda. En este caso
el conjunto de todos los posibles resultados ser
= {0, 1},
0 corresponde a ceca y 1 a cara. Si se repite experimento muchas veces, la
frecuencia con que sale por ejemplo cara, tiende a 0.5
Ejemplo 1.2 El experimento consiste en lanzar un dado. En este caso el
conjunto de todos los posibles resultados ser
= {1, 2, 3, 4, 5, 6}.
Si se tira el dado muchas veces, por ejemplo la fecuencia con que el resultado
est en el conjunto A ser #A/6, donde #A representa el cardinal de
A.
Ejemplo 1.3 El experimento consiste en lanzar una jabalina y registrar la
marca obtenida. En este caso el conjunto de todos los posibles resultados ser
el conjunto de reales positivos y la frecuencia con que el resultado est, por
ejemplo en un intervalo [a, b], depender del atleta.
7
Ejemplo 1.4 Se elige al azar un alumno de primer grado de un colegio y
se anota su peso en kilos, x y la altura en metros y En este caso
= {(x, y) R
2
: x > 0, y > 0}.
Como puede apreciarse los resultados pueden conformar un conjunto
nito o innito de cualquier cardinalidad.
Supongamos ahora que se hacen n repeticiones del experimento aleatorio.
Si A , sea C
n
(A) el nmero de veces que el resultado est en A, luego la
frecuencia relativa del conjunto A se dene por
f
n
(A) =
C
n
(A)
n
.
En el caso de un experimento aleatorio, cuando n crece, esta frecuencia se
aproxima a un nmero que se llamar probabilidad de A y que denotaremos
por P(A).
Claramente
0 f
n
(A) 1,
de manera que
P (A) = lm
n
f
n
(A) ,
y entonces
0 P (A) 1.
Como veremos, en algunos casos, no se puede denir la probabilidad para
todo subconjunto de resultados.
Para precisar este concepto y estudiar sus propiedades formularemos la
teora axiomtica de probabilidades.
1.2. Axiomas de probabilidad.
En primer lugar deniremos algunas propiedades que tendr la familia
de todos los conjuntos para los cuales est denida su probabilidad. Esto
nos lleva al concepto de -lgebra.
1.2.1. lgebras.
Sea un conjunto. Deniremos el conjunto partes de , por P() =
{A : A }. Dado un conjunto A, denotaremos por A
c
el complemento de
A.
Denicin 1.1 Sea una familia A de subconjuntos de , es decir A
P().Se dice que A es una -lgebra sobre si satisface las siguientes
propiedades.
8
A1. A.
A2. Dado A A se tiene A
c
A.
A3. Sea A
1
, . . . , A
n
, . . . una sucesin de elementos de A. Entonces
A =

[
i=1
A
i
A.
Propiedades de lgebras
Propiedad 1.1 A.
Demostracin. Resulta de A1 y A2. 2
Propiedad 1.2 Si A
1
, ..., A
n
son elementos de A entonces
n
[
i=1
A
i
A.
Demostracin.
Para ver esto supongamos que A
i
A ; i = 1, 2, ..., n. Probaremos que
A =
n
[
i=1
A
i
A.
Denamos una sucesin numerable (B
i
)
i1
agregando el conjunto de la
siguiente manera
B
j
= A
j
, 1 j n,
B
k
= si k > n.
Entonces por ser A una -lgebra se tendr que

S
i=1
B
i
A y por lo tanto
A =
n
[
i=1
A
i
=

[
i=1
B
i
A. 2
Propiedad 1.3 Si A es una -lgebra, y A
1
, ..., A
n
, ... es una sucesin de
elementos de A entonces A =

T
i=1
A
i
A.
Demostracin. Esto resulta de que A = (

S
i=1
A
c
i
)
c
. 2
9
Propiedad 1.4 Si A es una -lgebra, y A
1
, ..., A
n
son elementos de A
entonces A =
n
T
i=1
A
i
A.
Demostracin. Se demuestra igual que la Propiedad 1.2. 2
Propiedad 1.5 Si A es una -lgebra, y A
1
y A
2
son elementos de A,
entonces A
1
A
2
A.
Demostracin. En efecto A
1
A
2
= A
1
A
c
2
A. 2
Propiedad 1.6 La lgebra sobre ms chica posible es
A
0
= {, },
y la ms grande es
A
1
= P () .
Luego si A es una -lgebra sobre , se tendr
A
0
A A
1
. 2
Observacin. En el contexto de la teora de la medida, un elemento de la
lgebra A se llama un conjunto medible.
Como veremos en la prxima subseccin, la probabilidad estar denida
para los elementos de una lgebra.
1.2.2. Espacios de Probabilidad.
Denicin 1.2 Un espacio de probabilidad es una terna (, A, P) donde
es un conjunto, A es una -lgebra sobre , y P : A [0; 1] es una
funcin que satisface:
1. P() = 1.
2. ( -aditividad). Si (A
n
)
n1
es una sucesin de elementos de A disjuntos
dos a dos (A
i
A
j
= , si i 6= j), entonces
P(

[
i=1
A
i
) =

X
i=1
P(A
i
).
Observaciones.
10
1. El conjunto se denomina espacio muestral y se interpreta como el
conjunto de resultados posibles del experimento, los elementos de A
se denominan eventos, y corresponden a los subconjuntos de para
los cuales la probabilidad est denida. Finalmente P se denomina
funcin de probabilidad, y dado A A, P(A) se interpreta como la
probabilidad de que el resultado del experimento est en A.
2. En el contexto de la teora de la medida, la terna (, A, P) corresponde
a un espacio de medida donde la medida P asigna el valor uno al
espacio total.
3. Si queremos formalizar la idea intuitiva de la probabilidad como lmite
de la frecuencia relativa es importante observar que la frecuencia
tiene la propiedad de -aditividad. En principio veamos que debera
ser aditiva
Sean A
1
, A
2
, ..., A
k
eventos disjuntos tomados de a dos, esto es, A
i

A
j
= si i 6= j entonces
f
n

k
[
i=1
A
i
!
=
C
n

S
k
i=1
A
i

n
=
P
k
i=1
C
n
(A
i
)
n
=
k
X
i=1
f
n
(A
i
) .
La -aditividad ahora se deduce pasando al lmite.
Ejemplos de espacios de probabilidad.
Ejemplo 1.5 Sea un conjunto, A = P(). Dado x
0
, denimos:
A
P(A) =

1 si x
0
A
0 si x
0
/ A.

P se denota
x
0
y se dice que la probabilidad est concentrada en x
0
o bien
que el nico punto de probabilidad positiva es x
0
.
Ejemplo 1.6 Sea = {x
1
, x
2
, ..., x
n
, ...} cualquier conjunto numerable,
A = P(X), y sea a
i
0, i = 1, 2, ..., una sucesin tal que

X
i=1
a
i
= 1.
Denimos para todo A
P(A) =
X
{i: x
i
A}
a
i
En este caso P dene una probabilidad y est completamente determinada
por las probabilidades a
i
asignadas a cada elemento x
i
.
11
Propiedades de la funcin de probabilidad.
Propiedad 1.7 P () = 0.
Demostracin. Es inmediata, pues si tomamos A
i
= , para todo i N
entonces por la -aditividad
0 P () = P

[
i=1
A
i
!
=

X
i=1
P (A
i
) =

X
i=1
P () 1,
y esto slo se cumple en el caso de que P () = 0. 2
Propiedad 1.8 Sean A
1
, ...., A
n
eventos disjuntos. Luego P(
n
S
i=1
A
i
) =
P
n
i=1
P (A
i
) .
Demostracin. Tomemos la sucesin B
j
= A
j
si j = 1, ..., n y B
j
= si
j > n. Aplicando la propiedad de aditividad se obtiene el resultado. 2
Propiedad 1.9 Si A A entonces
P (A
c
) = 1 P (A) .
Demostracin. Esto sale teniendo en cuenta que A y A
c
son disjuntos y
1 = P () = P (A A
c
) = P (A) +P (A
c
) . 2
Propiedad 1.10 Consideremos dos eventos A
1
y A
2
. Entonces
P (A
1
A
2
) = P (A
1
) P (A
1
A
2
) .
Demostracin. Como
A
1
= (A
1
A
2
) (A
1
A
2
)
se obtiene
P (A
1
) = P (A
1
A
2
) +P(A
1
A
2
),
y de ah sigue el resultado. 2
Proposicin 1.1 Si A
1
, A
2
son eventos y A
2
A
1
entonces
P(A
1
A
2
) = P(A
1
) P(A
2
).
y adems
12
P(A
2
) P(A
1
).
Demostracin. Por la Propiedad 1.1 y el hecho de que A
1
A
2
= A
2
tenemos
P(A
1
A
2
) = P(A
1
) P(A
1
A
2
)
= P(A
1
) P(A
2
)
Adems de aqu resulta
P(A
1
) = P(A
2
) +P(A
1
A
2
)
P(A
2
). 2
Propiedad 1.11 Si A
1
, A
2
son eventos entonces
P (A
1
A
2
) = P (A
1
) +P (A
2
) P (A
1
A
2
) .
Demostracin. Escribimos A
1
A
2
como la siguiente unin disjunta
A
1
A
2
= (A
1
A
2
) (A
1
A
2
) (A
2
A
1
) .
Entonces usando la Propiedad 1.10 resulta
P (A
1
A
2
) = P (A
1
A
2
) +P (A
1
A
2
) +P (A
2
A
1
) =
= P (A
1
) P (A
1
A
2
) +P (A
1
A
2
)
+P (A
2
) P (A
1
A
2
)
= P (A
1
) +P (A
2
) P (A
1
A
2
) . 2
Propiedad 1.12 Sean A
i
A, i = 1, 2, ..., k. Entonces
P

k
[
i=1
A
i
!

k
X
i=1
P (A
i
) .
Demostracin. De la Propiedad 1.11 se obtiene
P (A
1
A
2
) = P (A
1
) +P (A
2
) P (A
1
A
2
) ,
y el resultado vale para k = 2. El resto de la demostracin se hace por
induccin y se deja como ejercicio.
13
Propiedad 1.13 (-subaditividad) Sea (A
n
)
n1
A y A =
S

n1
A
n
. Entonces
P(A)

X
n=1
P(A
n
).
Demostracin. Denamos
B
0
= ,
B
1
= A
1
,
B
2
= A
2
A
1
,
B
3
= A
3
(A
1
A
1
),
.
.
.
B
n
= A
n

n1
[
i=1
A
i
.
Luego es inmediato que los B
i
son disjuntos dos a dos y
A =

[
n=1
B
n
.
Por la aditividad y el hecho de que B
n
A
n
, resulta P (B
n
) P (A
n
)
y entonces
P (A) =

X
n=1
P (B
n
)

X
n=1
P (A
n
) . 2
Propiedad 1.14 Sea (A
n
)
n1
una sucesin de eventos tales que A
n
A
n+1
para todo n y
A =

[
i=1
A
i
.
Luego
P(A) = lm
n+
P(A
n
).
Demostracin. Como la sucesin es creciente entonces podemos transformar
la unin en una unin disjunta deniendo: B
0
= A
0
= , B
1
= A
1

A
0
, B
2
= A
2
A
1
, ...., B
k
= A
k
A
k=1
, ... Luego
A =

[
k=1
B
k
,
14
y por lo tanto usando la aditividad y la Propiedad 1.1 se tiene
P (A) =

X
k=1
P (B
k
) = lm
n
n
X
k=1
P (B
k
) = lm
n
n
X
k=1
P (A
k
A
k1
)
= lm
n

n
X
k=1
P(A
k
)
n
X
k=1
P (A
k1
)
!
= lm
n
P (A
n
) . 2
Propiedad 1.15 Sea (A
n
)
n1
una sucesin de eventos tal que A
n
A
n+1
para todo n y
A =

\
i=1
A
i
.
Entonces
P(A) = lm
n+
P(A
n
).
Demostracin. Sea B
n
= A
c
n
. Luego (B
n
)
n1
es una sucesin creciente de
eventos y A
c
=

S
i=1
B
i
. Luego por la propiedad anterior tenemos
1 P(A) = P(A
c
)
= lm
n+
P(B
n
)
= lm
n+
(1 P (A
n
))
= 1 lm
n+
P(A
n
),
de donde se obtiene el resultado deseado. 2
Denicin 1.3 Se llama lmite superior de una sucesin de conjuntos (A
n
)
n1

al conjunto
A =

\
k=1

[
n=k
A
n
,
y lmite inferior de la sucesin al conjunto
A =

[
k=1

\
n=k
A
n
.
Adems
(A)
c
=
_
_
[
k1

\
n=k
A
n
_
_
c
=
\
k1


\
n=k
A
n
!
c
=
=
\
k1

[
n=k
A
c
n
= A
c
.
15
Es decir el complemento del lmite inferior de la sucesin (A
n
)
n1
es el lmite
superior de la sucesin (A
c
n
)
n1
.
Propiedad 1.16 (Caracterizacin de los lmites superiores e infe-
riores)
(i) Sea
A

= { : est en innitos conjuntos A


n
}.
Luego A = A

.
(ii) Sea
A

= { : est en todos los A


n
salvo en un nmero nito}.
Luego A = A

.
(iii) A A
Demostracin.
(i) Supongamos que A

entonces para todo k N se tiene que

S
n=k
A
n
de manera que A. Recprocamente si / A

entonces se
encuentraen a lo sumo un nmero nito de conjuntos A
n
. Supongamos
que A
n
0
sea el ltimo en el que est, es decir si n > n
0
entonces / A
n
para todo n > n
0
de manera que
/

[
n=n
0
+1
A
n
y entonces / A.
(ii) Consideremos la sucesin de los complementos, es decir (A
c
n
)
n1
. Por
la observacin hecha anteriormente y el punto (i) se tiene que
A = (A
c
)
c
= { : pertence a innitos A
c
n
}
c
= { : no pertenece a innitos A
c
n
}
= { : pertenece a lo sumo a un nmero nito de conjuntos A
c
n
}
= { : pertenece a todos a todos los A
n
salvo un nmero nito}
= A

.
(iii) Se obtiene del hecho de que claramente A

. 2
16
En lo que sigue lm
n
a
n
y lm
n
a
n
denotarn respectivamente el
lmite superior e inferior de la sucesin a
n
.
Propiedad 1.17 Dada una sucesin de eventos (A
n
)
n1
, se tiene
(i) P

A

lm
n
P (A
n
) .
(ii) P (A) lm
n
P (A
n
) .
(iii) Se dice que existe el lmite de la sucesin (A
n
)
n1
de conjuntos sii
A = A . En tal caso se tiene
P

A

= P (A) = lm
n
P (A
n
) .
Demostracin.
(i) Como lo hicimos anteriormente consideremos
A =

\
k=1
[
ik
A
i
y escribamos
B
k
=
[
ik
A
i
.
Entonces la sucesin (B
n
)
n1
es decreciente y
A =
\
k1
B
k
.
Luego, como para todo i k se tiene A
i
B
k
, podemos escribir
P (B
k
) sup
ik
{P (A
i
)}
y entonces
inf
k1
{P (B
k
)} inf
k1
sup
ik
{P (A
i
)}
Luego, como P(B
k
) es decreciente, se tiene
P

A

= lm
k
P (B
k
) = inf
k1
{P (B
k
)}
inf
k1
sup
ik
{P (A
i
)} = lm
i
P (A
i
) .
(ii) Se deja como ejercicio.
17
(iii) De (i) y (ii) tenemos que
P (A) lm
n
P (A
n
) lm
n
P (A
n
) P

A

.
Luego si A = A, resulta P (A) = P

A

y entonces
P (A) = lm
n
P (A
n
) = lm
n
P (A
n
) = P

A

.
Luego P (A) = P

A

= lm
n
P (A
n
) . 2
1.3. lgebra generada por una familia de con-
juntos.
En general no se puede tomar como lgebra A a P() para denir el
espacio de probabilidad. Esto siempre es posible si es a lo sumo numerable.
El siguiente teorema muestra que dada una familia = de subconjuntos de ,
existe una menor lgebra que contiene a =.
Teorema 1.1 Dado un conjunto y una familia = de subconjuntos de
, existe una lgebra A

sobre tal que (i) = A

y (ii) Si A es otra
lgebra sobre tal que = A, entonces A

A. Se dice entonces que A

es la lgebra sobre generada por =.


Demostracin. Denotaremos a la familia de todas las lgebras sobre que
contienen a = por R . Entonces
R = {A : A es una lgebra sobre y A =}.
Claramente R es no vaca, ya que P() R. Denamos ahora
A

=
\
AR
A.
Primero mostraremos que A

es una lgebra sobre .


Veamos que A

.En efecto, A, para toda A R, luego A

.
Sea ahora A A

, mostraremos que A
c
A

. En efecto, como A A,
para toda A R, se tiene A
c
A, para toda A R. Luego A
c
A

.
Sea una sucesin numerable de eventos A
1
, A
2
, ...., A
n
, ... que estn en
A

. Mostraremos que

i=1
A
i
A

. Dado A R, se tiene A
i
A para todo
i, y luego

i=1
A
i
A tambin. Luego

i=1
A
i
A, para todo A R y
entonces

[
i=1
A
i

\
AR
A = A

.
Esto prueba que A

es una -lgebra. Por otro lado si A es una lgebra


y A =, entonces A R, y esto implica que A

A. 2
18
lgebra de Borel sobre los reales. Si tenemos un espacio de prob-
abilidad cuyo espacio muestral es el conjunto de nmeros reales R, parece
natural que la lgebra contenga los conjuntos de la forma (, x].Esto
permitir calcular la probabilidad de que el resultado del experimento aleato-
rio correspondiente sea menor o igual que x. Esto motiva la siguiente deni-
cin.
Denicin 1.4 La lgebra de Borel sobre R, que denotaremos por B, es
la lgebra sobre R generada por los conjuntos de la forma A
x
= (, x],
para todo x R. Un conjunto B B se denomina boreliano.
Propiedades de los borelianos.
Propiedad 1.18 Todo intervalo (a, b] es un boreliano.
Demostracin. Como
(a, b] = (, b] (, a],
por la Propiedad 1.5 (a, b] es un boreliano 2
Propiedad 1.19 Dado x R, {x} B.
Demostracin. Para esto se observa que para todo n N
I
n
= (x
1
n
, x] B.
Puesto que
x
1
n
x
resulta que
{x} =

\
n=1
I
n
B,
y el resultado se obtiene por las propiedades 1.18 y 1.12. 2
De las propiedades 1.18 y 1.19, se deducen inmediatamente las propiedades
1.20-1.22
Propiedad 1.20 (a, b) = (a, b] {b} B.
19
Propiedad 1.21 [a, b] = {a} (a, b] B.
Propiedad 1.22 [a, b) = {a} (a, b) B.
Propiedad 1.23 Todo abierto es un boreliano
Demostracin. Sea G R un abierto. Para todo x G existe un intervalo
(a
x
, b
x
) tal que x (a
x
, b
x
) G con a
x
y b
x
racionales. Por lo tanto G puede
escribirse como la unin numerable de borelianos
G =
[
xG
(a
x
, b
x
),
y por lo tanto G B. 2
Propiedad 1.24 Todo cerrado es un boreliano
Demostracin. Sea F un cerrado. Entonces F
c
= G es un abierto y por
Propiedad 1.23 se tiene que F
c
B. Ahora por ser lgebra se obtiene
que
F = (F
c
)
c
B. 2
lgebra de Borel en R
n
.
Denicin 1.5 La lgebra de Borel sobre R
n
es la lgebra sobre R
n
generada por los conjuntos de la forma
A
(x
1
,x
2
,...,x
n
)
= (, x
1
] (, x
2
] ... (, x
n
],
donde (x
1
, ..., x
n
) es una n-upla de nmeros reales. Ser denotada por B
n
.
Observacin. De manera anloga al caso de la lgebra de Borel sobre R,
se pueden mostrar las propiedades 1.25-1.26 cuyas demostraciones se dejan
como ejercicio.
Propiedad 1.25 Cualquier rectngulo en R
n
de la forma
(a
1
, b
1
] (a
2
, b
2
] (a
n
, b
n
]
(a
1
, b
1
) (a
2
, b
2
) (a
n
, b
n
)
[a
1
, b
1
) [a
2
, b
2
) [a
n
, b
n
)
es un boreliano.
Propiedad 1.26 Todo abierto y todo cerrado en R
n
es un boreliano.
20
1.4. Espacios de probabilidad nitos o numerables.
Denicin 1.6 Sea (, A, P) un espacio de probabilidad con a lo sumo
numerable. En este caso podemos tomar como A el conjunto de partes de
(P()). Denimos la funcin de densidad p, asociada a la probabilidad P
por
p : [0, 1]
de la siguiente manera
p () = P ({}) .
Propiedades de la funcin de densidad
Propiedad 1.27 La funcin de densidad determina la funcin de probabil-
idad. Para todo A se tiene
P (A) =
X
wA
p () .
Demostracin. Si A entonces A se puede escribir como la siguiente unin
disjunta
A =
[
A
{},
donde cada conjunto {} A. Luego
P (A) =
X
A
P ({}) =
X
A
p () . 2
Propiedad 1.28 Si es nito o numerable se cumple que
X

p () = 1.
Demostracin. En efecto por la Propiedad 1.27
1 = P () =
X
w
p () . 2
Denicin 1.7 Decimos que un espacio nito = {
1
, ..,
n
} es equiprob-
able sii
p (
i
) = p (
j
) , i, j.
21
Observacin. Un espacio de probabilidad innito numerable no puede ser
equiprobable. En efecto, supongamos que = {
1
,
2
, ...,
n
, ...}, y p() = c.
Luego por la Propiedad 1.27 se tendra
1 =

X
i=1
p(
i
) =

X
i=1
c,
lo que es un absurdo puesto que
P

i=1
c = 0 segn c > 0 c = 0.
Propiedad 1.29 Si es un espacio de probabilidad equiprobable entonces,
la probabilidad de cualquier evento A se calcula por
P (A) =
#A
#
,
donde #A denota el cardinal de A.
Demostracin. Para ver esto supongamos que para todo se tenga
p () = c, entonces
1 =
X

p() =
X

c = c
X

1 = c #,
y luego,
c =
1
#
.
Adems
P (A) =
X
wA
p() =
X
wA
c = c
X
wA
1 = c (#A) =
#A
#
.
Ejemplo 1.7 Hallar la probabilidad de que dado un conjunto de n personas,
dos personas cumplan aos el mismo da. Se supondr que todos los aos
tienen 365 das y que las probabilidades de nacimiento en cualquier fecha
son iguales.
Supongamos que a cada persona se le asigna un nmero entre 1 y n y
sea x
i
el da del cumpleaos de la persona i. Luego 1 x
i
365, y podemos
considerar el siguiente espacio muestral
= {(x
1
, x
2
, ..., x
n
) : x
i
N : 1 x
i
365} .
donde N es el conjunto de nmeros naturales.
22
En vez de calcular la probabilidad de que dos personas cumplan el mismo
da, calculemos la del complemento, es decir la probabilidad de que todas
cumplan aos en das distintos
A
c
= {(x
1
, x
2
, ..., x
n
) : 1 x
i
365, x
i
6= x
j
i 6= j} .
Se tiene
# = 365
n
Adems
#A
c
=

365
n

n!.
La importancia de la combinatoria se ve en este punto; es necesario
contar con principios de enumeracin. En este caso, primero seleccionamos
los n dias distintos entre los 365 das posibles y luego por cada muestra se
obtienen n! formas distintas de distribuirlos entre n personas.
Las probabilidades que se obtienen usando est formula pueden con-
tradecir la intuicin. Por ejemplo, si n = 20, P (A) 0,41, si n = 30,
P (A) 0,76 y si n = 40, P (A) 0,89.
1.5. Probabilidad condicional.
Sea (, A, P) un espacio de probabilidad, y consideremos dos eventos
A, B A, y supongamos que P (B) 6= 0.
Queremos estudiar como cambia la probabilidad de ocurrencia de A
cuando se conoce que otro evento B ha ocurrido. En este caso habr que re-
denir el espacio muestral considerando solamente los elementos de B como
posibles resultados.
Por ejemplo, consideremos el experimento de tirar un dado y pregunt-
mosnos acerca de la probabilidad de que salga un seis, sabiendo que el dado
escogido es un nmero par. En este caso la probabilidad no es 1/6, puesto
que tenemos la certeza de que el resultado est en el conjunto {2, 4, 6} Como
cada uno de estos tres resultados tienen idntica probabilidad, como se ver,
la probabilidad de obtener el 6 sabiendo que el resultado es par ser 1/3.
Vamos a tratar de determinar cual debe ser la probabilidad de un evento
A condicional a que se conoce que B ha ocurrido, utilizando interpretacin
heurstica de la probabilidad como limite de la frecuencia con la cual un even-
to ocurre. Para esto supongamos que se han hecho n repeticiones independientes
del experimento y denotemos con
n
B
: el nmero de veces en el que ocurre el resultado B,
n
AB
: el nmero de veces en el que ocurre el resultado A B.
23
Heursticamente la probabilidad condicional de A dado B,ser el lmite
de la frecuencia con la cual A ocurre en los experimentos donde B ocurre,
es decir el lmite de
n
AB
n
B
.
Luego, la probabilidad de que ocurra A condicional B ser
lm
n
n
AB
n
B
= lm
n
n
AB
n
n
B
n
=
lm
n
n
AB
n
lm
n
n
B
n
=
P (A B)
P (B)
.
Esto justica la siguiente denicin.
Denicin 1.8 Sea (, A, P) un espacio de probabilidad A, B A tal que
P (B) > 0. Se dene la probabilidad condicional de A dado B por
P (A|B) =
P (A B)
P (B)
.
El siguiente teorema muestra que para cada B jo, P(.|B) es una funcin
de probabilidad.
Teorema 1.2 Fijado el evento B , tal que P(B) > 0, denamos
e
P :
A [0, 1] por
e
P (A) = P (A|B)
para todo A A . Luego
e
P es una probabilidad.
Demostracin.
(i)
e
P () = P (|B) =
P ( B)
P (B)
=
P (B)
P (B)
= 1
(ii) Sea (A
n
)
n1
, una sucesin de eventos disjuntos dos a dos, es decir si
i 6= j, entonces A
i
A
j
= . Luego
e
P


[
n=1
A
n
!
= P


[
n=1
A
n
|B
!
=
P


[
n=1
A
n
!
B
!
P (B)
=
=
P


[
n=1
A
n
B
!
P (B)
=
P

n=1
P (A
n
B)
P (B)
=
=

X
n=1
P (A
n
B)
P (B)
=

X
n=1
P (A
n
|B) =

X
n=1
e
P (A
n
) . 2
24
1.6. Independencia de eventos.
Denicin 1.9 Sea (, A, P) un espacio de probabilidad y consideremos
A, B A. Se dice que A y B son independientes si
P (A B) = P (A) P(B).
Propiedad 1.30 (i) Si P(B) > 0, entonces A y B son independientes si
y slo si P(A|B) = P(A).
(ii) Si P(B) = 0, dado cualquier A A se tiene que A y B son indepen-
dientes.
Demostracin. La demostracin es inmediata. 2
La propiedad de independencia se generaliza para un nmero nito de
eventos.
Denicin 1.10 Se dice que los eventos A
1
, ..., A
k
son independientes sii
para cualquier sucesin de subndices (i
1
, ...i
h
), h k, con i
r
6= i
s
si r 6= s
se tiene que
P
_
_
h
\
j=1
A
i
j
_
_
=
h
Y
j=1
P

A
i
j

.
Observaciones.
1. Para que tres eventos A
1
, A
2
y A
3
sean independientes se deben cumplir
las siguientes igualdades
P (A
1
A
2
) = P (A
1
) P (A
2
)
P (A
1
A
3
) = P (A
1
) P (A
3
)
P (A
2
A
3
) = P (A
2
) P (A
3
)
P (A
1
A
2
A
3
) = P (A
1
) P (A
2
) P (A
3
) .
2. No alcanza la independencia tomados de a dos. Como ejemplo tomemos
= {
1
,
2
,
3
,
4
} espacio de probabilidad equiprobable, es decir
P ({
i
}) =
1
4
. Entonces los conjuntos
A
1
= {
1
,
2
}
A
2
= {
1
,
3
}
A
3
= {
2
,
3
}
25
son independientes tomados de a dos pero no en forma conjunta. Ms
precisamente, se cumple que
j : P (A
j
) =
1
2
A
i
A
j
= {
k
} para algn k
y luego
P (A
i
A
j
) =
1
4
=
1
2

1
2
= P (A
i
) P (A
j
) .
Pero
A
1
A
2
A
3
= ,
y por lo tanto
0 = P (A
1
A
2
A
3
) 6= P (A
1
) P (A
2
) P (A
3
) =
1
8
.
Teorema 1.3 A
1
, ..., A
k
son eventos independientes si y slo si para cualquier
sucesin (i
1
, ...i
h
), h k, con i
r
6= i
s
si r 6= s y tal que
P
_
_
h
\
j=2
A
i
j
_
_
> 0,
se tiene que
P
_
_
A
i
1

h
\
j=2
A
i
j
_
_
= P (A
i
1
) . (1.1)
Demostracin. Supongamos primero que A
1
, ..., A
k
son independientes y demostraremos
que se cumple (1.1). Sean A
i
1
, A
i
2
, ..., A
i
h
tales que i
r
6= i
s
si r 6= s y
P

T
h
j=2
A
i
j

> 0. Entonces
P
_
_
A
i
1

h
\
j=2
A
i
j
_
_
=
P

T
h
j=1
A
i
j

P

T
h
j=2
A
i
j
=
Q
h
j=1
P

A
i
j

Q
h
j=2
P

A
i
j
= P (A
i
1
) .
Supongamos ahora que A
1
, ..., A
k
son eventos que satisfacen la propiedad
del enunciado. Queremos probar que entonces son independientes, es decir
que
P
_
_
h
\
j=1
A
i
j
_
_
=
h
Y
j=1
P

A
i
j

. (1.2)
26
Lo probaremos por induccin sobre h. Comenzaremos con h = 2. Dados A
i
1
y A
i
2
con i
1
6= i
2
, puede suceder que (a) P(A
i
2
) = 0 o que (b) P(A
i
2
) > 0.
En el caso (a) se tiene que como A
i
1
A
i
2
A
i
2
, resulta P(A
i
1
A
i
2
) = 0
y luego
P(A
i
1
A
i
2
) = P(A
i
1
)P(A
i
2
) (1.3)
En el caso (b) como vale (1.1) se tiene
P(A
i
1
|A
i
2
) =
P(A
i
1
A
i
2
)
P(A
i
2
)
= P(A
i
1
)
y luego tambin vale
P(A
i
1
A
i
2
) = 0 = P(A
i
1
)P(A
i
2
).
Esto muestra que (1.2) vale para h = 2.
Supongamos ahora que (1.2) vale para h y probemos que tambin vale
para h+1. Elegimos A
i
1
, A
i
2
, ..., A
i
h
, A
i
h+1
eventos. Consideramos dos casos
(a) Supongamos que P

T
h+1
j=2
A
i
j

= 0. En tal caso por la suposicin que


(1.2) vale para h conjuntos se tiene que
0 = P
_
_
h+1
\
j=2
A
i
j
_
_
=
h+1
Y
j=2
P

A
i
j

.
Luego
h+1
Y
j=1
P

A
i
j

= 0, (1.4)
y como
T
h+1
j=1
A
i
j

T
h+1
j=2
A
i
j
se tendr que
P
_
_
h+1
\
j=1
A
i
j
_
_
= 0. (1.5)
De (1.4) y (1.5) obtenemos que
P
_
_
h+1
\
j=1
A
i
j
_
_
=
h+1
Y
j=1
P

A
i
j

.
(b) Supongamos ahora que P

T
h+1
j=2
A
i
j

> 0. Entonces como estamos


suponiendo que (1.1) vale se tiene
P
_
_
A
i
1

h+1
\
j=2
A
i
j
_
_
= P (A
i
1
) ,
27
y luego
P

T
h+1
j=1
A
i
j

P

T
h+1
j=2
A
i
j
= P (A
i
1
) .
Equivalentemente
P
_
_
h+1
\
j=1
A
i
j
_
_
= P (A
i
1
) P
_
_
h+1
\
j=2
A
i
j
_
_
,
y como por la hipteisis inductiva (1.2) vale para h, se deduce
P
_
_
h+1
\
j=1
A
i
j
_
_
= P (A
i
1
)
h+1
Y
j=2
P

A
i
j

=
h+1
Y
j=1
P

A
i
j

. 2
Denicin 1.11 Sea I un conjunto nito o numerable, una sucesin {A
i
}
iI
se dice una particin de sii
1.
[
iI
A
i
=
2. Si i 6= j entonces
A
i
A
j
=
Teorema 1.4 (Teorema de la Probabilidad Total) Sea (, A, P) un es-
pacio de probabilidad, {A
n
}
nI
A una particin de con P(A
i
) > 0, para
todo i I y B A tal que P(B) > 0. Entonces
P (B) =
X
iI
P(A
i
)P (B|A
i
)
Demostracin. Como B se puede escribir como la siguiente unin disjunta
B =
[
iI
(B A
i
) ,
entonces como P(B|A
i
) = P(BA
i
)/P(A
i
), se tiene P(BA
i
) = P(A
i
)P(B|A
i
)
y por lo tanto
P (B) =
X
iI
P(A
i
)P (B|A
i
) . 2
28
Teorema 1.5 (Bayes) Sea (, A, P) un espacio de probabilidad y {A
i
}
1ik

A una particin de con P(A
i
) > 0, 1 i k. Sea B A con P(B) > 0.
Supongamos conocidas a priori las probabilidades P (B|A
i
) y P (A
i
) para
todo i. Entonces
P (A
i
|B) =
P (A
i
) P (B|A
i
)
P
k
j=1
P (A
j
) P (B|A
j
)
.
Demostracin. Usando el teorema de la probabilidad total teniendo en cuenta
que {A
j
}
1jk
es una particin y aplicando la denicin de probabilidad
condicional y el Teorema 1.4 se obtiene
P (A
i
|B) =
P (A
i
B)
P (B)
=
P (A
i
) P (B|A
i
)
P
k
j=1
P (A
j
) P (B|A
j
)
. 2
Ejemplo de aplicacin del Teorema de Bayes.
Consideremos un test que detecta pacientes enfermos de un tipo espec-
co de enfermedad. La deteccin corresponde a que el test de positivo. El
resultado de un test negativo se interpreta como no deteccin de enfermedad.
Sea
A
1
: el evento el paciente seleccionado no tiene la enferemedad
A
2
: el evento el paciente seleccionado tiene la enfermedad
Entonces {A
1
, A
2
} constituye una particin del espacio de probabilidad
Consideremos adems
T
+
: el evento el test da positivo
T

: el evento el test da negativo


Supongamos conocidas las probabilidades de ser sano o enfermo antes
de hacer el test (probabilidades apriori).
P (A
1
) = 0,99; P (A
2
) = 0,01.
Ademas supongamos que
P (T
+
|A
1
) = 0,01; P (T
+
|A
2
) = 0,99.
Observemos que para un test perfecto se pedira
P (T
+
|A
1
) = 0; P (T
+
|A
2
) = 1.
Es decir, estamos suponiendo que el test no es perfecto.
Calculemos la probabilidad de que dado que el test detecta enfermedad
el paciente sea efectivamente enfermo (esta probabilidad se denomina prob-
abilidad a posteriori). De acuerdo al Teorema de Bayes se tiene
29
P (A
2
|T
+
) =
P (A
2
) P (T
+
|A
2
)
P (A
1
) P (T
+
|A
1
) +P (A
2
) P (T
+
|A
2
)
= 0,5.
y
P (A
1
|T
+
) = 1 P (A
2
|T
+
) = 0,5
La conclusin es que si el test da positivo, no hay una evidencia fuerte
de que el paciente est enfermo o sano ya que ambas probabilidades condi-
cionales son iguales a 0.50. Luego un test como el descripto no es til para
detectar la enfermedad.
Si logramos tener
P (T
+
|A
1
) = 0,001; P (T
+
|A
2
) = 0,999
la situacin cambia; en tal caso resulta P (A
2
|T
+
) = 0,91, que es ms acept-
able que la anterior.
30
Captulo 2
Variable Aleatoria.
2.1. Concepto de variable aleatoria.
En muchos casos interesa conocer solamente alguna caracterstica numri-
ca del resultado del experimento aleatorio. Demos dos ejemplos:
1. El experimento consiste en tirar dos dados y los posibles resultados
son = { (x, y) : x I
6
, y I
6
} donde I
k
= {1, 2, ..., k} y para cada
resultado (x, y) interesa solo la suma de los dados x +y.
2. El experimento consiste en un tiro al blanco y el conjunto de los
resultados es = { (x, y) : x R, y R}, x e y son la abcisa y
ordenada del punto donde peg el tir tomando origen (0, 0) el punto
correspondiente al blanco. En este ejemplo solo interesa la distancia
al blanco, es decir (x
2
+y
2
)
1/2
Denicin 2.1 Sea (, A, P) un espacio de probabilidad. Una variable aleato-
ria es una funcin X : R tal que para todo x R
X
1
((, x]) A. (2.1)
Observaciones.
1. La condicion (2.1) permite calcular
P({ : X() x}) = P(X
1
((, x])).
2. El concepto de variable aleatoria es esencialmente el mismo que el
de funcin medible en teora de la medida. Si (, A, ) es un espacio
de medida f : A R se dice medible sii para todo x vale que
f
1
((, x])) A.
31
3. Si A es el conjunto de partes de , como es usual cuando es nito
o numerable, la condicin (2.1) se cumple trivialmente.
Teorema 2.1 Sea X una variable aleatoria sobre un espacio de probabili-
dad (, A, P). Entonces vale que X
1
(B) A para todo B B. (B es el
conjunto de borelianos en R).
Demostracin. Como por denicin X
1
((, x]) A, basta con vericar
que
= {A R : X
1
(A) A}
es una lgebra. Si esto es cierto se tendr que B , puesto que la
lgebra de Borel es la ms chica que contiene a las semirectas. Veamos
que esto es cierto.
(a) R pues
X
1
(R) = A.
(b) Si A , entonces A
c
. Como X
1
(A) A, se tendr que
X
1
(A
c
) =

X
1
(A)

c
A.
(c) Sea {A
n
}
nN
. Luego X
1
(A
n
) A para todo n y como A es un
lgebra se tendr que
[
nN
X
1
(A
n
) A.
Luego
X
1

[
nN
A
n
!
=
[
nN
X
1
(A
n
) A.
(a), (b) y (c) prueban que es una -lgebra. 2
2.2. Espacio de probabilidad asociado a una vari-
able aleatoria.
Sea un espacio de probabilidad (, A, P) y sea X : R una variable
aleatoria. Asociada a esta variable podemos denir un nuevo espacio de
probabilidad (R, B, P
X
) donde para todo B B se dene
P
X
(B) = P

X
1
(B)

.
Obsrvese que P

X
1
(B)

est denido ya que X


1
(B) est en A.
Vamos a mostrar que P
X
es efectivamente una probabilidad. La funcin P
X
se denomina probabilidad inducida por X o distribucin de X.
32
Si a uno le interesa slo el resultado de la variable aleatoria, esto permite
trabajar en un espacio de probabilidad donde el espacio muestral es R y la
lgebra es B, la lgebra de Borel.
Teorema 2.2 P
X
es efectivamente una funcin de probabilidad.
Demostracin.
(a)
P
X
(R) = P

X
1
(R)

= P () = 1.
(b) Si {B
i
}
iN
B es una sucesin disjunta dos a dos, entonces {X
1
(B
i
)}
iN
tambin lo es. Luego
P
X

[
iN
B
i
!
= P

X
1

[
iN
B
i
!!
= P

[
iN
X
1
(B
i
)
!
=
=
X
iN
P

X
1
(B
i
)

=
X
iN
P
X
((B
i
)) . 2
Deniremos el concepto de funcin medible
Denicin 2.2 Una funcin g : R R, se dice medible Borel sii para todo
x R
g
1
((, x]) B.
Observaciones.
1. Trabajaremos en este curso con funciones medibles Borel, de man-
era que a veces nos referiremos a ellas simplemente con el nombre de
medibles.
2. Si B B resultar g
1
(B) B. Este resultado se demuestra como el
anlogo para variables aleatorias.
3. Considerando un espacio de probabilidad con = R y A = B es
inmediato que g es medible Borel es equivalente a que g es una variable
aleatoria.
Ejercicio. Demostrar los siguientes resultados:
Propiedad 2.1 Si g : R R es continua entonces g es medible.
33
Propiedad 2.2 Si g : R R es montona entonces g es medible.
Propiedad 2.3 Si B es boreliano, su funcin caracterstica I
B
es medible.
Propiedad 2.4 Sea {f
n
}
n1
es una sucesin de funciones medibles. En-
tonces
(i) Las siguientes funciones son medibles
f (x) = inf
nN
{f
n
(x)},
f (x) = sup
nN
{f
n
(x)}.
1. Tambin son medibles
f (x) = lm
n
f
n
(x) ,
f (x) = lm
n
f
n
(x) .
En particular si existe el lmite puntual
f (x) = lm
n
f
n
(x)
es medible.
El siguiente teorema muestra que la composicin de una variable aleato-
ria con una funcin medible es una variable aleatoria.
Teorema 2.3 Si g : R R es medible y X : R es una variable aleato-
ria, entonces g (X) : R es tambin una variable aleatoria.
Demostracin. Basta con observar que dado B B
[g (X)]
1
(B) = X
1

g
1
(B)

Como C = g
1
(B) B, resulta que tambin X
1

g
1
(B)

B. 2
Como consecuencia de este teorema si g es continua y X es una variable
aleatoria resulta que g(X) tambien una variable aleatoria. Por ejemplo si X
es una variable aleatoria, entonces seno(X) , coseno(X) , a
X
, con a constante
son variables aleatorias.
Teorema 2.4 Si X, Y son variables aleatorias entonces
(i) X +Y , X Y son variables aleatorias.
(ii) Si P (Y 6= 0) = 1 entonces X/Y es una variable aleatoria.
Demostracin. Las demostraciones de (i) y (ii) se vern ms adelante.
34
2.3. Funcin de distribucin de una variable aleato-
ria.
Denicin 2.3 Sea X una variable aleatoria. Se dene la funcin de dis-
tribucin asociada a X como la funcin F
X
: R [0, 1] dada por
F
X
(x) = P
X
((, x]) = P

X
1
((, x])

.
Observacin. Como veremos, la importancia de F
X
es que caracteriza la
distribucin de X. Es decir F
X
determina el valor de P
X
(B) para todo
B B
Propiedades de la funcin de distribucin.
Las cuatro propiedades que probaremos en el Teorema 2.5 van a carac-
terizar a las funciones de distribucin.
Teorema 2.5 Sea X una variable aleatoria sobre (, A, P) y sea F
X
su
funcin de distribucin. Entonces se tiene
1. F
X
es montona no decreciente, es decir x
1
< x
2
implica F
X
(x
1
)
F
X
(x
2
) .
2. lm
x
F
X
(x) = 1.
3. lm
x
F
X
(x) = 0.
4. F
X
es continua a derecha en todo punto de R.
Demostracin.
1. Si x < x
0
entonces
(, x] (, x
0
],
y por lo tanto
F
X
(x) = P ((, x]) P

(, x
0
]

= F
X

x
0

.
2. En primer lugar veamos que
lm
n
F
X
(n) = 1.
Consideremos la sucesin montona creciente de conjuntos
A
n
= (, n], n N.
Entonces
[
nN
A
n
= R.
35
Luego de acuerdo con la propiedad para sucesiones crecientes de even-
tos
lm
n
F
X
(n) = lm
n
P
X
(A
n
) = P
X

[
nN
A
n
!
= P
X
(R) = 1.
Ahora veamos que efectivamente lm
n
F
X
(x) = 1, esto es para todo
> 0 existe x
0
> 0 tal que si x > x
0
entonces se cumple |F
X
(x)1| <
. O equivalentemente
1 < F
X
(x) < 1 +.
Por 0 F
X
(x) 1, se cumple que para cualquier > 0, F
X
(x) <
+1. Por lo tanto slo tenemos que mostrar que existe x
0
> 0 tal que
si x > x
0
entonces se cumple
1 < F
X
(x) .
Sabemos que dado > 0 existe un n
0
N tal que si n > n
0
entonces
1 < F
X
(n) .
Tomando x
0
= n
0
y teniendo en cuenta la monotona de F
X
, se tendr
que si x > x
0
entonces
1 < F
X
(n
0
) F
X
(x) .
3. Se demuestra de manera similar a (2). En primer lugar se prueba que
lm
n
F
X
(n) = 0.
Luego se considera la sucesin montona decreciente que converge a
A
n
= (, n],
y se obtiene
lm
n
P
X
(A
n
) = 0.
Luego se procede como en (2).
4. Queremos ver que F
X
es continua a derecha en cualquier punto x
0
R.
Es decir, dado > 0 existe > 0 tal que si
0 < x x
0
<
entonces
F
X
(x
0
) F
X
(x) F
X
(x
0
) +.
36
La primer inecuacin es vlida siempre ya que como x
0
< x entonces
F
X
(x
0
) F
X
(x
0
) F
X
(x). Basta entonces probar que F
X
(x)
F
X
(x
0
) +. Consideremos la sucesin decreciente de conjuntos
A
n
=

, x
0
+
1
n

que satisface
\
nN
A
n
= (, x
0
].
Entonces
lm
n
F
X

x
0
+
1
n

= lm
n
P
X
(A
n
) = P
X

\
nN
A
n
!
= P
X
((, x
0
]) = F
X
(x
0
)
Luego existe n
0
N tal que si n > n
0
entonces
F
X

x
0
+
1
n

F
X
(x
0
) +
Si tomamos < 1/n
0
, entonces para todo x tal que 0 < x x
0
< se
tendr
F
X
(x) F
X
(x
0
+) F
X

x
0
+
1
n
0

F
X
(x
0
) +.2
Dada una funcin g : R R, denotemos por lm
xx
0

g(x) el lmite de
g(x) cuando x tiende a x
0
por la izquierda. Entonces tenemos la siguiente
propiedad de la funcin de distribucin.
Propiedad 2.5 Para todo x
0
R se tiene que
lm
xx
0

F
X
(x) = F
X
(x
0
) P
X
({x
0
}) .
Demostracin. Sea a = F
X
(x
0
) P
X
({x
0
}) . Tenemos que mostrar que dado
> 0 existe > 0 tal que si x
0
< x < x
0
, entonces
a F
X
(x) a +. (2.2)
Tenemos que
a = P
X
((, x
0
]) P
X
({x
0
}) = P
X
((, x
0
)).
37
Como x
0
< x < x
0
implica que (, x] (, x
0
), se tendr que
F
X
(x) = P
X
((, x]) P
X
((, x
0
)) = a.
Luego, para probar (2.2) bastar probar que x
0
< x < x
0
implica
a F
X
(x). (2.3)
Como la sucesin de intervalos A
n
= (, x
0
1/n] es creciente y
[
nN
A
n
= (, x
0
),
se tendr
lm
n
F
X
(x
0
1/n) = lm
n
P
X
(A
n
) = P
X
((, x
0
))
= a.
Luego existe n
0
tal que F
X
(x
0
1/n
0
) a . Sea = 1/n
0
y tomemos
x
0
< x < x
0
. Por la monotona de F
X
se tendr
a F
X
(x
0
1/n
0
) = F
X
(x
0
) F
X
(x),
y por lo tanto (2.3) se cumple. Esto prueba la Propiedad 2.5. 2
Propiedad 2.6 F
X
es continua a izquierda en x
0
si y slo si P
X
({x
0
}) = 0.
Demostracin. El resultado es inmediato a partir de la Propiedad 2.5. 2
Demostracin.
Teorema 2.6 Sea F
X
la funcin de distribucin de una v.a X. Entonces el
conjunto de puntos de discontinuidad de F
X
es a lo sumo numerable.
Demostracin. De acuerdo a la Propiedad 2.6, el conjunto de puntos de dis-
continuidad est dado por
A = {x : P
X
({x}) > 0}.
Para todo k N sea
A
k
=

x : P
X
({x}) >
1
k

.
Entonces es fcil mostrar que

[
k=1
A
k
= A.
38
Luego para demostrar el teorema bastar probar que para k N se tiene
que #A
k
< . En efecto, supongamos que para algn k
0
existen innitos
puntos {x
n
}
n1
tal que para todo n N se cumpla
P
X
({x
n
}) >
1
k
0
.
Entonces si
B =
[
iN
{x
i
}
se tendr
P
X
(B) =

X
i=1
P
X
({x
i
}) >

X
i=1
1
k
0
= ,
lo que es un absurdo. 2
Veremos ahora que toda funcin con las cuatro propiedades del Teorema
2.5 es una funcin de distribucin para cierta variable aleatoria X (no nica).
Para eso se requiere el siguiente teorema que daremos sin demostracin.
Teorema 2.7 (de Extensin) Sea F : R [0, 1] una funcin con las
cuatro propiedades del Teorema 2.5 . Luego existe una nica probabilidad P
sobre (R, B) tal que para todo x R se tiene
P ((, x]) = F (x) .
Este Teorema no se demostrar en este curso ya que requiere teora de
la medida. La la probabilidad P se denomina extensin de la funcin F.
Veremos ahora algunas consecuencias del Teorema de Extensin.
Corolario 2.1 Si X y X

son variables aleatorias tales que F


X
= F
X
.
Entonces para todo B B se tendr
P
X
(B) = P
X
(B) .
Demostracin. Es consecuencia de la unicidad del teorema de extensin. 2
Corolario 2.2 Si F satisface las cuatro propiedades del Teorema 2.5 , en-
tonces existe una variable aleatoria X (no necesariamente nica) tal que
F = F
X
.
Demostracin. De acuerdo al teorema de extensin se puede denir un espacio
de probabilidad (R, B, P) de forma tal que para todo x R
F (x) = P ((, x]) .
Ahora consideramos la funcin identidad X : R R denida como X (x) =
x para todo x R. Entonces se cumple que
F
X
(x) = P
X
((, x]) = P(X
1
((, x])) = P((, x]) = F (x) . 2
39
40
Captulo 3
Variables aleatorias
discretas y continuas.
Existen varios tipos de variables aleatorias. En este curso slo estudiare-
mos con detalle las discretas y las (absolutamente) continuas.
3.1. Variables aleatorias discretas.
Denicin 3.1 Se dice que una v.a. X es discreta sii existe A R nito
o numerable tal que P
X
(A) = 1.
Observacin. Ese conjunto A no tiene porque ser nico. Si se le agrega
un conjunto nito o numerable de probabilidad cero, seguir teniendo esta
propiedad. A continuacin vamos a encontrar el conjunto ms chico que
tiene esta propiedad.
Denicin 3.2 Sea X una variable aleatoria discreta. Se dene el rango
de X como el conjunto de los puntos de discontinuidad de la funcin de
distribucin, es decir por
R
X
= {x R : P
X
({x}) > 0}.
Teorema 3.1 Sea X una variable aleatoria discreta. Luego (i) P
X
(R
X
) =
1,(ii) Si P
X
(A) = 1, entonces R
X
A.
Demostracin.
(i) Sea A un conjunto a lo sumo numerable tal que P
X
(A) = 1. Luego A
se puede escribir como la siguiente unin disjunta
A = (A R
X
) (AR
X
) .
41
Entonces
1 = P
X
(A)
= P
X
((A R
X
) (AR
X
))
= P
X
(A R
X
) +P
X
(AR
X
) . (3.1)
Luego basta probar que
P
X
(AR
X
) = 0. (3.2)
El conjunto AR
X
es nito o innito numerable. Adems para todo
x AR
X
se tiene que P
X
({x}) = 0. Luego, como
AR
X
=
[
xAR
X
{x},
resulta que
P
X
(AR
X
) =
X
xP
X
(AR
X
)
P
X
({x}) = 0.
Luego hemos demostrado (3.2). Luego por (3.1) se tiene P
X
(A R
X
) =
1, y luego tambin P(R
X
) = 1.
(ii) Sea un conjunto A numerable tal que P
X
(A) = 1. Supongamos que
exista x
0
R
X
tal que x
0
/ A entonces consideramos
e
A = A{x
0
} y
se obtiene que
P
X
(
e
A) = P
X
(A) +P
X
({x
0
}) > P
X
(A) = 1,
lo cual es un absurdo. 2
La importancia de R
X
reside en el hecho de que para calcular la proba-
bilidad de un evento B solo interesan los puntos de B que estn en R
X
. En
este sentido se dice que la probabilidad se concentra en R
X
.
Teorema 3.2 Para todo B B se tiene
P
X
(B) = P
X
(R
X
B) .
Demostracin. Podemos escribir a B como la siguiente unin disjunta
B = (R
X
B) (B R
X
) , (3.3)
y tomando probabilidad en ambos miembros se obtiene
P
X
(B) = P
X
(R
X
B) +P
X
(B R
X
) .
42
Pero
B R
X
(R
X
)
c
,
de manera que
P
X
(B R
X
) P
X
((R
X
)
c
) = 0.
Luego P
X
(B R
X
) = 0 y el teorema resulta de (3.3). 2
Denicin 3.3 Sea X una variable aleatoria discreta. Se dene la funcin
de densidad de probabilidad asociada a la variable X como la funcin
p
X
: R [0, 1]
tal que
p
X
(x) = P
X
({x}) .
Tambin p
X
se suele llamar funcin de probabilidad puntual de X o funcin
de frecuencia de X.
Observacin. La funcin de densidad satisface p
X
(x) > 0 sii x R
X
y
determina totalmente la probabilidad P
X
.
Para ver esto probaremos el siguiente teorema.
Teorema 3.3 Si B B entonces
P
X
(B) =
X
xBR
X
p
X
(x) .
Demostracin. B R
X
se puede escribir como la siguiente unin disjunta
B R
X
=
[
xBR
X
{x}.
Como B R
X
es nito o numerable se tiene
P
X
(B) = P
X
(R
X
B) =
X
xBR
X
p
X
(x) 2.
3.2. Ejemplos de distribuciones discretas.
3.2.1. Distribucin Binomial.
Supongamos que se repite n veces un experimento que puede dar lugar a
dos resultados: xito o fracaso. Supongamos que todos los experimentos son
independientes y tienen la misma probabilidad de xito . Sea X la variable
aleatoria denida como el nmero total de xitos. La distribucin de esta
variable se denomina binomial con n repeticiones y probabilidad de xito .
La denotaremos con Bi (, n) .
43
Para formalizar este experimento aleatorio tomaremos como espacio mues-
tral
= {(
1
,
2
, ...,
n
) :
i
{0, 1}} ,
donde
i
= 1 indicar que el i-simo experimento result xito y
i
= 0 que
fue fracaso. Como es nito podemos tomar como lgebra A el conjunto
de partes de .
La variable X se puede denir por
X ((
1
,
2
, ...,
n
)) =
n
X
i=1

i
.
El rango de esta variable es R
X
= {0, 1, ..., n}. Obtendremos seguida-
mente su funcin de densidad. Sea 0 x n, el evento {X = x} est dado
por
A
x
= {(
1
,
2
, ...,
n
) :
n
X
i=1

i
= x}.
En primer lugar determinaremos la cantidad de elementos del conjunto
A
x
. Claramente un elemento de A
x
queda determinado por los x lugares
entre los n posibles donde aparecen los unos. De manera que
#(A
x
) =

n
x

.
Obsrvese que el espacio muestral no es equiprobable, por lo que la prob-
abilidad no se determina con el esquema casos favorables / casos igualmente
posibles.
Sea el resultado de un experimento cualquiera. Si = 0 entonces
P () = 1 y si = 1 entonces P () = . Esto puede escribirse de
manera ms compacta de la siguiente manera
P () =

(1 )
1
.
En primer lugar calculemos la probabilidad de un elemento arbitrario
del espacio muestral. Teniendo en cuenta la independencia de los resultados
de los distintos experimentos y que la ocurrencia de (
1
,
2
, ...,
n
) involucra
una interseccin de eventos se tiene que
P ((
1
,
2
, ...,
n
)) = P

n
\
i=1
{en el experimento i el resultado es
i
}
!
=
n
Y
i=1
P (
i
)
=
n
Y
i=1

i
(1 )
1
i
=
=
n
P
i=1

i
(1 )
n
n
P
i=1

i
.
44
Ahora si = (
1
,
2
, ...,
n
) A
x
entonces
P
n
i=1

i
= x y queda que la
probabilidad de ocurrencia de cualquier elemento de A
x
es
p
X
() = p
X
((
1
,
2
, ...,
n
)) =
x
(1 )
nx
En denitiva como A
x
se puede escribir como la siguiente unin disjunta
A
x
=
[
A
x
{}
entonces
p
X
() = P ({ : X() = x})
= P (A)
=
X
Ax
P ({}) =
= #(A
x
)
x
(1 )
nx
=

n
x

x
(1 )
nx
.
3.2.2. Distribucin Binomial Negativa (o Distribucin de Pas-
cal).
Consideremos, como en el caso de la distribucin binomial, un exper-
imento aleatorio cuyo resultado es xito con probabilidad y fracaso con
probabilidad 1. Supongamos que se hacen repeticiones independientes del
experimento hasta que ocurran k xitos. Los parmetros de esta distribu-
cin son : probabilidad de xito y k : el nmero de xitos buscado.
Llamaremos X a la variable aleatoria denida como el nmero de experi-
mentos que hay que realizar para obtener los k xitos. La distribucin de
esta variable se denomina binomial negativa o de Pascal y se la denotar
con BN(, k). El rango de X es
R
X
= {m N : m k}
el cual es innito numerable.
Consideremos la sucesin variables aleatorias independientes Z
i
, i N
denidas por
Z
i
=

1 si el i-simo experimento es xito
0 si el i-simo experimento es fracaso,
y denimos las variables
Y
i
=
i
X
j=1
Z
j
,
45
Claramente Y
i
cuenta la cantidad de xitos que se alcanzaron en los primeros
i experimentos. Luego su distribucin es Bi(, i).
El evento {X = x}, o sea el evento denido como la cantidad de expe-
rimentos necesarios para alcanzar k xitos es x, puede escribirse como una
interseccin de dos eventos
{X = x} = {Y
x1
= k 1} {Z
k
= 1} .
Los dos eventos del lado derecho de la ltima ecuacin son independien-
tes. Luego, usando el hecho que Y
x1
tiene distribucin Bi(, x 1) resulta
para x k.
p
X
(x) = P (X = x)
= P (Y
x1
= k 1) P (Z
k
= 1)
=

x 1
k 1

k1
(1 )
xk

=

x 1
k 1

k
(1 )
xk
. (3.4)
3.2.3. Distribucin Geomtrica.
Se llama distribucin geomtica a la BN(, k), con k = 1. Luego es la
distribucin de la variable aleatoria X denida como el nmero de expe-
rimentos necesarios para alcanzar el primer xito. A esta distribucin la
denotarenos como G().
El rango de los valores posibles para la v.a. X es
R
X
= {1, 2, ..., n, ...}.
Reemplazando k = 1 en (3.4) se obtiene
p
X
(x) =

x 1
0

(1 )
x1
= (1 )
x1
.
Podemos vericar que

X
x=1
p
X
(x) =

X
x=1
(1 )
x1
=

X
x=1
(1 )
x1
=

X
j=0
(1 )
j
=
1
1 (1 )
= 1.
46
3.2.4. Distribucin Hipergeomtrica.
Consideremos una urna que contiene N bolillas de las cuales D son
negras y N D blancas. Se extraen secuencialmente (una a una) n bolillas
y se dene la variable X como el nmero total de bolilas negras extradas.
Si cada bolilla obtenida es repuesta en la urna antes de obtener la siguiente,
el resultado de cada extraccin es independiente de las anteriores, ya que
esos resultados no modican la composicin de la urna. Luego en este caso
X tendr distribucin Bi(, n) con = D/N, ya que este nmero es la
probabilidad de sacar cada vez una bolilla negra.
Si despus de cada extraccin la bolilla obtenida no se repone, no hay
independencia en los resultados de las extracciones y la distribucin de X
se denomina hipergeomtrica. La denotaremos por H(N, D, n).
Estudiemos el rango de esta distribucin. Por un lado podemos obser-
var que X no puede ser un nmero negativo, ni tampoco mayor que n, la
cantidad total de bolillas extraidas. Por lo tanto:
0 X n. (3.5)
Por otro lado, claramente a lo sumo se pueden extraer D negras, y luego
X D. (3.6)
Adems el nmero de total de bolillas blancas extraidas debe ser menor que
N D. Por lo tanto tambin tenemos
n X N D. (3.7)
En denitiva de (3.5), (3.6) y (3.7) obtenemos
R
X
= {x N : m ax (0, n N +D) x mn(n, D)}.
Podemos pensar que las D bolillas negras estn numeradas de 1 a D, y
las blancas de D + 1 a N. Luego si denotamos
I
N
={x N : 1 x N},
el resultado de extraer n bolillas ser un subconjunto de I
N
con cardinal n.
Luego, podemos tomar como espacio muestral
= {A I
N
: #A = n}.
Como todos estos subconjuntos tienen la misma probabilidad de ser ex-
trados, estaremos en un caso de resultados equiprobables. El cardinal de
es

N
n

.
47
El evento {X = x} corresponder a aquellos subconjuntos A que con-
tienen x bolillas negras y nx blancas. Para obtener el cardinal de {X = x}
procedamos de la siguiente manera. Primero consideremos el nmero de sub-
conjuntos de x bolas negras elegidas entre las D posibles. Este nmero es

D
x

.
Para cada uno de estos subconjuntos de x bolas negras hay

N D
n x

formas de elegir las restantes n x blancas. Luego


#{X = x} =

D
x

N D
n x

,
y por lo tanto
p
X
(x) =
#A
x
#
=

D
x

ND
nx

N
n
.
Ejercicio.
Sea n N jo y consideremos una sucesin de distribuciones hiperge-
omtricas H(N, D
N
, n), N N tales que
lm
N
D
N
N
= .
Entonces si p
H
N
es la densidad de probabilidad de una distribucin H(N, D
N
, n)
y p
B
la de una Bi(, n), se tiene
lm
N
p
H
N
(x) = p
B
(x) .
Es decir para N sucientemente grande la distribucin H(N, D
N
, n) se
puede aproximar por la distribucin Bi(, n) . Heursticamente, este resulta-
do puede interpretarse como que debido a que n es pequeo con respecto a
N, la reposicin o no de las bolillas extradas no cambia substancialmente
la composicin de la urna.
3.2.5. Distribucin de Poisson.
La distribucin de Poisson se presenta cuando se considera el nmero
de veces que ocuurre cierto evento en un intervalo determinado de tiempo.
Por ejemplo
(a) El nmero de clientes que entran en un determinado banco durante
un da.
48
(b) El nmero de accidentes automovilsticos que ocurren en la ciudad de
Buenos Aires por mes.
(c) El nmero total de llamadas telefnicas que llegan a una central tefni-
ca entre las 15 hs. y 16 hs. de los das hbiles.
Para que las distribuciones de estas variables sean de Poisson, se requiere
un conjunto de supuestos que trataremos con mayor detalle ms adelante
(ver el captulo 12).
Por ahora slo indicamos su funcin de densidad. Para cada > 0, se
dene la distribucin de Poisson con parmetro que simbolizaremos por
P() por la siguiente densidad de probabilidad
p
X
(x) = e

x
x!
para x N
0
,
donde N
0
es el conjunto de enteros no negativos.
Es claro que

X
x=0
p
X
(x) =

X
x=0
e

x
x!
= e


X
x=0

x
x!
= e

= e
0
= 1.
3.2.6. Grco de la funcin de distribucin asociada a una
variable aleatoria discreta.
Supongamos que el rango de X sea nito R
X
= {x
1
, ..., x
n
} y x
1
< <
x
n
. En tal caso la funcin de distribucin F
X
es una funcin no decreciente
escalonada, en los puntos de probabilidad positiva, x
j
, 0 j n.
Sea
c
i
=
i
X
j=1
p
X
(x
j
) ; 1 i n.
Luego se tendr
F
X
(x)
_
_
_
0 si x (, x
1
)
c
i
si x [x
i
, x
i+1
), 1 i n 1
1 si x [x
n
, ).
Ejercicio. Gracar la F
X
para una Bi(1/4,10).
3.3. Variables aleatorias absolutamente continuas.
Denicin 3.4 Se dice que una variable aleatoria X es continua sii F
X
es
continua para todo x R.
49
Observacin. Esto es equivalente a pedir que la probabilidad en todo
punto es cero.
Denicin 3.5 Se dice que F
X
es absolutamente continua sii existe una
funcin f
X
: R R
0
tal que f
X
es integrable Riemann sobre R y para todo
x R se tiene
F
X
(x) =
Z
x

f
X
(t) dt.
La funcin f
X
se denomina funcin de densidad de la probabilidad asociada
a X.
Propiedades de las Distribuciones Continuas.
Propiedad 3.1 (a) Si f
X
es una funcin de densidad de probabilidad
para una variable aleatoria X entonces
Z
+

f
X
(t) dt = 1.
(b) Recprocamente si f 0 es integrable Riemann sobre R y cumple que
Z
+

f (t) dt = 1,
entonces deniendo
F (x) =
Z
x

f (t) dt.
se obtiene una funcin que resulta ser la funcin de distribucin de
alguna variable aleatoria X.
Demostracin.
(a) Resulta de
Z
+

f
X
(t) dt = lm
x
Z
x

f
X
(t) dt
= lm
x
F
X
(x) = 1.
(b) Usando propiedades de las integrales de Riemann se puede mostrar
que F
X
satisface las cuatro propiedades del Teorema 2.5 . Luego este
resultado se obtiene del Corolario 2.2 del Teorema 2.7. 2
50
Propiedad 3.2 Supongamos que F
X
es absolutamente continua. Entonces
P
X
((a, b]) =
Z
b
a
f
X
(t) dt.
Demostracin.
P
X
((a, b]) = P
X
((, b]) P
X
((, a])
= F
X
(b) F
X
(a)
=
Z
b

f
X
(t) dt
Z
a

f
X
(t) dt
=
Z
b
a
f
X
(t) dt. 2
Propiedad 3.3 Si F
X
es absolutamente continua entonces es continua.
Demostracin. Primero supondremos que f
X
es acotada en un entorno del
punto x. Luego existe > 0 y M positivo tal que f(x) M para todo
x [x , x] . Luego para todo tenemos
P
X
({x}) P((x , x])
=
Z
x
x
f
X
(t) dt
M.
Como esto vale para todo , resulta P
X
({x}) = 0. Luego F
X
es continua
en x.
Supongamos ahora que f
X
no es acotada en ningn entorno del punto
x. Luego
F
X
(x) =
Z
x

f
X
(t) dt
se dene por
Z
x

f
X
(t) dt = lm
yx
Z
y

f
X
(t) dt
= lm
yx
F
X
(y),
y luego F
X
es continua en x.2
El nombre densidad nos recuerda la cantidad de masa por unidad de
longitud, rea o volumen segn el caso. En este caso se puede decir que
f
X
(x) indica la probabilidad por unidad de longitud en las cercanas del
punto x. Ms precisamente podemos enunciar el siguiente teorema.
51
Teorema 3.4 Sea f
X
una funcin de densidad continua en x
0
, entonces
lm
h0
P
X
([x
0
h, x
0
+h])
2h
= lm
h0
1
2h
Z
x
0
+h
x
0
h
f
X
(t) dt = f
X
(x
0
) .
Demostracin. Sea
M
h
= m ax{f
X
(x) : x [x
0
h; x
0
+h]}
y
m
h
= mn{f
X
(x) : x [x
0
h; x
0
+h]}.
Por continuidad
f
X
(x
0
) = lm
h0
M
h
= lm
h0
m
h
. (3.8)
Por otro lado valen las desigualdades
2hm
h

Z
x
0
+h
x
0
h
f
X
(t) dt 2hM
h
,
y dividiendo por 2h en todos los miembros queda:
m
h

1
2h
Z
x
0
+h
x
0
h
f
X
(t) dt M
h
.
Luego, teniendo en cuenta (3.8) y pasando al lmite cuando h 0 se obtiene
f
X
(x
0
) lm
h0
P
X
([x
0
h; x
0
+h])
2h
f
X
(x
0
) ,
de donde se deduce el Teorema. 2
Teorema 3.5 Sea f
X
una funcin de densidad continua en x
0
y F
X
la
distribucin asociada. Entonces F
X
es derivable en x
0
y
F
0
X
(x
0
) = f
X
(x
0
) .
Demostracin. Se deduce de la anterior. 2
Comentario vinculado a la teora de la medida.
En este prrafo el signo
R
corresponde a la integral de Lebesgue. Ms
generalmente se denen distribuciones absolutamente continuas utilizando
funciones Borel medibles. Sea f : R R
0
una funcin Borel medible tal
que
Z

f (t) dt = 1. (3.9)
52
Entonces se puede denir una funcin de distribucin absolutamente con-
tinua por
F(x) =
Z
x

f (t) dt, (3.10)


Se puede demostrar que la funcin F denida por (3.10) cumple las cuatro
propiedades del Teorema 2.5 y es continua y derivable en casi todo punto
con derivada f(x). Adems si P es la correspondiente probabilidad sobre R
asociada a F y garantizada por el Teorema de Extensin, dado cualquier
boreliano B se tendr
P(B) =
Z
B
f (t) dt =
Z

I
B
(t)f (t) dt,
donde I
B
(t) es la funcin indicadora del conjunto B.
3.4. Ejemplos de distribuciones continuas.
3.4.1. Distribucin uniforme en un intervalo.
Consideremos dos nmeros reales a < b. Luego la distribucin uniforme,
denotada por U(a, b), tiene como densidad
f
X
(x) =

k si x [a, b]
0 si x / [a, b] .
con k =
1
b a
> 0. Claramente
Z

f
X
(x)dx =
Z
b
a
kdx =
k
b a
= 1.
Ejercicio. Mostrar que la funcin distribucin de U(a, b) es
F
X
(x)
_

_
0 si x (, a)
x a
b a
si x [a; b)
1 si x (b, ).
Ejercicio. Mostrar que no existe ninguna distribucin uniforme sobre
toda la recta.
En particular consideremos la distribucin uniforme U (0, 1) que tiene
como densidad
f
X
(x) =

1 si x [a; b]
0 si x / [a; b] .
53
La funcin de distribucin es en este caso
F
X
(x) =
_
_
_
0 si x (, 0]
x si x (0, 1]
1 si x (1, ).
(3.11)
Observaciones.
1. Es claro que (3.11) es cierta puesto que si x (0, 1)
F
X
(x) =
Z
x

f
X
(t) dt
=
Z
0

f
X
(t) dt +
Z
x
0
f
X
(t) dt
= 0 +
Z
x
0
1dt
= x.
2. Sea I = (c, d) (0, 1) Cul es la probabilidad de que X (c, d)?
P
X
([c < X < d]) = F
X
(d) F
X
(c) = d c.
Es decir, la probabilidad que esta distribucin asigna a cada intervalo
contenido en [0, 1] es su longitud.
3. Pueden generarse distribuciones uniformes de muchas maneras difer-
entes. Por ejemplo podemos elegir dos nmeros A
1
, A
2
de ocho dgitos,
y denir A
3
por los ltimos ocho dgitos de A
1
A
2
. En general si ya
hemos denido A
1,
A
2
, ..., A
k
como enteros de ocho dgitos, podemos
denir recursimamente A
k+1
como los ltimos ocho dgitos de A
k1
A
k
.
Este proceso lo podemos continuar hasta obtener A
n
para un n dado.
Luego generamos n nmeros con distribucin U(0, 1) por
U
i
= A
i
10
8
, 1 i n.
Estos nmeros no sern aleatorios. Sin embargo se comportarn como si
fuesen variables aleatorias independientes con ditribucin U(0, 1). En par-
ticular, dados a y b tales que 0 < a < b < 1, se tendr que si n es grande
#{i : 1 i n, a < U
i
< b}
n
ser aproximadamente ba. Es decir la frecuencia con la cual los U
i
estn en
un intervalo (a, b) es aproximadamente la probabilidad que la distribucin
U(0, 1) asigna a ese intervalo.
54
3.4.2. Generacin de distribuciones a partir de la distribu-
cin uniforme en [0,1]
Vamos a mostrar cmo a partir de una variable aleatoria con distribucin
U (0, 1) se puede generar cualquier otra variable con cualquier funcin de
distribucin.
Para esto en primer lugar necesitamos algunas deniciones. Sabemos que
una funcin de distribucin no tiene por qu ser continua y mucho menos
biyectiva, de manera que en general su inversa no existe. Pero podemos
denir una funcin que tendr propiedades anlogas.
Sea F : R [0, 1] una funcin que cumple con las cuatro propiedades
del Teorema 2.5 que caracterizan una funcin de distribucin y consideremos
y (0, 1) .
Denimos
A
y
= {x R : F (x) y}.
Observaciones.
1. Puede ocurrir que exista una preimagen va F del punto y : F
1
(y) 6=
. Si F es continua por Bolzano podemos asegurar que asume todos
los valores intermedios entre el 0 y el 1 y en consecuencia en algn
punto x asumir el valor y.
2. Puede ocurrir tambin que no exista la preimagen. Por ejemplo si F
no es continua para algunos valores de y ocurrir que F
1
(y) = .
3. Puede ocurrir que existan innitas preimgenes. Basta con tomar una
funcin con las propiedades de funcin de distribucin que sea con-
stante en un intervalo. Para y igual a ese valor hay innitas preim-
genes.
Ejercicio. Dar un ejemplo de cada una de las situaciones y dibujar el
grco correspondiente.
Teorema 3.6 Existe el nmo del conjunto A
y
.
Demostracin. Basta probar que A
y
6= y est acotado inferiormente.
Comencemos probando que A
y
6= .Sabemos que F satisface la propiedad
(2) del Teorema 2.5 y por lo tanto
lm
n
F (n) = 1.
Como 0 < y < 1 existe n
0
N tal que
F (n
0
) y,
55
de manera que n
0
A
y
. Ahora probaremos que A
y
esta acotado inferior-
mente. Por la propiedad (3) del Teorema 2.5 se tiene que,
lm
n
F (n) = 0.
Como y > 0 entonces existe n
0
N tal que
F (n
0
) < y. (3.12)
Ahora bien si x A
y
no puede ser que n
0
> x puesto que por monotona
(Propiedad (1) del Teorema 2.5) se cumplira
F (n
0
) F (x) y,
en contradiccin con (3.12). En denitiva se tiene que si x A
y
, entonces
n
0
x, y por lo tanto A
y
esta acotado inferiormente. 2
En virtud de la existencia y unicidad del nmo podemos denir la si-
guiente funcin
Denicin 3.6 Dada
F : R [0, 1]
que satisface las propiedades de una funcin de distribucin (Propiedades
(1)-(4) del Teorema 2.5) se dene F
1
: (0, 1) R por
F
1
(y) = inf A
y
.
Propiedades de la funcin F
1
.
Propiedad 3.4 (a) Dada una funcin de distribucin F, se tiene
F

F
1
(y)

y.
(b) El nmo del conjunto A
y
resulta ser el mnimo de A
y
, es decir
F
1
(y) = mnA
y
.
Demostracin. Bastar probar (a), ya que en ese caso F
1
(y) pertenece al
conjunto A
y
. Por denicin de nmo existe una sucesin (x
n
)
nN
A
y
decreciente que converge a F
1
(y), es decir tal que
lm
n
x
n
= F
1
(y) .
Por la propiedad de continuidad a derecha de F
lm
n
F (x
n
) = F

F
1
(y)

. (3.13)
56
Ahora, como para todo n N se tiene que x
n
A
y
sabemos que
F (x
n
) y,
y luego por (3.13) resulta
F

F
1
(y)

y, (3.14)
por lo tanto (a) queda demotrado. Esto implica F
1
(y) A
y
. Luego hemos
mostrado (a) y por lo tanto tambin hemos demostrado (b). 2
Propiedad 3.5 Si F es continua entonces
F

F
1
(y)

= y.
Demostracin. Sabemos que F

F
1
(y)

y. Ahora supongamos que no se


cumple la igualdad, esto es que
F

F
1
(y)

> y.
Veremos que esto contradice el caracter de nmo del elemento F
1
(y) .
Tomemos un punto intermedio entre F

F
1
(y)

e y que llamaremos y

.
Entonces
y < y

< F

F
1
(y)

.
Por ser F continua, por el teorema de Bolzano se deduce que existe x


(0, 1) tal que
F (x

) = y

.
Luego reemplazando en la inecuacin anterior se obtiene la desigualdad
y < F (x

) < F

F
1
(y)

.
Por un lado esto dice que x

A
y
y por otro teniendo en cuenta la monotona
de F resulta
x

< F
1
(y) .
Esto contradice que F
1
(y) sea el mnimo, absurdo. 2
Propiedad 3.6 Dada una funcin de distribucin F, se cumple que
F
1
(F (x)) x.
Demostracin. Es claro que para todo x se tiene que x A
F(x)
puesto que
F (x) F (x) . Sabemos que F
1
(F (x)) es el mnimo de A
F(x)
y luego
a A
F(x)
implica F
1
(F (x)) a.
En particular si tomamos a = x A
F(x)
se obtiene el resultado buscado. 2
57
Teorema 3.7 (Caracterizacin de A
y
como semirecta) Sea F una fun-
cin de distribucin y tomemos y (0, 1) jo. Los conjuntos
A
y
= {x : F (x) y},
B
y
= {x : x F
1
(y)} = [F
1
(y) , +)
coinciden.
Demostracin. Sabemos por la Propiedad 3.4 (b) que
F
1
(y) = mnA
y
.
Por otro lado es fcil ver que si x A
y
y x

> x, entonces tambin x

A
y
.
Luego A
y
= [F
1
(y), ). 2
Ejercicio. Probar que F
1
es montona no decreciente y por lo tanto
medible.
Veremos ahora que dada cualquier funcin de distribucin F, a partir de
cualquier variable aleatoria con distribucin U(0, 1), se puede generar otra
variable aleatoria con funcin de distribucin F.
Teorema 3.8 Sea U una variable aleatoria con distribucin U(0, 1). Luego
si F es una funcin de distribucin (propiedades (1)-(4) del Teorema 2.5)
se tiene que X = F
1
(U) tiene funcin de distribucin F
Demostracin. Usando el Teorema 3.7 y el hecho de que F
U
(u) = u, 0 u
1, se tiene
F
X
(x) = P
X
((, x]) = P

{F
1
(U) x}

= P ({U F (x)})
= F
U
(F (x)) = F (x) . 2
Ejercicio. Sea X una variable con rango R
X
= N
0
(enteros no nega-
tivos) y sea p
j
= p
X
(j) , j N
0
. Vericar que F
1
X
es de la forma
F
1
X
(y) =

0 si 0 < y p
0
i si
P
i1
j=0
p
j
< y
P
i
j=0
p
j
, i 1.
Comprobar que el resultado anterior vale en este caso.
El siguiente teorema de demostracin inmediata es muy importante.
Teorema 3.9 Sean X y X

dos variables aleatorias tales que F


X
= F
X
.
Consideremos una funcin g medible y consideremos las variables aleatorias
obtenidas componiendo
Z = g (X) ; Z

= g (X

) .
Entonces
P
Z
= P
Z
.
58
Demostracin. Sea B B y probemos que
P
Z
(B) = P
Z
(B) .
Sabemos que
P
Z
(B) = P

Z
1
(B)

= P

X
1

g
1
(B)

= P
X

g
1
(B)

.
Por el Corolario 2.1 del Teorema de Extensin se tiene que P
X

g
1
(B)

=
P
X


g
1
(B)

y luego
P
Z
(B) = P
X


g
1
(B)

= P

X
1

g
1
(B)

= P

Z
1
(B)

= P
Z
(B) . 2
El siguiente resultado vale para funciones de distribucin continuas.
Teorema 3.10 Si X es una variable aleatoria con distribucin F
X
con-
tinua y consideramos la variable aleatoria Y = F
X
(X) entonces Y tiene
distribucin U(0, 1).
Demostracin. Consideremos una variable aleatoria U con distribucin U(0, 1)
y sea X

= F
1
X
(U) . Sabemos que X

tiene distribucin F
X
. Luego por el
Teorema 3.9 las variables
Y = F
X
(X) , Y

= F
X
(X

)
tienen la misma distribucin. Pero
Y

= F
X
(X

) = F
X

F
1
X
(U)

,
y siendo F
X
continua por Propiedad 3.5 se tiene F
X

F
1
X
(U)

= U. Luego
Y

tiene distribucin U(0, 1) y por lo tanto, de acuerdo al Teorema 3.9


tambin esa es la distribucin de Y. 2
3.4.3. Distribucin Normal N(,
2
).
La distribucin normal es tal vez la ms importante y sin lugar a dudas
la que se usa con mayor frecuencia. A veces este uso se hace de manera inade-
cuada sin vericar los supuestos que la identican. Veremos ms adelante la
importancia de esta distribucin. Adelantamos sin embargo, informalmente
59
que si {Y
n
}
nN
es una sucesin de variables a independientes tales que ningu-
na de ellas prevalezca sobre las otras, entonces la variable aleatoria
S
n
=
n
X
j=1
Y
j
es aproximadamente normal para n sucientemente grande. Esta distribu-
cin tiene mucha aplicacin en la teora de errores, donde se supone que el e-
rror total de medicin es la suma de errores que obedecen a diferentes causas.
La distribucin normal depende de dos parmetros R y
2
R
>0
.
En este captulo solo veremos la distribucin normal correspondiente a
= 0 y
2
= 1. En este caso la funcin de densidad es
f
X
(x) = Kexp

x
2
2

,
donde K es una constante y exp(x) es la funcin exponencial e
x
. Calculare-
mos la constante K de forma tal que
1 =
Z
+

Kexp

x
2
2

dx,
y por lo tanto
K =
1
R
+

exp

x
2
2

dx
.
Sea
I =
Z
+

exp

x
2
2

dx.
Para el clculo de esta integral podemos usar o bien residuos (teora
de anlisis complejo) o bien calcular I
2
como integral doble a traves de un
cambio de variable a cordenadas polares. Optamos por la segunda forma
I
2
=
Z
+

exp

x
2
2

dx
Z
+

exp

y
2
2

dy

=
Z
+

Z
+

exp

x
2
2

exp

y
2
2

dxdy
=
Z
+

Z
+

exp

x
2
+y
2

2
!
dxdy.
Ahora hacemos el cambio de variable
x(, ) = x = cos ()
y (, ) = y = sin()
60
Claramente se tiene
x
2
+y
2
=
2
La transformacin del cambio de variable T (, ) = (x(, ) , y (, )) =
( cos () , sin()) 0, 0 < 2 tiene matriz diferencial
DT (, ) =

x

=

cos () sin()
sin() cos ()

.
Entonces su jacobiano
J (, ) = det (DT (, )) = det

cos () sin()
sin() cos ()

= cos
2
() + sin
2
() = .
En denitiva |J (, ) | = y aplicando la frmula de cambio de variables
en integrales mltiples resulta
I
2
=
Z
+

Z
+

exp

x
2
+y
2

2
!
dxdy =
=
Z
+
0
Z
2
0
exp

2
2

dd =
= 2
Z
+
0
exp

2
2

d = 2
Z
+
0
exp

2
2

d.
Haciendo el cambio de variable
u =

2
2
,
du = d
se obtiene
I
2
= 2
Z
+
0
exp(u) du
= 2

exp(u) |
+
0

= 2,
y por lo tanto
I =

2
Luego
f
X
(x) =
1

2
exp

x
2
2

.
61
3.4.4. Distribucin Exponencial.
Esta distribucin depende de un parmetro que puede tomar cualquier
valor real positivo. Su funcin de densidad es
f(x) =

e
x
si x 0
0 si x < 0.
Haciendo la transformacin y = x, dy = dx se obtiene
Z

f(x)dx =
Z

0
e
x
dx =
Z

0
e
y
dy
= [e
y
] |

0
= 0 + 1 = 1.
Se deja como ejercicio vericar que la correspondiente funcin de distribucin
es
F(x) =

1 e
x
si x 0
0 si x < 0.
(3.15)
La distribucin exponencial con parmetro ser denotada por E().
Esta distribucin aparece generalmente cuando se trata de estudiar la
durabilidad de un mecanismo bajo el supuesto de que el sistema no se des-
gasta a lo largo del tiempo. Como ejemplo suele citarse a veces la duracin
de una lmpara elctrica. Sin embargo en este caso existe un cierto desgaste
propio de la lmpara y su distribucin no es exactamente exponencial. Esta
distribucin es ms adecuada para modelar la duracin de los mecanismos
electrnicos, ya que estos no tienen prcticamente desgaste.
Para precisar el concepto de desgaste decimos que la distribucin de X
no tiene desgaste cuando dado a > 0 y b > 0 se tiene
P (X a +b|X a) = P (X b) .
Esto signica que la probabilidad de que llegue a durar hasta el tiempo
a +b, dado que ha llegado hasta el tiempo a, es igual a la probabilidad de
que haya durado hasta el tiempo b. Es decir el proceso no tiene memoria
del tiempo que estuvo funcionando (no recuerda qu tan viejo es) y por
tanto, mientras funciona lo hace como si fuese nuevo.
Decimos por el contrario que hay desgaste si
P (X a +b|X a)
es una funcin decreciente de a.
Vamos a mostrar que la propiedad de falta de desgaste caracteriza a la
distribucin exponencial. Esto signica que las nicas distribuciones conti-
nuas y no negativas que tienen la propiedad de falta de desgaste son las
exponenciales.
62
Como {X a +b} {X a} = {X a +b} resulta que
P (X a +b|X a) =
P ({X a +b} {X a})
P (X a)
=
P ({X a +b})
P (X a)
.
Por lo tanto la propiedad de falta de desgaste se puede escribir como
P (X a +b)
P (X a)
= P (X b) ,
o equivalentemente
P (X a +b) = P (X b) P (X a) . (3.16)
Si X tiene distribucin continua de P (X a) = F
X
(a) resulta
1 F
X
(a) = P (X > a) = P (X a) .
Entonces denimos
G
X
(a) = 1 F
X
(a) ,
y como la propiededad de falta de memoria es equivalente (3.16), esta se
puede escribir tambin como
G
X
(a +b) = G
X
(a) G
X
(b) (3.17)
para todo a 0, b 0.
En el caso en que X tiene distibucin exponencial por (3.15) se tiene
G
X
(x) = e
x
para todo x 0. El siguiente teorema muestra que la propiedad de falta de
memoria caracteriza a las distribuiones exponenciales.
Teorema 3.11 Sea X una variable aleatoria continua con valores no neg-
ativos. Luego la propiedad de falta de memoria dada por (3.17) se cumple
si y slo si G
X
(x) = e
x
es decir si X tiene distribucin exponencial.
Demostracin. Supongamos primero que G
X
(x) = e
x
. Probaremos que
(3.17) se cumple. En efecto
G
X
(a +b) = e
(a+b)
= e
(a)+(b)
= e
a
e
b
= G
X
(a) G
X
(b) .
Supongamos ahora que (3.17) se cumple. Probaremos que G
X
(x) = e
x
para algn > 0. En primer lugar veamos que para todo n, dados a
1

0, ..., a
n
0 entonces
G
X

n
X
i=1
a
i
!
=
n
Y
i=1
G
X
(a
i
) .
63
Probaremos esta proposicin por induccin. Claramente vale para n = 2 por
hiptesis.
Supongamos que vale para n y probemos que vale para n + 1.
G
X

n+1
X
i=1
a
i
!
= G
X

n
X
i=1
a
i
+a
n+1
!
= G
X

n
X
i=1
a
i
!
G
x
(a
n+1
)
=

n
Y
i=1
G
X
(a
i
)
!
G
X
(a
n+1
)
=
n+1
Y
i=1
G
X
(a
i
) .
Ahora probaremos que para todo a 0 vale que
G
X
(a) = [G
X
(1)]
a
.
La estrategia es primero probarlo para cuando a es un entero no negativo,
luego cuando es un racional no negativo y por ltimo cuando es un nmero
real no negativo. Sea n N entonces
G
X
(n) = G
X
_
_
1 + 1 +... + 1
| {z }
n sumandos
_
_
= [G
X
(1)]
n
.
Ahora sea a =
m
n
Q el conjunto de los nmeros racionales. Entonces
G
X
(m) = G
X

n
m
n

= G
X
_
_
_
_
m
n
+... +
m
n
| {z }
n sumandos
_
_
_
_
= G
X

m
n

n
.
Entonces
G
X

m
n

= [G
X
(m)]
1
n
= [(G
X
(1))
m
]
1
n
= [G
X
(1)]
m
n
.
64
Por ltimo consideremos a R
0
. Elijamos una sucesin (r
n
)
nN
Q tal
que r
n
a. Siendo G
X
continua resulta
G
X
(a) = lm
n
G
X
(r
n
)
= lm
n
(G
X
(1))
r
n
= (G
X
(1))
lm
n
r
n
= [G
X
(1)]
a
. (3.18)
Veamos que 0 < G
X
(1) < 1. Supongamos que G
X
(1) = 0. Luego por (3.18)
G
X
(a) = 0 para todo a 0. En particular G
X
(0) = 0 y luego F
X
(0) =
1. Esto implica que P(X = 0) = 1 y luego X es discreta. Supongamos
ahora que G
X
(1) = 1. Luego por (3.18) tenemos que para todo a 0 se
tiene G
X
(a) = 1. Luego para todo a 0 resulta F
X
(a) = 0 y entonces
lm
x
F
X
(x) = 0, lo cual es un absurdo, ya que este lmite es 1. Luego
podemos denir
= log (G
X
(1)) ,
de manera que
G
X
(1) = e

Luego, usando (3.18), podemos escribir


G
X
(a) = [G
X
(1)]
a
= e
a
,
y el teorema queda probado. 2
3.5. Variables aleatorias mixtas.
Adems de las variables discretas y absolutamente continuas existen
otros tipos de variables. Un estudio exhaustivo de los tipos de variables
aleatorias requiere algunos conocimientos de la teora de la medida. Aqu
introduciremos las variables mixtas cuya funcin distribucin es una com-
binacin convexa de funciones de una distribucin discreta y otra absoluta-
mente continua.
Denicin 3.7 Decimos que F es una funcin de distribucin mixta si
es una combinacin convexa de una distribucin absolutamente continua y
otra discreta. Ms precisamente, si existen , 0 < < 1 , F
1
funcin de
distribucin absolutamente continua, F
2
funcin de distribucin discreta tal
que
F = (1 ) F
1
+F
2
. (3.19)
Teorema 3.12 Si F est dada por (3.19) se tiene que
65
(a) F es una funcin de distribucin.
(b) F no corresponde a la funcin de distribucin de una variable absolu-
tamente continua ni a una discreta.
Demostracin.
(a) Por el Corolario 2.2 de la pgina 39 basta probar que F satisface las
Propiedades 1-4 del Teorema 2.5. Probemos primero que F es mon-
tona no decreciente. Sean x < x
0
. Luego como F
1
y F
2
son montonas
no decrecientes se tendr F
1
(x) F
1
(x
0
) y como 1 > 0 resulta
(1 )F
1
(x) (1 ) F
1
(x
0
). (3.20)
Del mismo se tiene que
F
2
(x) F
2
(x
0
). (3.21)
Sumando miembro a miembro (3.20) y (3.21) resulta qie F(x) F(x
0
).
Multiplicando por una constante se conserva la propiedad de que una
funcin es continua a derecha y sumando funciones continuas a derecha
se obtiene otra funcin continua a derecha. Esto prueba que F es
continua a derecha.
Por otro lado, tenemos que
lm
x+
F (x) = lm
x+
((1 ) F
1
+F
2
) (x)
= (1 ) lm
x+
F
1
(x) + lm
x+
F
2
(x)
= (1 ) + = 1.
Finalmente, tambin vale que:
lm
x
F (x) = lm
x
((1 ) F
1
+F
2
) (x)
= (1 ) lm
x
F
1
(x) + lm
x+
F
2
(x)
= 0.
Por lo tanto (a) queda probado.
(b) Veamos ahora que F no corresponde a la funcin de de distribucin
de una variable absolutamente continua o discreta. Sean P
i
, las prob-
abilidades inducidas por las distribuciones F
i
, i = 1, 2 . Luego si P es
la probabilidad asociada a F, usando el Teorema de Extensin de la
39 se puede probar que
P(B) = (1 )P
1
(B) +P
2
(B) B B
1
.
66
Esta comprobacin se deja como ejercicio. Sea R
2
el rango de una
variable con distribucin F
2
. Por lo tanto R
2
es numerable y P
2
(R
2
) =
1. Luego
P (R
2
) = (1 ) P
1
(R
1
) +P
2
(R
2
) P
2
(R
2
) = > 0
Por lo que se deduce que F no corresponde a una distribucin absolu-
tamente continua, ya que stas asignan probabilidad 0 a todo conjunto
numerable.
Para ver que no es discreta veamos que sobre un conjunto numerable
arbitrario su probabilidad es menor que 1. Sea A un conjunto nu-
merable, luego, teniendo en cuenta que F
1
es absolutamente continua
resulta que que P
1
(A) = 0. Luego
P (A) = (1 ) P
1
(A) +P
2
(A)
= P(A
2
) < 1.
Como esto ocurre para todo A arbitrario, F no puede ser discreta. 2
Ejemplo 3.1 Sea U U [0, 1] y consideremos V = mn

U,
1
2

. Entonces
F
V
(u) =
_
_
_
u si u <
1
2
1 si u
1
2
Claramente P (V = 1/2) = P(1/2 U 1) = 1/2 de manera que V no es
absolutamente continua. Tampoco es discreta. Es fcil ver que
F =
1
2
F
1
+
1
2
F
2
donde F
1
es la distribucin de una U[0, 1/2) y F
2
la distribucin de una
variable discreta que asigna probabilidad 1 a x =
1
2
.
Veremos cmo se puede generar una variable con la distribucin mixta
(3.19).
Teorema 3.13 Consideremos variables aleatorias independientes X
1
con
distribucin F
1
, X
2
con distribucin F
2
y U que toma valores 0 y 1 con
probabilidades 1 y respectivamente. Denimos la variable
X =

X
1
si U = 0
X
2
si U = 1
67
Luego F
X
(1 )F
1
+F
2
.
Demostracin. Teniendo en cuenta la independencia de las variables resulta
que
F
X
(x) = P
X
((, x])
= P ({X x})
= P

({X
1
x} {U = 0})
[
({X
2
x} {U = 1})

= P ({X
1
x} {U = 0}) +P ({X
2
x} {U = 0})
= P (X
1
x)P(U = 0) +P(X
2
x)P (U = 1)
= (1 )P (X
1
x) +P (X
2
x)
= (1 )F
1
(x) +F
2
(x) . 2
68
Captulo 4
Vectores aleatorios.
4.1. Denicin de vector aleatorio.
En muchos casos interesa estudiar simultaneamente ms de una car-
acterstica del resultado de un experimento aleatorio. Supongamos que el
experimento consiste en elegir al azar alumnos de un determinado grado, y
que estamos interesados en estudiar el perl biolgico de esos alumnos.
Podramos considerar que el perl se compone de la talla, el peso, presin
sangunea, frecuencia cardaca y capacidad respiratoria. Por lo tanto intere-
saran cinco variables aleatorias que deberan estudiarse simultneamente.
Esto motiva la siguiente denicin de un vector aleatorio.
Denicin 4.1 Sea (, A, P) un espacio de probabilidad. Se dice que
X =(X
1
, X
2
, . . . , X
k
) es un vector aleatorio de dimensin k si para cada
j = 1, 2, . . . , k se tiene que X
j
: R es una variable aleatoria.
Obsrvese que si X = (X
1
, . . . , X
k
) es un vector aleatorio de dimen-
sin k, entonces tambin puede ser interpretado como una funcin X :
R
k
. En efecto dado , el correspondiente valor de la funcin
es X() = (X
1
(), . . . , X
k
()) R
k
.
Teorema 4.1 Para todo x =(x
1
, x
2
, . . . , x
k
) R
k
se tendr
X
1
((, x
1
] (, x
2
] (, x
k
]) A.
Demostracin. Sea B = (, x
1
] (, x
2
] (, x
k
]. Entonces
X
1
(B) = { : X() B}
=
k
\
i=1
{ : X
i
() (, x
i
]} =
=
k
\
i=1
X
1
i
((, x
i
]) .
69
Luego como por denicin de variable aleatoria para todo i se tiene que X
1
i
((, x
i
])
A y A es una lgebra se concluye que X
1
(B) A. 2
Recordemos que B
k
denota la lgebra generada por los conjuntos de
R
k
de la forma
A
x
1
,x
2
,...,x
k
= (, x
1
] (, x
2
] (, x
k
]
En R
2
es fcil vericar grcamente que los conjuntos de la forma
(a
1
, b
1
] (a
2
, b
2
] B
2
ya que se pueden escribir de la siguiente forma
(a
1
, b
1
] (a
2
, b
2
] = A
b
1
,b
2
A
a
1
,b
2
(A
b
1
,a
2
A
a
1
,a
2
) (4.1)
y que diferencias de conjuntos de una lgebra son conjuntos de la lgebra.
Va a ser til observar que
A
a
1
,b
2
A
b
1
,b
2
(4.2)
A
a
1
,a
2
A
b
1
,a
2
(4.3)
y
(A
b
1
,a
2
A
a
1
,a
2
) A
b
1
,b
2
A
a
1
,b
2
. (4.4)
Ejercicio. Probar el siguiente teorema.
Teorema 4.2 Sea X un vector aleatorio de dimensin k. Entonces si B
B
k
se tiene que X
1
(B) A.
4.2. Espacio de probabilidad inducido.
Denicin 4.2 Dado el espacio de probabilidad (, A, P) y un vector aleato-
rio X = (X
1
, . . . , X
k
) se puede denir un nuevo espacio de probabilidad

R
k
, B
k
, P
X

donde dado B B
k
se dene
P
X
(B) = P

X
1
(B)

.
Ejercicio. Probar el siguiente teorema.
Teorema 4.3 P
X
es una funcin de probabilidad sobre (R
k
, B
k
).
La demostracin es similar a la correspondiente a P
X
donde X es una
variable aleatoria. La probabilidad P
X
se denomina probabilidad inducida
por el vector X o distribucin de X.
70
4.3. Funcin de distribucin conjunta de un vector
aleatorio.
Denicin 4.3 Dado un vector aleatorio X = (X
1
, . . . , X
k
), se dene la
funcin de distribucin conjunta del vector X como la funcin F
X
: R
k

[0; 1] dada por


F
X
(x
1
, x
2
, . . . , x
k
) = P
X
((, x
1
] (, x
2
] (, x
k
]) =
= P

k
\
i=1
{ : X
i
() x
i
}
!
.
Propiedades de F
X
.
Propiedad 4.1 F
X
es montona no decreciente en cada componente.
Demostracin. Si x
i
< x
0
i
entonces
A
x
1
,...,x
i
,...,x
n
A
x
1
,...,x
0
i
,...,xn
,
de manera que
F
X
((x
1
, . . . , x
i
, . . . , x
n
)) F
X

x
1
, . . . , x
0
i
, . . . , x
n

. 2
Propiedad 4.2 Se tiene que
lm
x
1
,...,x
k

F
X
(x
1
, x
2
, . . . , x
k
) = 1.
Demostracin. Sean sucesiones crecientes
{x
1i
}
iN
, {x
2i
}
iN
, . . . , {x
ki
}
iN
.
Queremos probar que
lm
i+
F
X
(x
1i
, x
2i
, . . . , x
ki
) = 1.
Ahora bien la sucesin de conjuntos
C
i
= (, x
1i
] (, x
2i
] (, x
ki
] (4.5)
es montona no decreciente. Por otro lado
[
iN
C
i
= R
k
,
71
y en consecuencia
lm
i+
F
X
(x
1i
, x
2i
, . . . , x
ki
) = lm
i
P
X
((, x
1i
] (, x
2i
] (, x
ki
]) =
= P
X

[
iN
C
i
!
= P
X

R
k

= 1. 2
Propiedad 4.3 Para todo i, 1 i k, se tiene que
lm
x
i

F
X
(x
1
, x
2
, . . . , x
i
, . . . , x
k
) = 0.
Demostracin. Sin prdida de generalidad lo mostraremos para i = 1. Para
este caso consideremos una sucesin montona no creciente tal que {y
j
}
jN

.
Entonces si denimos {C
j
}
jN
por
C
j
= (, y
j
] (, x
2
] (, x
k
] (4.6)
se tiene que C
j+1
C
j
para todo j N, y adems
\
jN
C
j
= .
Por lo tanto
lm
j
F
X
(y
j
, x
2
, .., x
k
) = lm
j
P
X
((, y
j
] (, x
2
] (, x
k
]) =
= P
X
_
_
\
jN
C
j
_
_
= P
X
()
= 0. 2
Propiedad 4.4 F
X
es continua a derecha.
Demostracin. Sea (x
1
, x
2
, . . . , x
k
) R
k
y consideremos sucesiones mon-
tonas decrecientes tales que
{x
1i
}
iN
x
1
; {x
2i
}
iN
x
2
; . . . ; {x
ki
}
iN
x
k
Consideremos los conjuntos
C
i
= (, x
1i
] (, x
2i
] (, x
ki
].
72
Entonces
C
i+1
C
i
y
\
iN
C
i
= A
x
1
,...,x
k
.
Luego
lm
i
F
X
(x
1i
, x
2i
, . . . , x
ki
) = lm
i
P(C
i
)
= P(A
x
1
,...,x
k
)
= F
X
(x
1
, x
2
, . . . , x
k
) . 2
Las Propiedades 4.1, 4.2, 4.3 y 4.4 no caracterizan a una funcin de
distribucin de un vector aleatorio como ocurra para el caso de la funcin
de distribucin de una variable aleatoria.
Para jar ideas de por qu sucede esto, pensemos en R
2
. Sea entonces
un vector aleatorio en R
2
X = (X
1
, X
2
) y F
X
su funcin de distribucin
conjunta. Sea A
x
1
x
2
= (, x
1
] (, x
2
] y C = (a
1
, b
1
] (a
2
, b
2
].
El rectngulo C puede ser escrito de la siguiente manera
C = (A
b
1
b
2
A
a
1
b
2
) (A
b
1
a
2
A
a
1
a
2
) .
Teniendo en cuenta las inclusiones
A
a
1
a
2
A
b
1
a
2
, (4.7)
A
a
1
b
2
A
b
1
b
2
(4.8)
y
(A
b
1
a
2
A
a
1
a
2
) (A
b
1
b
2
A
a
1
b
2
) , (4.9)
resulta que
P
X
(C)
= P
X
(A
b
1
b
2
A
a
1
b
2
) P
X
(A
b
1
a
2
A
a
1
a
2
)
= P
X
(A
b
1
b
2
) P
X
(A
a
1
b
2
) P
X
(A
b
1
a
2
) +P
X
(A
a
1
a
2
) .
Como P
X
(A
x
1
x
2
) = F
X
(x
1
, x
2
),resulta
P
X
(C) = F
X
(b
1
, b
2
) F
X
(a
1
, b
2
) F
X
(b
1
, a
2
) +F
X
(a
1
, a
2
) .
Observaciones.
1. Para vericar las inclusiones (4.7), (4.8) y (4.9), se sugiere hacer un
dibujo.
73
2. Esto muestra que la probabilidad de el rectngulo C se determina por
el valor de F
X
sobre los vrtices: es la suma de los valores sobre los
vrtices de la diagonal principal menos la suma de los valores sobre los
vrtices de la otra diagonal.
3. Luego dada una funcin de distribucin F
X
para todo a
1
< b
1
y a
2
< b
2
se debera cumplir
F
X
(b
1
, b
2
) F
X
(a
1
, b
2
) F
X
(b
1
, a
2
) +F
X
(a
1
, a
2
) 0. (4.10)
4. Veamos que esta propiedad no se deduce de las propiedades P1, P2,
P3 y P4. Para ello damos un ejemplo de una funcin que satisface P1,
P2, P3 y P4 pero no (4.10). Sea F : R
2
[0, 1] denida por
F (x
1
, x
2
) =

1 si x
1
+x
2
1, x
1
0, x
2
0
0 si en otra parte.
Es fcil vericar que esta funcin es (i) montona no decreciente en
cada variable, (ii)
lm
x
1
, x
2

F (x
1
, x
2
) = 1,
(iii)
lm
x
i

F (x
1
, x
2
) = 0 para cualquier i = 1, 2,
y (iv) es continua a derecha. Pero si consideramos el rectngulo C =
(0, 1] (0, 1] entonces si F es una funcin de distribucin deberamos
tener
P(C) = F (1, 1) +F (0, 0) (F (0, 1) +F (1, 0)) = 1 2 = 1.
Esto muestra que F no puede ser la funcin de distribucin de ningn
vector aleatorio en R
2
.
Para estudiar las propiedades faltantes vamos a necesitar la siguiente
denicin.
Denicin 4.4 Sea F una funcin de k variables. Si a
i
< b
i
se dene el
operador diferencia en la variable i por
4
i
(a, b) F = F (x
1
, x
2
, . . . , x
i1
, b, x
i+1
, . . . , x
k
)F (x
1
, x
2
, . . . , x
i1
, a, x
i+1
, . . . , x
k
) .
74
Estos operadores se pueden aplicar en forma sucesiva. Por ejemplo
4
j
(a
j
, b
j
) 4
i
(a
i
, b
i
) F
= 4
j
(a
j
, b
j
) (F (x
1
, . . . , x
i1
, b
i
, x
i+1
, . . . , x
k
)
F (x
1
, . . . , x
i1
, a
i
, x
i+1
, . . . , x
k
))
= 4
j
(a
j
, b
j
) F (x
1
, x
2
, . . . , x
i1
, b
i
, x
j+1
, . . . , x
k
)
4
j
(a
j
, b
j
) F (x
1
, x
2
, . . . , x
i1
, a
i
, x
i+1
, . . . , x
k
)
= (F (x
1
, . . . , x
i1
, b
i
, x
i+1
, . . . , x
j1
, b
j
, x
j+1
, . . . , x
k
)
F (x
1
, . . . , x
i1
, b
i
, x
i+1
, . . . , x
j1
, a
j
, x
j+1
, . . . , x
k
))
(F (x
1
, . . . , x
i1
, a
i
, x
i+1
, . . . , x
j1
, b
j
, x
j+1
, . . . , x
k
)
F (x
1
, . . . , x
i1
, a
i
, x
i+1
, . . . , x
j1
, a
j
, x
j+1
, . . . , x
k
)).
Es fcil ver que estos operadores conmutan, es decir
4
j
(a
j
, b
j
) 4
i
(a
i
, b
i
) F = 4
i
(a
i
, b
i
) 4
j
(a
j
, b
j
) F
Ms generalmente, si a
1
< b
1
, a
2
< b
2
, . . . , a
k
< b
k
podemos considerar
la diferencia sucesiva
4
1
(a
1
, b
1
) 4
k1
(a
k1
, b
k1
) 4
k
(a
k
, b
k
) .
Observacin. Podemos expresar la propiedad (4.10) en trminos del oper-
ador diferencia como
P
X
((a
1
, b
1
] (a
2
, b
2
]) = (F
X
(b
1
, b
2
) F
X
(a
1
, b
2
)) (F
X
(b
1
, a
2
) F
X
(a
1
, a
2
))
= 4
1
(b
1
, a
1
) F
X
(x
1
, b
2
) 4
1
(b
1
, a
1
) F
X
(x
1
, a
2
)
= 4
2
(b
2
, a
2
) 4
1
(b
1
, a
1
) F
X
(x
1
, x
2
) 0
En general se puede probar el siguiente Teorema
Teorema 4.4 Sea F
X
la funcin de distribucin conjunta del vector aleato-
rio X = (X
1
, . . . , X
k
) y sean a
1
< b
1
, a
2
< b
2
, . . . , a
k
< b
k
. Entonces se
tiene que
P
X
((a
1
, b
1
] (a
2
, b
2
] (a
k
, b
k
])
= 4
1
(b
1
, a
1
) . . . 4
k1
(b
k1
, a
k1
) 4
k
(b
k
, a
k
) F
X
(x
1,
x
2
, . . . , x
k
) 0.
Demostracin. Para probar el teorema, consideremos para cada h, 0 h
k los conjuntos de la forma
C
h
= (a
1
, b
1
] (a
2
, b
2
] (a
h
, b
h
] (, x
h+1
] (, x
k
].
Se prueba por induccin que para todo h k
P
X
(C
h
) = 4
1
(b
1
, a
1
) . . . 4
h1
(b
h1
, a
h1
) 4
h
(b
h
, a
h
) F (x
1
, x
2
, . . . , x
h
, x
h+1
, . . . , x
k
) .
(4.11)
75
Probaremos primero (4.11) para h = 1. Sea
C
1
= (a
1
, b
1
] (, x
2
] (, x
k
].
Luego
C
1
= (, b
1
](, x
2
] (, x
k
](, a
1
](, x
2
] (, x
k
],
y como el segundo conjunto est incluido en el primero, se tiene
P
X
(C
1
) = P
X
((, b
1
] (, x
2
] (, x
k
] (, a
1
] (, x
2
] (, x
k
])
= F
X
(b
1
, x
2
, . . . , x
k
) F
X
(a
1
, x
2
, . . . , x
k
)
= 4
1
(b
1
, a
1
) F (x
1
, x
2
, . . . , x
k
) .
Supongamos ahora que (4.11) vale para h = i < k. Probaremos que tambin
vale para h = i + 1. Sea
C
i+1
= (a
1
, b
1
] (a
2
, b
2
] (a
i+1
, b
i+1
] (, x
i+2
] (, x
k
].
Claramente C
i+1
= C
(2)
i
C
(1)
i
, donde
C
(1)
i
= (a
1
, b
1
](a
2
, b
2
] (a
i
, b
i
](, a
i+1
](, x
i+2
] (, x
k
]
y C
(2)
i
= (a
1
, b
1
](a
2
, b
2
] (a
i
, b
i
](, b
i+1
](, x
i+2
] (, x
k
].
Como adems se tiene C
(1)
i
C
(2)
i
, se tendr
P
X
(C
i+1
) = P
X
(C
(2)
i
) P
X
(C
(1)
i
).
Como (4.11) vale para h = i tendremos
P
X
(C
i+1
) = 4
1
(b
1
, a
1
) . . . 4
i
(b
i
, a
i
) F (x
1
, x
2
, . . . , x
i
, b
i+1
, x
i+2
, . . . , x
k
)
4
1
(b
1
, a
1
) . . . 4
i
(b
i
, a
i
) F (x
1
, x
2
, . . . , x
i
, a
i+1
, x
i+2
, . . . , x
k
) .
Luego (4.11) vale para h = i + 1. Esto muestra que (4.11) vale para todo
h k. Haciendo h = k se obtiene el Teorema. 2
Luego podemos enunciar una propiedad adicional que satisface una fun-
cin de distribucin conjunta
Propiedad 4.5 Si F
X
es la funcin de distribucin conjunta del vector
aleatorio X = (X
1
, . . . , X
k
) para todo a
1
< b
1
, , a
k
< b
k
se debe cumplir
que
4
1
(b
1
, a
1
) . . . 4
k1
(b
k1
, a
k1
) 4
k
(b
k
, a
k
) F
X
(x
1,
x
2
, . . . , x
k
) 0.
El siguiente Teorema generaliza para vectores aleatorios el Teorema de
Extensin para variables aleatorias.
76
Teorema 4.5 Sea F : R
k
[0, 1] una funcin que satisface las propiedades
4.1, 4.2, 4.3, 4.4 y 4.5. Luego existe una nica funcin de probabilidad P :
B
k
[0, 1] , tal que para todo (x
1
, x
2
, . . . , x
k
) R
k
se cumple
P ((, x
1
] (, x
2
] (, x
k
]) = F (x
1
, x
2
, . . . , x
k
) .
Demostracin. No se dar la demostracin en este curso. Utiliza argumentos
de la Teora de la Medida. 2
Corolario 4.1 Sean X = (X
1
, X
2
, . . . , X
k
) y X

= (X

1
, X

2
, . . . , X

k
) dos
vectores aleatorios. Supongamos que para todo x
1
, x
2
, . . . x
k
se tiene que
F
X
(x
1
, . . . , x
k
) = F
X
(x
1
, . . . , x
k
).
Luego tambin se cumple que para todo B B
k
P
X
(B) = P
X
(B).
Demostracin. Basta con observar que para todo (x
1
, . . . , x
k
) R
k
F
X
(x
1
, x
2
, . . . , x
k
) = F
X
(x
1
, x
2
, . . . , x
k
)
= P
X
((, x
1
] (, x
2
] . . . (, x
k
]) .
Por lo tanto como P
X
y P
X
son extensiones de F
X
deben coincidir por
unicidad de la extensin. 2
Corolario 4.2 Si F satisface propiedades 4.1, 4.2, 4.3, 4.4 y 4.5. entonces
existe un vector aleatorio X = (X
1
, . . . , X
k
) tal que
F
X
= F.
Demostracin. Sea

R
k
, B
k
, P
F

el espacio de probabilidad tal que P


F
es la
extensin de F. Luego para todo (x
1
, . . . , x
k
) R
k
F (x
1
, x
2
, . . . , x
k
) = P
F
((, x
1
] (, x
2
] (, x
k
]) .
Denimos el vector aleatorio X = (X
1
, . . . , X
i
, . . . , X
k
) de forma tal que X
i
sea la proyeccin sobre la coordenada i-sima. Es decir X
i
: R
k
R est
denida por
X
i
(x
1
, x
2
, . . . , x
k
) = x
i
Observemos que para todo i, 1 i k se tiene que
X
1
i
((, x
i
]) = R R (, x
i
] R R,
77
y que
F
X
(x
1
, x
2
, . . . , x
k
)
= P
X
((, x
1
] (, x
2
] (, x
k
])
= P
F
(X
1
((, x
1
] (, x
2
] (, x
k
]))
= P
F

k
\
i=1
X
1
i
((, x
i
])
!
= P
F
((, x
1
] (, x
2
] (, x
k
])
= F (x
1
, x
2
, . . . , x
k
) . 2
4.4. Algunas propiedades de vectores aleatorios.
Sea un vector X = (X
1
, . . . , X
k
) con funcin de distribucin F
X
. El sigu-
iente teorema muestra como se obtiene la funcin de distribucin del vector
formado con un subconjunto de componentes
e
X = (X
i
1
, X
i
2
, . . . , X
i
h
) para
cualquier subconjunto de ndices 1 i
1
< i
2
< < i
h
k.
Teorema 4.6 Sea X = (X
1
, . . . , X
k
) un vector aleatorio de dimensin k.
Sea A = {i
1
, . . . , i
h
} {1, 2, . . . , k} y B = {i : 1 i k, i / A} =
{j
1
, . . . j
r
]. Entonces, si
e
X = (X
i
1
, X
i
2
, . . . , X
i
h
), se tiene
F
e
X
(x
i
1
, . . . x
i
h
) = lm
x
j
1
,...,x
j
r

F
X
(x
1
, x
2
, . . . , x
k
).
Demostracin. Para facilitar la notacin supongamos que A = {1, 2, . . . , h}
y luego B = {h + 1, . . . , k}. Sean {y
h+1,j
}
jN
, . . . , {y
k,,j
}
jN
, sucesiones
crecientes tendiendo a . Luego bastar probar que
lm
j
F
X
(x
1
, . . . x
h
, y
h+1,j
, . . . , y
k,j
]) = F
e
X
(x
1
, . . . , x
h
). (4.12)
Consideremos la sucesin de eventos
C
j
= (, x
1
] (, x
h
] (, y
h+1,j
] (, y
k,j
]
es creciente y

[
j=1
C
j
= (, x
1
] (, x
h
] R R.
78
Luego
F
e
X
(x
1
, . . . , x
h
) = P
e
X
((, x
1
] (, x
h
])
= P

h
\
i=1
{ : X
i
() x
i
}
!
= P

h
\
i=1
{ : X
i
() x
i
}
!

k
\
i=h+1
{ : X
i
() R}
!!
= P
X
((, x
1
] (, x
h
] R R)
= lm
j
P
X
(C
j
)
= lm
j
P
X
((, x
1
] (, x
h
] (, y
h+1,j
] (, y
k,j
])
= lm
j
F
X
(x
1
, . . . x
h
, y
h+1,j
, . . . , y
k,j
]).
y luego (4.12) vale. 2
Denicin 4.5 Diremos que g : R
k
R es medible Borel si para todo x R
se tiene que g
1
((, x]) B
k
.
Observacin. Una funcin medible Borel puede interpretarse como una
variable aleatoria en el espacio (R
k
, B
k
). Como en este curso solo consider-
amos funciones medibles Borel, se las llamar simplemente funcones medi-
bles
En particular se tendr
Teorema 4.7 Si g : R
k
R es continua entonces g es medible.
Demostracin. Siendo (, x] cerrado se tiene que g
1
((, x]) B
k
y por
lo tanto es medible. 2
Ejercicio. Probar el siguiente teorema.
Teorema 4.8 Sea X = (X
1
, X
2
, . . . , X
k
) un vector aleatorio sobre un es-
pacio de probabilidad (, A, P) y g : R
k
R una funcin medible. Entonces
Y = g (X) : R es una variable aleatoria.
Ahora podemos probar lo siguiente.
Teorema 4.9 Si X e Y son varibles aleatorias, entonces
(i) Z = X +Y es una variable aleatoria.
79
(ii) Z = XY es una variable aleatoria.
(iii) Si P (Y = 0) = 0 entonces Z = X/Y es una variable aleatoria.
Demostracin. Se trata de escribir a Z como imagen de X e Y usando una
funcin g medible.
(i) Denimos g : R
2
R, g (x, y) = x+y. Como g es continua es medible.
Luego si tomamos W = (X, Y ) se tiene que Z = g (W) = X + Y es
una variable aleatoria.
(ii) y (iii) La demostracin de (ii) y (iii) se deja como ejercicio. 2
Denicin 4.6 Sea g : R
k
R
h
, es decir g = (g
1
, g
2
, . . . , g
h
) tal que para
cada j = 1, 2, . . . , h, g
j
: R
k
R.
Diremos que g es medible sii g
j
es medible para cada j = 1, 2, . . . , h.
Teorema 4.10 Sea X = (X
1
, X
2
, . . . , X
k
) un vector aleatorio y g : R
k
R
j
una funcin medible. Entonces Z = g (X) es un vector aleatorio de dimen-
sin j.
Demostracin. Se deja como ejercicio.2
4.5. Independencia de variables aleatorias.
4.5.1. Algunas consideraciones heursticas.
Hemos visto con anterioridad lo que signicaba la independencia de even-
tos. Brevemente recordemos que una familia de eventos es independiente si
la ocurrencia de algunos de ellos no incide sobre la probabilidad de ocurren-
cia del otro. Ms precisamente, un conjunto de eventos A
1
, A
2
, . . . , A
k
son
independientes si para toda eleccin 1 i
1
< i
2
< < i
h
k
P (A
i
1
A
i
2
A
i
h
) =
h
Y
j=1
P

A
i
j

.
Ahora queremos denir la independencia de un conjunto de variables
aleatorias. Queremos dar respuesta a la pregunta en qu medida la infor-
macin referida a una variable aleatoria X incide en el conocimiento de los
valores de la variable aleatoria Y . Por ejemplo la inacin y la emisin
monetaria son independientes ? El peso de un individuo y su presin san-
gunea son independientes? Para denir el concepto de independencia de
variables aleatorias utilizaremos la nocin de independencia de eventos.
80
Denicin 4.7 Sean X
1
, X
2
, , X
k
variables aleatorias, denidas sobre
un mismo espacio de probabilidad (, A, P) . Diremos que dichas variables
son independientes sii cualquiera sean los conjuntos B
1
, B
2
, , B
k
B (Borelianos
en R), los eventos X
1
j
(B
j
) , j = 1, 2, .., k son independientes.
Los dos siguientes teoremas dan caracterizaciones de la propiedad de
independencia de un conjunto de variables aleatorias.
Teorema 4.11 Las variables aleatorias X
1
, , X
k
son independientes si y
slo si para toda eleccin de conjuntos borelianos B
1
, B
2
, , B
k
vale que
P
_
_
k
\
j=1
X
1
j
(B
j
)
_
_
=
k
Y
j=1
P

X
1
j
(B
j
)

. (4.13)
Demostracin. Primero mostraremos que (4.13) es una condicin necesaria.
En efecto, si X
1
, , X
k
son independientes, (4.13) debe cumplirse por
denicin de independencia de eventos. Ahora probaremos la suciencia de
(4.13). Debemos probar que (4.13) implica para cualquier subconjunto de
ndices i
1
< i
2
< < i
h
, h k que
P
_
_
h
\
j=1
X
1
i
j

B
i
j

_
_
=
h
Y
j=1
P

X
1
i
j

B
i
j

.
Consideremos los conjuntos C
i
, 1 i k, denidos de la siguiente manera
C
i
=

B
i
si i coincide con algn i
j
R en caso contrario.
Entonces dado que X
1
i
(R) = y P() = 1, se tiene que
P
_
_
h
\
j=1
X
1
i
j

B
i
j

_
_
= P

k
\
i=1
X
1
i
(C
i
)
!
=
k
Y
j=1
P

X
1
i
(C
i
)

=
h
Y
j=1
P

X
1
i
j

B
i
j

. 2
Ahora escribiremos la misma proposicin de otra manera
81
Teorema 4.12 Las variables aleatorias X
1
, . . . , X
k
son independientes si y
slo si para toda coleccin de borelianos B
1
, B
2
, . . . , B
k
vale que
P
X
(B
1
B
2
B
k
) =
k
Y
j=1
P
X
j
(B
j
) ,
donde X = (X
1
, X
2
, . . . , X
k
) .
Demostracin. Como P
X
j
(B
j
) = P(X
1
j
(B
j
)) por el Teorema 4.11 bastar
mostrar que
P
X
(B
1
B
2
B
k
) = P
_
_
h
\
j=1
X
1
j
(B
j
)
_
_
.
Para eso observamos que
P
X
(B
1
B
2
B
k
) = P(X
1
(B
1
B
2
B
k
))
= P
X
({ : X() B
1
B
2
B
k
})
= P
X
({ : (X
1
() , X
2
() , . . . , X
k
()) B
1
B
2
B
k
})
= P
_
_
k
\
j=1
{ : X
j
() B
j
}
_
_
= P
_
_
h
\
j=1
X
1
j
(Bj )
_
_
. 2
El siguiente teorema, da una condicin necesaria y suciente para la
independencia de un conjunto de variables que es ms simple de vericar.
Teorema 4.13 Una condicin necesaria y suciente para que las variables
aleatorias X
1
, X
2
, . . . , X
k
sean independientes es que para todo
(x
1
, x
2
, . . . , x
k
) R
k
se cumpla que
F
X
(x
1
, x
2
, . . . , x
k
) = F
X
1
(x
1
) F
X
2
(x
2
) . . . F
X
k
(x
k
) , (4.14)
donde X = (X
1
, X
2
, . . . , X
k
) .
Demostracin.
Para ver que (4.14) es una condicin necesaria para la independencia de
X
1
, . . . , X
k
, basta aplicar el Teorema 4.12 a los conjuntos
B
1
= (, x
1
], B
2
= (, x
2
], . . . , B
k
= (, x
k
].
82
Probaremos ahora la suciencia. Consideremos los conjuntos del tipo
B
1
B
2
B
r
(, x
r+1
] (, x
r+2
] (, x
k
],
donde B
1
B
2
B
r
son borelianos en R. Probaremos por induccin
sobre r que vale la siguiente propiedad que llamamos A
r
:
P
X
(B
1
B
2
B
r
(, x
r+1
] (, x
r+2
] (, x
k
])
= P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
((, x
r+1
]) P
X
k
((, x
k
]) . (4.15)
Para r = 0, la condicin (4.15) vale por hiptesis, puesto que se reduce a un
producto de semirectas. Supongamos que vale para r y probemos que vale
para r +1. En primer lugar probemos que si (4.15) vale para r, tambin vale
reemplazando (, x
r+1
] por R, esto es
P
X
(B
1
B
2
B
r
R (, x
r+2
] (, x
k
])
= P
X
1
(B
1
) P
Xr
(B
r
) P
X
r+1
(R) P
X
k
((, x
k
]) =
= P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+2
((, x
r+2
]) P
X
k
((, x
k
]) . (4.16)
Para mostrar esto podemos considerar una sucesin creciente de semirectas
C
n
= (, n]. Luego
R =

[
n=1
C
n
y la sucesin {B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
]}, n =
1, 2, . . . es montona no decreciente en R
k
y vale
[
nN
B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
]
= B
1
B
2
B
r
R (, x
r+2
] (, x
k
]
Luego usando que vale A
r
tenemos que
P
X
(B
1
B
2
B
r
R(, x
r+2
] (, x
k
])
= lm
n
P
X
(B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
])
= lm
n
P
X
(B
1
)P
X
(B
2
) P
X
(B
r
)P
X
(C
n
)P
X
((, x
r+2
]) P
X
((, x
k
])
= P
X
(B
1
)P
X
(B
2
) P
X
(B
r
)P
X
(R)P
X
((, x
r+2
]) P
X
((, x
k
]),
que es lo que queramos probar.
Ahora probaremos A
r+1
. Es decir debemos probar que dados borelianos
B
1
, . . . ., B
r+1
y reales x
r+2
, . . . , x
k
se tiene
P
X
(B
1
B
2
B
r
B
r+1
(, x
r+2
] (, x
k
])
= P
X
1
(B
1
) P
Xr
(B
r
) P
X
r+1
(B
r+1
) P
X
k
((, x
k
]) . (4.17)
83
Consideremos el conjunto
A = B
1
B
2
B
r
R (, x
r+2
] (, x
k
],
y distinguimos dos casos: (a) P
X
(A) = 0, (b) P
X
(A) > 0.
Consideremos primero el caso (a). Por (4.16)
0 = P
X
(A) = P
X
(B
1
B
2
B
r
R(, x
r+2
] (, x
k
])
= P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
(R) P
X
k
((, x
k
])
se tiene que
P
X
(B
i
) = 0 para algn 1 i r
o bien
P
X
i
((, x
i
]) = 0 para algn r + 2 i k.
En cualquiera de los dos casos el miembro derecho de (4.17) es 0.
Supongamos que P
X
(B
i
) = 0 podemos suponer que i = 1, para jar
ideas. Entonces teniendo en cuenta que
B
1
B
2
B
r
B
r+1
(, x
r+2
] (, x
k
] B
1
R R,
obtenemos que
P
X
(B
1
B
2
B
r
B
r+1
(, x
r+2
] (, x
k
])
P
X
(B
1
R R) = P
X
1
(B
1
) = 0,
y luego el miembro izquierdo de (4.17) tambin es 0 y la igualdad se cumple.
Ahora si P
X
i
((, x
i
]) = 0, podemos suponer que i = k y proceder de
manera anloga. Luego (4.17) vale para el caso (a).
Consideremos el caso (b), es decir que P
X
(A) > 0. Denimos un nuevo
espacio de probabilidades (R, B, P

) de la siguiente manera: Para todo B B


denimos
P

(B) =
P
X
(B
1
B
2
B
r
B (, x
r+2
] (, x
k
])
P
X
(A)
.
Obsrvese que los borelianos B
1
, B
2
, . . . B
r
y los reales x
r+2
, . . . , x
k
per-
manecen jos cuando se cambia B. Veamos en primer lugar que efectiva-
mente P

: B [0, 1] es una probabilidad.


(i) Claramente
P

(R) =
P
X
(A)
P
X
(A)
=1.
84
(ii) Supongamos que (C
n
)
n1
B es una sucesin de borelianos disjuntos
dos a dos. Entonces
P

[
nN
C
n
!
=
P
X

B
1
B
2
B
r

[
nN
C
n
(, x
r+2
] (, x
k
]
!
P
X
(A)
=
P
X

[
nN
(B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
])
!
P
X
(A)
=
P

n=1
P
X
(B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
])
P
X
(A)
=

X
n=1
P
X
(B
1
B
2
B
r
C
n
(, x
r+2
] (, x
k
])
P
X
(A)
=

X
n=1
P

(C
n
) .
Esto prueba que P

es una probabilidad.
Observemos que en la deduccin anterior se us, adems de que P es
una probabilidad, una propiedad de la teora de conjuntos, fcil de probar:
B
1
B
2
B
r

[
nN
C
n
(, x
r+2
], (, x
k
]
=
[
nN
(B
1
B
2
B
r
C
n
(, x
r+2
], (, x
k
]) .
Ahora calcularemos el valor de P

sobre una semirecta. Dado que A


r
es
vlida (hiptesis inductiva), si x R se tiene
P

((, x])
=
P
X
(B
1
B
2
B
r
(, x] (, x
r+2
], (, x
k
])
P
X
(A)
=
P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
((, x]) P
X
k
((, x
k
])
P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
(R) P
X
k
((, x
k
])
= P
X
r+1
((, x]) .
Entonces por la unicidad de la extensin como P
X
r+1
y P

coinciden en las
semirectas (, x] se tendr por el Teorema de Extensin que para todo
B B,
P

(B) = P
X
r+1
(B) .
85
En particular
P

(B
r+1
) = P
X
r+1
(B
r+1
) ,
y luego
P
X
r+1
(B
r+1
) =
P
X
(B
1
B
2
B
r
B
r+1
(, x
r+2
] (, x
k
])
P
X
1
(B
1
) P
Xr
(B
r
) P
X
r+1
(R) P
X
k
((, x
k
]) .
.
Despejando de la ecuacin anterior y usando que P
X
r+1
(R) = 1 obtenemos
P
X
(B
1
B
2
B
r
B
r+1
(, x
r+2
] (, x
k
])
= P
X
r+1
(B
r+1
) P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+2
(B
r+2
) P
X
k
((, x
k
])
= P
X
1
(B
1
) P
X
r
(B
r
) P
X
r+1
(B
r+1
) P
X
k
((, x
k
]) ,
y luego tambin vale A
r+1
. 2
4.5.2. Conservacin de la independencia por transformaciones.
El siguiente teorema prueba que la independencia se conserva por trans-
formaciones.
Teorema 4.14 Sea (, A, P) un espacio de probabilidad sean X
1
, X
2
, . . . , X
h
variables aleatorias independendientes. Si g
j
: R R, j = 1, 2, . . . , h son
funciones medibles entonces Y
1
= g
1
(X
1
) , Y
2
= g
2
(X
2
) , . . . , Y
h
= g
h
(X
h
) tambin
son variables aleatorias independientes.
Demostracin. Aplicamos la denicin de independencia. Dados B
1
, B
2
, . . . , B
h
borelianos arbitrarios queremos probar que los conjuntos
Y
1
1
(B
1
) , Y
1
2
(B
2
) . . . , Y
1
h
(B
h
)
son eventos independientes. Ahora bien para cada j = 1, 2, . . . , h se tiene
Y
1
j
(B
j
) = X
1
j

g
1
j
(B
j
)

= X
1
j
(C
j
) ,
donde C
j
= g
1
j
(B
j
) . Como los C
j
, j = 1, 2, . . . , h son borelianos, la inde-
pendencia de las variables X
j
implica que los eventos X
1
j
(C
j
) son indepen-
dientes. Luego las variables Y
1
, . . . Y
h
son independientes. 2
4.5.3. Independencia de vectores aleatorios.
Denicin 4.8 Denicin. Sea (, A, P) un espacio de probabilidad. Sean
X
1
, X
2
, . . . , X
h
vectores aleatorios de dimensiones k
1
, k
2
, . . . , k
h
respectiva-
mente, esto es
X
i
: R
k
i
, i = 1, 2, . . . , h
86
son vectores aleatorios. Diremos que el sistema de vectores es independiente
si dados B
1
B
k
1
, B
2
B
k
2
, . . . , B
h
B
k
h
, borelianos arbitrarios en sus
respectivos espacios, los conjuntos X
1
j
(B
j
) , j = 1, 2, . . . , h son eventos
independientes.
Las siguientes dos proposicines dan condiciones necesarias y sucientes
para que un conjunto de vectores aleatorios sean independientes. Las dos
condiciones son anlogas a las obtenidas para variables aleatorias.
Propiedad 4.6 Una condicin necesaria y suciente para que el conjunto
de vectores X
1
, X
2
, . . . , X
h
, donde X
i
es de dimensin k
i
sean independi-
entes es que para todo B
1
B
k
1
, B
2
B
k
2
, . . . , B
h
B
k
h
se cumpla
P
e
X
(B
1
B
2
B
h
) = P
X
1
(B
1
) P
X
2
(B
2
) . . . P
X
h
(B
h
) ,
donde
e
X = (X
1
, X
2
, . . . , X
h
) .
Demostracin. Anloga a la demostracin de la proposicin correspondiente
para variables aleatorias. 2
Propiedad 4.7 Una condicin necesaria y suciente para que un conjunto
de vectores X
1
, X
2
, . . . , X
h
sean independientes es que para todo (x
1,
x
2
, . . . , x
h
)
R
k
1
R
k
2
R
k
h
se tenga
F
e
X
(x
1,
x
2
, . . . , x
h
) = F
X
1
(x
1
) F
X
2
(x
2
) . . . F
X
h
(x
h
) ,
donde
e
X = (X
1
, X
2
, . . . , X
h
) .
Demostracin. Anloga a la demostracin de la proposicin correspondiente
para variables aleatorias.2
Propiedad 4.8 Sean X
1
, X
2
, . . . , X
h
un sistema de vectores aleatorios de
dimensiones k
1
, k
2
, .., k
h
respectivamente. Sean g
1
, g
2
, . . . , g
h
funciones med-
ibles, g
i
: R
k
i
R
j
i
, i = 1, 2, . . . , h. Entonces los vectores aleatorios
Y
1
= g
1
(X
1
) , Y
2
= g
2
(X
2
) , . . . , Y
h
= g
h
(X
h
) son independientes.
Demostracin. Anloga a la demostracin de la proposicin correspondiente
para variables aleatorias. 2
87
88
Captulo 5
Vectores aleatorios discretos
y continuos.
Tal como ocurre con las variables aleatorias, existen distintos tipos de
vectores aleatorios.
5.1. Vectores aleatorios discretos.
Denicin 5.1 Sea X = (X
1
, X
2
, . . . , X
h
) un vector aleatorio. Si dice que
X es discreto o bien que tiene distribucin discreta sii para cada i =
1, 2, . . . , h, X
i
es un variable aleatoria discreta.
Esto implica, de acuerdo a lo estudiado, que para cada i = 1, 2, . . . , h
existe un conjunto nito o innito numerable R
X
i
tal que P
X
i
(R
X
i
) = 1.
La Propiedad 5.2 que enunciaremos en breve muestra que el conjunto
R

X
= R
X
1
R
X
h
es nito o innito numerable y que P
X
(R

) = 1.
Necesitamos previamente demostrar la siguiente propiedad
Propiedad 5.1 Sean A
1
, . . . , A
h
una sucesin nita de eventos tal que para
todo i, 1 i h, tal que P (A
i
) = 1. Entonces
P

h
\
i=1
A
i
!
= 1.
Demostracin. Basta probar que la probabilidad del complemento es cero.
Eso se sigue inmediatamente dado que la probabilidad es subaditiva y P (A
c
i
) =
0. En efecto, se tiene
0 P

h
\
i=1
A
i
!
c
!
= P

h
[
i=1
A
c
i
!

h
X
i=1
P (A
c
i
) = 0.
89
Luego
P

h
\
i=1
A
i
!!
= 1 P

h
\
i=1
A
i
!
c
!
= 1. 2
Observacin. La Propiedad 5.1 tambin vale para una sucesin numerable
de eventos y su demostracin es anloga.
Propiedad 5.2 Sea X = (X
1
, X
2
, . . . , X
h
) un vector aleatorio. Entonces el
conjunto
R

X
= R
X
1
R
X
h
es nito o innito numerable y
P
X
(R

) = 1.
Demostracin. R

X
es a lo sumo numerable, porque un producto cartesiano
nito de conjuntos a lo sumo numerables es a lo sumo numerable. Adems
{: X() R
X
1
R
X
h
} =
h
\
i=1
{ : X
i
() R
X
i
}.
Luego por la Propiedad 5.1
P
X
(R

X
) = P
X
(R
X
1
R
X
h
) = P ({: X() R
X
1
R
X
h
})
= P

h
\
i=1
{ : X
i
() R
X
i
}
!
= 1,
ya que P ({ : X
i
() R
X
i
}) = P
X
i
(R
X
i
) = 1. 2
De manera anloga a como lo hicimos para una sola variable se puede
buscar el mnimo conjunto que tiene probabilidad 1. Este conjunto puede
ser distinto de R

X
.
Ejemplo 5.1 Consideremos un vector aleatorio X = (X
1
, X
2
) que asume
los valores {(0, 0) , (1, 1)} con la misma probabilidad 0,5. De esto se deduce
que las variables aleatorias X
1
, X
2
a su vez asumen los valores 0 y 1 con
probabilidad 0,5 para ambos. Ahora bien
R

X
= R
X
1
R
X
2
= {(0, 0) , (1, 1) , (0, 1) , (1, 0)}.
Se ve que el conjunto R

X
puede ser reducido a R
X
= {(0, 0) , (1, 1)}.
Ms generalmente si X es un vector discreto de dimensin k, podemos
considerar el conjunto de los tomos de la probabbilidad,
R
X
= {x :P
X
({x}) > 0} R
X
1
R
X
h
.
El siguiente Teorema, cuya demostracin es anloga al Teorema 3.1 mues-
tra que R
X
es el minimo conjunto de probabilidad 1.
90
Teorema 5.1 Se tiene que P
X
(R
X
) = 1. Adems si B B
k
es tal que
P
X
(B) = 1, entonces R
X
B.
5.1.1. Funcin de densidad de probabilidad conjunta.
Una vez obtenido el conjunto R
X
donde se concentra la probabilidad de
un vector aleatorio discreto, vamos a mostrar que de igual manera que en
el caso de una variable aleatoria, podemos determinar una funcin denida
ahora sobre R
k
que determina totalmente a P
X
.
Denicin 5.2 Sea X =(X
1
, X
2
, . . . , X
k
) un vector aleatorio discreto. Se
dene la funcin densidad de probabilidad conjunta p
X
: R
k
[0, 1] , aso-
ciada al vector X por
p
X
(x) = P
X
({x}) .
Observacin. De acuerdo a la denicin de R
X
se tendr
p
X
(x) =

> 0 si x R
X
0 si x / R
X
.
Como consecuencia de las anteriores observaciones y de manera anloga
a como lo hemos hecho para una sola variable se tiene el siguiente teorema.
Teorema 5.2 Para todo B B
k
se tiene
P
X
(B) =
X
xBR
X
p
X
(x)
=
X
xBR

X
p
X
(x) .
Muchas veces es conveniente considerar el conjunto R

X
= R
X
1
R
X
2

R
X
k
en vez de R
X
.
Teorema 5.3 Sea B = B
1
B
2
B
k
, donde B
1
, . . . , B
k
son borelianos
en R. Entonces
(a)
P
X
(B) =
X
x
k
B
k
R
X
k
X
x
k1
B
k1
R
X
k1
. . .
X
x
1
B
1
R
X
1
p
X
(x
1
, x
2
, . . . , x
k
) .
(b)
X
x
k
R
X
k
X
x
k1
R
X
k1
. . .
X
x
1
R
X
1
p
X
(x) = 1.
91
Demostracin.
P
X
(B) =
X
xBR
X
p
X
(x)
=
X
xBR

X
p
X
(x)
=
X
xB(R
X
1
R
X
2
R
X
k
)
p
X
(x)
=
X
xB
1
R
X
1
B
2
R
X
2
B
k
R
X
k
p
X
(x)
=
X
x
k
B
k
R
X
k
X
x
k1
B
k1
R
X
k1
. . .
X
x
1
B
1
R
X
1
p
X
(x
1
, x
2
, . . . , x
k
) .
Luego (a) vale. En particular si tomamos B
i
= R, luego B = R
k
y
1 = P
X

R
k

=
X
xR
X
1
R
X
2
R
X
k
p
X
(x)
=
X
x
k
R
X
k
X
x
k1
R
X
k1
. . .
X
x
1
R
X
1
p
X
(x) ,
y luego (b) vale. 2
5.1.2. Caracterizacin de la funcin de densidad marginal
asociada a un subconjunto de variables.
Se trata de determinar a partir de la funcin de densidad conjunta, la
marginal asociada a un subconjunto arbitrario de variables. Para jar ideas,
consideremos un vector aleatorio X = (X
1
, X
2
, . . . , X
h
, X
h+1
, . . . , X
k
) y un
subvector X

= (X
1
, X
2
, . . . , X
h
) .
Propiedad 5.3 La funcin de densidad marginal asociada al vector X

viene dada por la frmula


p
X
(x) =
X
x
h+1
R
X
h+1
X
x
h+2
R
X
h+2
. . .
X
x
k
R
X
k
p
X
(x
1
, . . . , x
h
, x
h+1
, . . . , x
k
) .
Demostracin. Aplicando la denicin de p
X
p
X
((x
1
, x
2
, . . . , x
h
)) = P
X
({(x
1
, x
2
, . . . , x
h
)})
= P
X
({{x
1
} {x
2
} {x
h
} R R) .
92
Entonces de acuerdo al resultado anterior
p
X
((x
1
, x
2
, . . . , x
h
)) = P
X
({x
1
} {x
2
} {x
h
} R R)
=
X
x
k
RR
X
k
. . .
X
x
h+1
RR
X
k+1
p
X
(x
1
, . . . , x
h
, x
h+1
, . . . , x
k
)
=
X
x
k
R
X
k
. . .
X
x
k+1
R
X
k+1
p
X
(x
1
, . . . , x
h
, x
h+1
, . . . , x
k
). 2
Ahora vamos a dar una condicin necesaria y suciente de independencia
para el caso de variables aleatorias con distribucin discreta, en trminos de
la funcin de densidad conjunta y sus marginales.
Para esto recordemos que una condicin necesaria y suciente para que
el sistema de variables aleatorias X
1
, X
2
, . . . , X
h
sea independiente es que
dados borelianos arbitrarios B
1
, B
2
, . . . , B
h
P
X
(B
1
B
2
B
h
) = P
X
1
(B
1
) P
X
2
(B
2
) . . . P
X
h
(B
h
) . (5.1)
Teorema 5.4 Sea X = (X
1
, X
2
, . . . , X
h
) un vector aleatorio con distribu-
cin discreta. Una condicin necesaria y suciente para que el conjunto de
variables aleatorias X
1
, X
2
, . . . , X
h
con distribucin discreta sea independi-
ente es que para todo x = (x
1
, . . . , x
h
) R
h
p
X
(x) = p
X
1
(x
1
) p
X
2
(x
2
) . . . p
X
h
(x
h
) . (5.2)
Demostracin.
Es fcil ver que (5.2) es necesaria. Tomando en particular los borelianos
B
j
= {x
j
}, j = 1, 2, . . . , h y aplicando (5.1) se obtiene
p
X
(x) = P
X
({(x
1
, x
2
, . . . , x
h
)}) = P
X
({x
1
} {x
2
} {x
h
})
= P
X
1
({x
1
}) P
X
2
({x
2
}) . . . P
X
h
({x
h
})
= p
X
1
(x
1
) p
X
2
(x
2
) . . . p
X
h
(x
h
) .
Ahora veamos la suciencia. Tenemos que probar que si ocurre (5.2) en-
tonces las variables X
1
, . . . , X
h
son independientes. Como (5.1) implica la
suciencia, bastar probar que (5.2) implica (5.1).
Como la demostracin para k = 2 es similar a la demostracin general
pero la notacin es ms simple, lo probaremos en este caso. Consideremos un
93
vector de dos componentes X =(X
1
, X
2
) y sean B
1
, B
2
borelianos, entonces
P
X
(B
1
B
2
) =
X
x
1
B
1
R
X
1
X
x
2
B
2
R
X
2
p
X
(x
1
, x
2
)
=
X
x
1
B
1
R
X
1
X
x
2
B
2
R
X
2
p
X
1
(x
1
) p
X
1
(x
2
)
=
_
_
X
x
1
B
1
R
X
1
p
X
1
(x
1
)
_
_
_
_
X
x
2
B
2
R
X
2
p
X
1
(x
2
)
_
_
. 2
Observacin. En la ltima igualdad hemos usado la frmula
X
(a,b)AB
ab =
X
aA
X
bB
ab =

X
aA
a
!

X
bB
b
!
5.2. Ejemplos de vectores aleatorios con distribu-
cin discreta.
5.2.1. Distribucin Multinomial.
Supongamos que un experimento que tiene k posibles resultados se repite
n veces en forma independiente. Sean A
i
, i = 1, 2, . . . , k, los posibles resul-
tados del experimento y p
i
la probabilidad que el resultado sea A
i
. Luego
k
X
i=1
p
i
= 1.
Existen una gran cantidad de ejemplos de este tipo de experimentos.
Por ejemplo si se tira un dado hay seis posibles resultados con la misma
probabilidad . Luego p
i
= 1/6, i = 1, . . . , 6. Otro experimento puede ser
se registra el voto de n ciudadanos elegidos al azar en una eleccin donde
hay k candidatos. En este caso en principio los valores de los p
i
pueden ser
arbitrarios.
Denotamos con X
i
a la variable aleatoria cantidad de veces que ocurre
el resultado A
i
a lo largo de los n experimentos i = 1, 2, . . . , k y formemos
el vector aleatorio X = (X
1
, X
2
, . . . , X
k
) . Se dice que el vector aleatorio
X = (X
1
, . . . , X
k
) tiene distribucin multinomial con k resultados distin-
tos con probabilidades p
1
, . . . , p
k
y n repeticiones y ser simbolizada por
M
k
(p
1
, . . . , p
k
, n).
Como espacio muestral consideremos
= {(i
1
, i
2
, . . . , i
n
) : i
j
N, 1 i
j
k},
donde i
j
indica el resultado que ocurri en la jsima repeticin del exper-
imento.
94
Por ejemplo si n = 4 y k = 3 la 4-upla (1, 3, 2, 3) indica que el resultado
A
1
ocurri la primera vez y nunca ms, el resultado A
3
la segunda y cuarta
vez y el resultado A
2
la tercera.
Con este espacio muestral, las variables aleatorias X
j
: N estn
denidas por
X
i
((i
1
, i
2
, . . . , i
n
)) = #{j : i
j
= i}.
y se tiene que
k
X
i=1
X
i
((i
1
, i
2
, . . . , i
n
)) = n.
El espacio no es equiprobable. Vamos a encontar ahora la probabilidad
de cada elemento (i
1
, . . . , i
n
) de .Consideremos los eventos
B
j
= {en el experimento j el resultado fue i
j
}, j = 1, . . . , n
Vamos ahora encontrar la probabilidad P denida sobre .Luego el resul-
tado (i
1
, i
2
, . . . , i
n
) es equivalente a la interseccin de B
j
, 1 j n. Como
suponemos independencia de los experimentos y el evento B
j
tiene proba-
bilidad p
j
,resulta
P ({(i
1
, i
2
, . . . , i
n
)}) = p
i
1
p
i
2
. . . p
in
= p
X
1
((i
1
,i
2
,...,i
n
))
1
p
X
2
((i
1
,i
2
,...,i
n
))
2
p
X
k
((i
1
,i
2
,...,i
n
))
k
.
(5.3)
El rango de X es
R
X
=
(
(x
1
, . . . , x
k
) : 0 x
i
n,
n
X
i=1
x
i
= n
)
Fijado x = (x
1
, . . . x
k
) R
X
, calcularemos la probabilidad del evento
A = X
1
(x)
= {(i
1
, i
2
, . . . , i
n
) : X((i
1
, i
2
, . . . , i
n
)) = (x
1
, x
2
, . . . , x
k
)}.
El evento A ocurre cuando para cada i, 0 x
i
k, el resultado A
i
ocure x
i
veces en las n repeticiones del experimento. En particular si (i
1
, i
2
, . . . , i
n
)
A, de acuerdo a (5.3) se tendr
P ({(i
1
, i
2
, . . . , i
n
)}) = p
x
1
1
p
x
2
2
p
x
k
k
.
Luego todo los elementos de A tienen la misma probabilidad y por lo
tanto la probabilidad de A estar dada por la probabilidad de un elemento
95
por su cardinal . Un argumento simple de combinatoria muestra que
#A =

n
x
1

n x
1
x
2

n x
1
x
2
x
3

x
k
x
k

=
n!
(x
1
)! (n x
1
)!
(n x
1
)!
(x
2
)! (n x
1
x
2
)!
(n x
1
x
2
)!
(x
3
)! (n x
1
x
2
x
3
)!
.,1
=
n!
(x
1
)! (x
2
)! (x
3
)! . . . (x
k
)!
.
Esto resulta del hecho de que para elegir un elemento de A hay que elegir
los x
1
lugares donde ocurri A
1
entre los n, hay que elegir los x
2
lugares en
los que ocurrin A
2
entre los n x
1
restantes, etc.
Luego tendremos
p
X
(x
1
, x
2
, . . . , x
k
) = P
X
(A) =
n!
(x
1
)! (x
2
)! (x
3
)! . . . (x
k
)!
.p
x
1
1
p
x
2
2
. . . p
x
k
k
.
5.2.2. Distribucin Hipergeomtrica Multivariada.
Consideremos N objetos que pueden clasicarse en k clases distintas
A
1
, A
2
, . . . , A
k
.
Supongamos conocida la cantidad de objetos de cada clase, digamos D
1
de la clase A
1
, D
2
de la clase A
2
, . . . , D
k
de la clase A
k
, y por lo tanto
P
k
i=1
D
i
= N. Supongamos que se realizan extracciones de n objetos y
sea X
i
la cantidad de objetos de la clase i que se obtuvieron en las n
extracciones. Consideremos el vector aleatorio X =(X
1
, X
2
, . . . , X
k
) .
Existen dos posibilidades
(a) Las extracciones se hacen con reposicin. En este caso, el experimento
tiene distribucin multinomial con parmetros p
1
, p
2
, . . . , p
k
y n, donde
p
i
= D
i
/N.
(b) Las extracciones se hacen sin reposicin. En este caso la distribu-
cin se denomina hipergeomtrica multivariada y ser denotada por
HGM
k
(D
1
, . . . , D
k
, n).
El rango del vector X estar dado por
R
X
= {(x
1
, x
2
, . . . , x
k
) : 0 x
i
D
i
, x
1
+x
2
+ +x
k
= n}.
Como cada n-upla tiene una probabilidad distinta, no ser conveniente
tomar como espacio muestral el conjunto de estas kuplas. Para construir
un espacio de probabilidad equiprobable procedemos de la siguiente manera.
Comenzamos enumerando todos los objetos de la siguiente manera. Los de
clase 1 por
M
1
= {1, 2, . . . , D
1
}.
96
Los de la clase 2 por
M
2
= {D
1
+ 1, D
1
+ 2, . . . , D
1
+D
2
}.
Los de la clase 3 por
M
3
= {D
1
+D
2
+ 1, D
1
+D
2
+ 2, . . . , D
1
+D
2
+D
3
}.
y nalmente los de la clase k por
M
k
=
(
k1
X
i=1
D
i
+ 1,
k1
X
i=1
D
i
+ 2, . . . ,
k
X
i=1
D
i
)
.
Denamos entonce el espacio muestral por
= {A : A {1, . . . , N}, #A = n},
Si el conjunto A se interpreta como el conjunto de los nmeros de las bolillas
obtenidas, resultar que todos los elementos de son equiprobables. Por
ejemplo si N = 20 y n = 3 la probabilidad de extraer los elementos {1, 2, 17}
o {2, 6, 8} es la misma.
El nmero de elementos de es la cantidad de subconjuntos de n ele-
mentos que se pueden formar con los N dados. Luego
#() =

N
n

Dado A , se dene X
i
(A) = #(A M
i
) , 1 i k, y X(A) =
(X
1
(A), . . . , X
k
(A)). Consideremos ahora el evento
C = {A : X(A) = (x
1
, x
2
, . . . , x
k
)}.
El evento C representa todas las extracciones en las que resulta que hay
exactamente x
1
elementos de la clase A
1
, x
2
de la clase A
2
, ..., x
k
de la clase
A. Un argumento combinatorio simple muestra que el cardinal de C es
#(C) =

D
1
x
1

D
2
x
2

D
k
x
k

,
de manera que
p
X
(x
1
, x
2
, . . . , x
k
) = P (C) =

D
1
x
1

D
2
x
2

D
k
x
k

N
n
.
97
5.3. Vectores Aleatorios de tipo absolutamente con-
tinuo.
Denicin 5.3 Sea (, A, P) un espacio de probabilidad y X =(X
1
, X
2
, . . . , X
k
)
un vector aleatorio. Se dice que el vector es absolutamente continuo si exis-
te una funcin integrable sobre R
k
, f
X
: R
k
R
0
llamada funcin de
densidad de la probabilidad P
X
tal que
F
X
(x
1
, x
2
, . . . , x
k
) =
Z
x
k

Z
x
k1


Z
x
1

f
X
(t
1
, t
2
, . . . , t
k
) dt
1
dt
2
. . . dt
k
=
Z

Z
(,x
1
](,x
2
](,x
k
]
f
X
(t) dt,
donde t =(t
1
, t
2
, . . . , t
k
) y dt = dt
1
dt
2
. . . dt
k
.
Tomando lmite cuando x
1
, . . . , x
k
, se tendr
Z
+

Z
+


Z
+

f
X
(t) dt = P
X
(R
k
) = 1.
El siguiente teorema da la probabilidad que un vector aleatorio tome valores
en un rectngulo k-dimensional.
Teorema 5.5 Supongamos que X = (X
1
, . . . , X
k
) sea un vector aleatorio
absolutamente continuo con densidad f
X
. Sean a
1
< b
1
, a
2
< b
2
, a
3
<
b
3
, . . . , a
k
< b
k
. Luego se tiene
P
X
((a
1
, b
1
] (a
2
, b
2
] (a
k
, b
k
])
=
Z
b
k
a
k
Z
b
k1
a
k1

Z
b
1
a
1
f
X
(t
1
, t
2
, . . . , t
k
) dt
1
dt
2
. . . dt
k
.
=
Z

Z
(a
1
,b
1
](a
2
,b
2
](a
k
,b
k
]
f
X
(t) dt,
Demostracin. Tenemos que mostrar que
4
k
(a
k
, b
k
) 4
1
(a
1
, b
1
) F
X
(x
1
, x
2
, . . . , x
k
)
=
Z
b
k
a
k
Z
b
k1
a
k1

Z
b
1
a
1
f
X
(t
1
, t
2
, . . . , t
k
) dt
1
dt
2
. . . dt
k
.
Para esto bastar probar que para todo 1 h k se tiene
4
h
(a
h
, b
h
) 4
1
(a
1
, b
1
) F
X
(x
1
, x
2
, . . . , x
h,
x
h+1
, . . . x
k
)
=
Z
x
k


Z
x
h+1

Z
b
h
a
h

Z
b
1
a
1
f
X
(t
1
, t
2
, . . . , t
h,
t
h+1
, . . . t
k
) dt
1
dt
2
. . . dt
h
,
98
y esto se prueba por induccin en h. 2
Observacin. Usando la integral de Lebesgue, se puede probar, mediante
teora de la medida e integracin que para todo boreliano B B
k
P
X
(B) =
Z

Z
B
f
X
(t) dt. (5.4)
Si se usa la integral de Riemman, la integral del segundo miembro de (5.4)
puede no existir. Unicamente existe si el borde de B tiene medida de Riem-
man 0. En cambio la correspondiente integral de Lebesgue siempre existe.
Desde el punto de vista prctico en este curso solo se va a trabajar con
conjuntos B para los cuales la integral de Riemman existe.
La funcin de densidad de probabilidad tiene una interpretacin anloga
a la que hemos visto para el caso univariado. La siguiente propiedad dice
que en un punto de continuidad, el lmite de la probabilidad de un entorno
de un punto sobre su volumen, cuando el entorno se aproxima al punto es
el valor de la densidad en el punto. Ms precisamente
Teorema 5.6 Sea f
X
la funcin densidad asociada al vector aleatorio
X =(X
1
, X
2
, . . . , X
k
) continua en el punto x
0
= (x
10
, x
20
, . . . , x
k0
) . En-
tonces
lm
h0
P
X
([x
10
h, x
10
+h] [x
k0
h, x
k0
+h])
(2h)
k
= f
X
(x
0
) .
Demostracin. Es anloga al caso univariado y se deja como ejercicio. 2
Observacin. Los entornos cbicos se pueden reemplazar por otro tipo de
entornos, por ejemplo entornos esfricos. En el denominador habr que poner
el volumen correspondiente.
Bajo el supuesto de que la densidad sea continua, se puede escribir la
densidad como la derivada parcial cruzada de orden k de la funcin de
distribucin.
Teorema 5.7 Supongamos que f
X
sea continua en x
0
. Entonces
f
X
(x
0
) =

k
F
X
(x
1
, x
2
, . . . , x
k
)
x
k
x
k1
x
1

x=x
0
.
Demostracin. Por Fubini se tiene
F
X
(x
1
, x
2
, . . . , x
k
) =
Z
x
k

Z
x
k1


Z
x
1

f
X
(t
1
, t
2
, . . . , t
k
) dt
1
dt
2
. . . dt
k
=
Z
x
1

Z
x
k

Z
x
k1


Z
x
1

f
X
(t
1
, t
2
, . . . , t
k
) dt
2
. . . dt
k

dt
1
99
y aplicando el teorema fundamental del clculo resulta
F
X
(x
1
, x
2
, . . . , x
k
)
x
1
=
Z
x
k

Z
x
k1


Z
x
2

f
X
(x
1
, t
2
, . . . , t
k
) dt
2
. . . dt
k
.
=
Z
x
2

Z
x
k

Z
x
k1


Z
x
3

f
X
(x
1
, t
2
, . . . , t
k
) dt
3
. . . dt
k

dt
2
y aplicando nuevamente el teorema fundamental del clculo obtenemos
F
X
(x
1
, x
2
, . . . , x
k
)
x
2
x
1
=
Z
x
k

Z
x
k1


Z
x
2

f
X
(x
1
, x
2
, t
3
, . . . , t
k
) dt
3
. . . dt
k
.
Repitiendo lo mismo k veces se demuestra el teorema. 2
Denicin 5.4 Dado un boreliano B B
k
se dene su volumen de la sigu-
iente manera
V ol (B) =
Z

Z
B
dx
1
dx
2
. . . dx
k
=
Z

Z
B
dx.
Observacin. Un caso tpico de conjuntos con volumen 0 resulta ser un
punto en R, una recta en R
2
, un plano en R
3
y en general un hiperplano en
R
k
. Las uniones a lo sumo numerables de conjuntos de volumen cero tienen
volumen cero. En general cualquier subconjunto de R
k
de dimensin j con
j < k tendr volumen 0. Por ejemplo las curvas en R
2
o las supercies en
R
3
.
Veremos que si el vector aleatorio es absolutamente continuo la funcin
de probabilidad asociada asigna probabilidad 0 a conjuntos cuyo volumen
es 0.
Teorema 5.8 Sea X un vector aleatorio de dimensin k. Si B B
k
tal que
Vol(B) = 0 entonces P
X
(B) = 0.
Demostracin. Sea
C
n
= {x R
k
: f
X
(x) > n}.
Es claro que si x C
n+1
entonces f
X
(x) > n+1 > n de manera que x C
n
,
es decir la sucesin de conjuntos {C
n
}
n1
es decreciente y adems, puesto
que la funcin f
X
es nita en todo punto, se tiene
T

n=1
C
n
= . Luego
tambin se tendr
lm
n
P
X
(C
n
) = 0.
Podemos descomponer a B = (B C
n
) (B C
c
n
) . Como esta unin es
disjunta, se tiene
P
X
(B) = P
X
(B C
n
) +P
X
(B C
c
n
) .
100
Ahora calculamos P
X
(B C
c
n
). Para ello observemos que para todo n N
P (B C
c
n
) =
Z

Z
BC
c
n
f
X
(x) dx
n
Z

Z
BC
c
n
dx
= nVol (B C
c
n
)
nVol (B)
= 0.
Entonces para todo n N resulta
P
X
(B) = P
X
(B C
n
) P
X
(C
n
) ,
de manera que pasando al lmite se concluye que P
X
(B) = 0. 2
Observacin. Existe una diferencia importante entre los vectores discretos
y los absolutamente continuos. Recordemos que un vector es discreto si y
slo si sus componentes son variables discretas. Esto no ocurre en el caso de
los vectores aleatorios absolutamente continuos. Para demostrarlo daremos
un contraejemplo.
Consideremos una variable aleatoria X
1
, con distribucin absolutamente
continua y sea X
2
= X
1
de manera que el vector X =(X
1
, X
2
) tiene como
componentes variables aleatorias con distribuciones absolutamente conti-
nuas. Ahora veamos que el vector X no puede tener distribucin absoluta-
mente continua.
Para ello observemos que
B = {(x
1
, x
2
) R
2
: x
1
= x
2
}
es una recta en R
2
de manera que tiene volumen cero. Pero sin embargo
P
X
(B) = P ({ : X
1
() = X
2
()) = P () = 1.
Teorema 5.9 Sea X =(X
1
, X
2
, . . . , X
h
, X
h+1
, . . . , X
k
) un vector aleatorio
de dimensin k. Consideremos un subconjunto de coordenadas y formemos
el vector aleatorio asociado X

= (X
1
, X
2
, . . . , X
h
). Entonces X

tambin es
absolutamente continuo y
f
X
(x
1
, x
2
, . . . , x
h
) (5.5)
=
Z
+

Z
+


Z
+

f
X
(x
1
, x
2
, . . . x
h
, t
h+1
, . . . , t
k
) dt
h+1
dt
h+2
. . . dt
k
.
101
Demostracin. Tenemos que
F
X
(x
1
, x
2
, . . . , x
h
)
= P
X
((, x
1
] (, x
2
] (, x
h
])
= P
X
_
_
(, x
1
] (, x
2
] (, x
h
] R R R
| {z }
kh factores
_
_
=
Z

Z
(,x
1
](,x
2
]...(,x
h
]RR...R
f
X
(t
1
, t
2
, . . . , t
k
) dt
1
dt
2
. . . dt
k
=
Z
+

Z
+


Z
+

Z
x
h


Z
x
1

f
X
(t
1
, t
2
, . . . , t
k
) dt
1
. . . dt
h
dt
h+1
dt
h+2
. . . dt
k
Por lo tanto, usando Fubini, se tendr
F
X
(x
1
, x
2
, . . . , x
h
)
=
Z
+

Z
+


Z
+

Z
x
h


Z
x
1

f
X
(t
1
, t
2
, . . . , t
k
) dt
1
. . . dt
h
dt
h+1
dt
h+2
. . . dt
k
=
Z
x
h


Z
x
1

Z
+

Z
+


Z
+

f
X
(t
1
, t
2
, . . . , t
k
) dt
h+1
dt
h+2
. . . dt
k

dt
1
. . . dt
h
Luego tenemos que
F
X
(x
1
, x
2
, . . . , x
h
) =
Z
x
h


Z
x
1

f
X
(t
1
, t
2
, . . . , t
h
) dt
1
. . . dt
h
,
donde f
X
est dada por (5.5). Esto prueba el Teorema. 2
Observacin. Por comodidad hemos escogido las primeras h componentes
pero lo mismo puede hacerse para una coleccin arbitraria de ellas. En el
caso de una distribucin bivariada X =(X
1
, X
2
) , X

= X
1
f
X
1
(x
1
) =
Z
+

f
X
(x
1
, x
2
) dx
2
.
El siguiente Teorema da una condicin necesaria y suciente para que
un conjunto de variables absolutamente continuas sean independientes.
Teorema 5.10 Sean X
1
, . . . , X
k
variables aleatorias absolutamente contin-
uas con densidades f
X
1
, . . . , f
X
k
. Luego estas variables son independientes
si y slo si el vector X = (X
1
, . . . X
k
) tiene como densidad conjunta a la
funcin
f(x
1
, . . . , x
k
) =
k
Y
i=1
f
X
i
(x
i
).
102
Demostracin. Como sabemos, por el Teorema 4.13, que X
1
, . . . , X
k
son in-
dependientes si y slo si
F
X
(x) =
k
Y
i=1
F
X
i
(x
i
), (5.6)
por el Teorema 4.5 (Teorema de Extensin para vectores aleatorios) bastar
probar que la funcin de distribucin F correspondiente a f est dada por
(5.6). Vamos a mostrar que esto es cierto. En efecto, tenemos
F(x
1
, . . . , x
k
) =
Z
x
k

..
Z
x
1

k
Y
i=1
f
X
i
(x
i
)dx
1
. . . dx
k
=
k
Y
i=1
Z
x
i

f
X
i
(x
i
)dx
i
=
k
Y
i=1
F
X
i
(x
i
),
y luego el Teorema queda probado. 2
El siguiente Teorema que se deja como ejercicio prueba una propiedad
similar para vectores.
Teorema 5.11 Sean X
1
, . . . , X
k
vectores aleatorios absolutamente contin-
uos con densidades f
X
1
, . . . , f
X
k
. Luego estos vectores son independientes si
y slo si el vector X

= (X
1
, . . . X
k
) tiene como densidad a la funcin
f(x
1
, . . . , x
k
) =
k
Y
i=1
f
X
i
(x
i
).
103
104
Captulo 6
Transformaciones de
variables y vectores
aleatorios.
En esta seccin estudiaremos cmo se obtienen las distribuciones de vari-
ables o vectores aleatorios obtenidos a partir de otros a travs de cierto tipo
de transformaciones.
6.1. Transformaciones montonas de variables aleato-
rias.
Sea (, A, P) un espacio de probabilidad y X una variable aleatoria.
Consideremos una funcin g : R R continua y estrictamente mon-
tona, es decir, estrictamente creciente o bien estrictamente decreciente. Sabe-
mos que Y = g (X) es otra variable aleatoria. Queremos estudiar la relacin
que existe entre F
X
y F
Y
.
Caso de g estrictamente creciente.
La imagen de g (R) es un intervalo abierto (a, b) de longitud nita o bien
innita, es decir tambin puede ser y b = .El siguiente teorema da la
relacin entre F
X
y F
Y
.
Teorema 6.1 Sea g : R R una funcin estrictamente creciente y sea
(a, b) = g(R). Entonces si X es una variable aleatoria con funcin de dis-
tribucin F
X
, la funcin de distribucin de Y = g(X) ser
F
Y
(y) =
_
_
_
0 si y a
F
X

g
1
(y)

si y (a, b)
1 si y b.
(6.1)
105
Demostracin. Sea a < y < b. Como g es estrictamente creciente se tendr
F
Y
(y) = P (Y y) = P (g (X) y) = P

X g
1
(y)

= F
X

g
1
(y)

.
Si y a se tendr que { : g(X()) y} = y luego
F
Y
(y) = P({ : g(X()) y}) = 0.
Del mismo modo, si y b se tendr { : g(X()) y} = , y luego
F
Y
(y) = P({ : g(X()) y}) = 1. 2
Caso de g estrictamente decreciente.
Nuevamente la imagen de g es un abierto (a, b) de longitud nita o
innita. En este caso tenemos el siguiente teorema.
Teorema 6.2 Sea g : R R una funcin estrictamente decreciente (a, b) =
g(R). Entonces se tiene
(a) Si X es una variable aleatoria con funcin de distribucin F
X
, la fun-
cin de distribucin de Y = g(X) ser
F
Y
(y) =
_
_
_
0 si y a
1 P

X < g
1
(y)

si y (a, b)
1 si y b.
(6.2)
(b) Si adems F
X
es continua se tendr
F
Y
(y) =
_
_
_
0 si y a
1 F
X

g
1
(y)

si y (a, b)
1 si y b.
(6.3)
Demostracin.
(a) Como g es estrictamente decreciente se tiene para a < y < b que
F
Y
(y) = P (Y y) = P (g (X) y)
= P

X g
1
(y)

= 1 P

X < g
1
(y)

.
Los casos y a y y b se demuestran como en el Teorema 6.1.
(b) En este caso se tiene
P

X < g
1
(y)

= P

X g
1
(y)

= 1 F
X

g
1
(x)

. 2
106
Ahora caracterizaremos la funcin de densidad asociada a Y . Suponga-
mos que X tiene distribucin absolutamente continua con densidad f
X
y
adems que g es derivable.
Teorema 6.3 Sea g : R R una funcin estrictamente creciente o decre-
ciente y derivable con g
0
(y) 6= 0. Sea (a, b) = g(R), entonces si X es una
variable aleatoria absolutamente continua con funcin de densidad f
X
, la
funcin de densidad de Y = g(X) ser
f
Y
(y) =
_

_
0 si y a
f
X

g
1
(y)

|g
0
(g
1
(y)) |
si y (a, b)
0 si y b.
(6.4)
Demostracin. En el caso de que g es estrictamente creciente, (6.4) se obtiene
derivando (6.1) y observando que g
0
> 0. En el caso que g sea estrictamente
decreciente, derivando (6.3) y observando que g
0
< 0. 2
Un caso especial de inters ocurre cuando g es una transformacin afn,
es decir cuando g (x) = cx+d con c 6= 0. En este caso Y = g (X) = cX+d y
g
0
(x) = c. Como a = y b = +, teniendo en cuenta que g
1
(y) =
y d
c
obtenemos
f
X
(y) =
1
|c|
f
X

y d
c

. (6.5)
6.1.1. Distribucin Normal
Hemos visto la distribucin de una variable normal standarizada X
N(0, 1) cuya funcin densidad es
f
X
(x) =
1

2
exp

x
2

.
Ahora vamos a denir para todo R y para todo R
>0
la distribu-
cin normal con media y varianza
2
que indicaremos con N(,
2
). Esta
distribucin es la que corresponde a Y = X +, donde X es N(0, 1) .
De acuerdo a (6.5) tendremos
f
Y
(y) =
1

f
X

=
1

2
exp

1
2

2
!
=
1

2
exp

(y )
2
2
2
!
.
107
-4 -2 0 2 4
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
Figura 6.1: Densidad de la normal estndar (en lneal llena), de la N(0, 4) (en lnea
de puntos) y de la N

0,
1
4

(en lnea de puntos y rayas).


El signicado de los parmetros y se estudiar en la seccin 7.7.1.
Adelantemos que representa un desplazamiento horizontal de la densidad
e indica el centro de simetra de la misma. La densidad alcanza su mximo
en y a medida que nos alejamos de , la densidad va decreciendo. El
parmetro , indica la dispersin de la variable respecto del centro. Un factor
grande achata la curva hacia el eje de abcisas, y en este caso la dispersin
es grande . Cuando es chico, la probablidad esta ms concentrada cerca
de .
En la Figura 6.1 se muestran densidades normales con diferentes valores
de ilustrando el signicado de este parmetro.
Ejercicio. Se deja como ejercicio mostrar que si Y tiene distribucin
N(,
2
), entonces Z = (Y )/ tiene distribucin N(0, 1). Esta transfor-
macin se llama estandarizacin de la variable Y y permite calcular las prob-
abilidades de cualquier distribucion N(,
2
) usando la distribucin N(0, 1).
Por ejemplo, sea Y con distribucin N(3, 4) y supongamos que queremos
encontrar P(3 < Y < 5). Luego Z = (Y 3)/2 es N(0, 1) y tendremos
P(3 < Y < 5) = P

3 3
2
<
Y 3
2
<
5 3
2

= P(0 < Z < 1)


= (1) (0)
donde es la funcin de distribucin de una N(0, 1). Usando una tabla de
108
la N(0, 1) encontramos que (0) = 0,50 y (1) = 0,8413 Luego
P(3 < Y < 5) = 0,8413 0,50 = 0,3413.
6.2. Transformaciones inyectivas de vectores aleato-
rios.
Recordemos algunos resultados de clculo integral en varias variables.
Sea U R
k
un abierto y g : U R
k
una funcin inyectiva de manera que
g : U V = g (U) resulta biyectiva. Podemos representar g = (g
1
, . . . , g
k
),
donde g
i
: U R. Luego existe g
1
: V U. Supongamos que g es
diferenciable en cada punto x U. El jacobiano de g se dene por
J
g
(x) = det
_
_
_
_
_
_
_
_
_
_
g
1
(x)
x
1
g
1
(x)
x
2

g
1
(x)
x
k
g
2
(x)
x
1
g
2
(x)
x
2

g
2
(x)
x
k
.
.
.
.
.
.
.
.
.
.
.
.
g
k
(x)
x
1
g
k
(x)
x
2

g
k
(x)
x
k
_
_
_
_
_
_
_
_
_
_
6= 0.
Entonces si y V y J
g

g
1
(y)

6= 0, resulta que g
1
es diferenciable en
y y se tiene
J
g
1 (y) =
1
J
g
(g
1
(y))
.
El siguiente teorema permite realizar un cambio de variables para inte-
grales mltiples.
Teorema 6.4 Sea A U R
k
un conjunto tal que el borde tiene medida
de Riemann 0, f : U R una funcin continua, g : R
k
R
k
una funcin
inyectiva y diferenciable tal que J
g
(x) 6= 0 para todo x A . Entonces
Z

Z
A
f (x) dx =
Z

Z
g(A)
f

g
1
(y)

|J
g
1 (y) |dy.
donde dx = dx
1
dx
2
. . . dx
k
y dy = dy
1
dy
2
. . . dy
k
.
Sea ahora X = (X
1
, X
2
, . . . , X
k
) un vector aleatorio con distribucin
absolutamente continua y sea f
X
su densidad. El siguiente teorema permitir
encontrar la distribucin del vector Y = g (X) .
Teorema 6.5 Sea X =(X
1
, X
2
, . . . , X
k
) un vector aleatorio absolutamente
continuo con densidad f
X
tal que P
X
(U) = 1, donde U es un abierto en R
k
.
Sea g : U R
k
una funcin inyectiva diferenciable tal que para todo x U
109
se tiene J
g
(x) 6= 0. Luego el vector Y = g (X) tambin es absolutamente
continuo y su densidad est dada por
f
Y
(y) = f
X

g
1
(y)

|J
g
1 (y) |I
V
(y) ,
donde V = g(U), e I
V
es la funcin indicadora del conjunto V.
Demostracin. Para esto bastar demostrar que para todo B B
k
P
Y
(B) =
Z

Z
B
f
X

g
1
(y)

J
g
1 (y)

I
V
(y) dy. (6.6)
Por denicin de funcin de densidad de X se tiene que
P
Y
(B) = P (Y B V )
= P (g (X) B V )
= P

X g
1
(B V )

=
Z

Z
g
1
(BV )
f
X
(x) dx.
Usando la frmula de cambio de variables en integrales mltiples resulta
P
Y
(B) =
Z

Z
g
1
(BV )
f
X
(x) dx
=
Z

Z
g(g
1
(BV ))
f
X

g
1
(y)

J
g
1 (y)

dy.
Sea g : U W y H W. Es fcil ver que una condicin necesaria y
suciente para que g

g
1
(H)

= H es que H g (U). Como B V V =


g(U) resulta g(g
1
(B V )) = B V y por lo tanto
P
Y
(B) =
Z

Z
g(g
1
(BV ))
f
X

g
1
(y)

J
g
1 (y)

dy
=
Z

Z
BV
f
X

g
1
(y)

J
g
1 (y)

dy
=
Z

Z
B
f
X

g
1
(y)

J
g
1 (y)

I
V
(y)dy.
Esto muestra que vale (6.6). 2
El resultado anterior vale cuando g es diferenciable y biunvoca de un
abierto de R
k
en R
k
. Veamos ahora que ocurre cuando g es una funcin
110
diferenciable de un abierto de R
k
en R
j
con j 6= k. Si j > k nada podemos
hacer puesto que en tal caso el conjunto g(U) es un conjunto de dimensin
k y por lo tanto tiene volumen 0. Luego como P
Y
(g(U)) = 1, Y no puede
ser un vector absolutamente continuo.
Consideremos ahora j < k y sea U un abierto en R
k
. Supongamos que
g = (g
1
, . . . , g
j
) : R
k
R
j
, donde cada g
i
: U R, 1 i j, es una funcin
diferenciable. Trataremos de derivar la densidad f
Y
de Y = g(X). Esto es
posible si se pueden encontrar funciones diferenciables g
i
: R
k
R, i =
j + 1, . . . , h tales que si llamamos e g = (g
1
, . . . , g
j
, g
j+1
, . . . ., g
k
) la funcin
e g : R
k
R
k
resulte inyectiva y J
e g
(y) 6=0 para todo y U. En, efecto en este
caso por el teorema anterior podremos encontrar la densidad de
e
Y = e g(X)
que denominaremos f
e
Y
. Luego la densidad de Y ser
f
Y
(y
1
, . . . y
j
) =
Z

. . .
Z

f
e
Y
(y
1
, . . . , y
j
, y
j+1
. . . , y
k
)dy
j+1
. . . dy
k
.
Veamos un ejemplo del uso de este procedimiento. Sea X =(X
1
, X
2
) y
consideremos Y = X
1
+X
2
. Si denimos g : R
2
R por g (x
1
, x
2
) = x
1
+x
2
,
vemos que Y = g (X) . En este caso 1 = j < k = 2. Ahora consideremos
e g : R
2
R
2
, denida por e g (x
1
, x
2
) = (x
1
+x
2
, x
2
) e Y =(Y
1
, Y
2
) con Y
1
=
g (X) e Y
2
= X
2
. Luego estamos en las condiciones del teorema puesto que
e g : R
2
R
2
es biyectiva, diferenciable y su Jacobiano es
J
eg
(x
1
, x
2
) = det

1 1
0 1

= 1.
Luego tenemos e g
1
(y
1
, y
2
) = (y
1
y
2
, y
2
).
En este caso U = V = R
2
, y entonces acuerdo al Teorema 6.5, se tendr
f
Y
(y) = f
X

e g
1
(y)

|J
eg
1 (y) |
= f
X
(y
1
y
2
, y
2
)
y
f
Y
(y) =
Z

f
X
(y y
2
, y
2
) dy
2
.
En el caso que X
1
y X
2
son independientes con densidades f
X
1
y f
X
2
,
se tendr
f
X
(x
1
, x
2
) = f
X
1
(x
1
)f
X
2
(x
2
),
y entonces f
Y
est dado por
f
Y
(y) =
Z

f
X
1
(y y
2
)f
X
2
(y
2
) dy
2
. (6.7)
La funcin f
y
dada por (6.7) se denomina convolucin de f
X
1
(x
1
) y
f
X
2
(x
2
).
111
6.3. Algunas aplicaciones a la distribucin normal.
Sea X = (X
1
, X
2
, . . . , X
k
) un vector aleatorio tal que sus componentes
son variables aleatorias independientes con idntica distribucin N(0, 1). Sea
A R
kk
una matriz ortogonal, es decir tal que A
1
= A
0
donde A
0
denota
la traspuesta de la matriz A. Denimos la funcin g : R
k
R
k
dada por
g (x) = xA y consideramos el vector aleatorio Y = XA. El siguiente teorema
muestra que la distribucin de Y es la misma que la del vector X.
Teorema 6.6 La distribucin de vector Y es la misma que la del vector X.
Demostracin. La funcin de densidad del vector X es
f
X
(x) =
1
q
(2)
k
k
Y
i=1
exp

1
2
x
2
i

=
1
q
(2)
k
exp

k
X
i=1
x
2
i
!
=
1
q
(2)
k
exp

1
2
||x||
2

.
Sea g : R
k
R
k
denida por g (x) = xA, luego g
1
(y) = yA
1
= yA
0
.
Calculando el Jacobiano de g vemos que J
g
(x) = det A = 1, de manera
que por el Teorema 6.5 y el hecho de que por ser A
0
ortogonal ||g
1
(y) || =
||yA
0
|| = ||y||, la densidad de Y est dada por
f
Y
(y) = f
X

g
1
(y)

|J
g
1 (y) |I
R
k (y)
= f
X

g
1
(y)

= exp

1
2
||g
1
(y)||
2

=
1
q
(2)
k
exp

1
2
||y||
2

.
Esto prueba el teorema. 2
El siguiente teorema prueba que combinaciones lineales de variables
aleatorias normales independientes son normales.
Teorema 6.7 (i) Sean X
1
, X
2
, . . . , X
k
variables aleatorias independien-
tes con distribucin N(0, 1). Sean b
1
, . . . , b
k
nmeros reales, tales que
P
k
i=1
b
2
i
= 1, es decir el vector b = (b
1
, . . . , b
k
)
0
R
k
tiene norma
unitaria. Luego la variable Z = b
1
X
1
+ +b
k
X
k
tambin distribucin
N(0, 1).
112
(ii) Sean Y
1
, Y
2
, . . . , Y
k
variables aleatorias independientes tales que Y
i
tiene
distribucin N(
i
,
2
i
), luego dados nmeros reales
1
. . . ,
k
y , la
distribucin de Z =
P
k
i=1

i
Y
i
+ es
N

k
X
i=1

i
+,
k
X
i=1

2
i

2
i
!
.
Demostracin.
(i) Sea a
1
=(b
1
, b
2
, . . . , b
k
)
0
, donde
0
indica traspuesto . Entonces ||a
1
|| =
1. Podemos extender {a
1
} a una base ortonormal de R
k
. Es decir exis-
ten vectores columnas a
2
, a
3
, . . . , a
k
ortogonales y de norma 1 tales que
{a
1
, a
2
, . . . , a
k
} es una base de R
k
. Luego la matriz B cuyas columnas
son los vectores a
j
, j = 1, 2, . . . , k es una matriz ortogonal. Denamos
el vector aleatorio Y = XB, y sea Y
i
la componente isima de Y.
Por lo visto anteriormente las variables aleatorias Y
i
, (i = 1, 2, . . . , k)
tambin son independientes con distribucin N(0, 1) . En particular
Y
1
=
P
k
i=1
b
i
X
i
= Z tiene distribucin N(0, 1) . Luego (i) queda proba-
do.
(ii) Podemos escribir
Z =
k
X
i=1

i
Y
i

i

i
+ +
k
X
i=1

i
=
k
X
i=1

i
X
i
+,
donde X
i
= (Y
i

i
)/
i
y
= +
X

i
. (6.8)
Sabemos que para i = 1, 2, . . . , k las variables X
i
son independientes
con distribucin N(0, 1) . Luego podemos escribir a Z de la siguiente
manera
Z = A
k
X
i=1

i
A
X
i
+,
donde A est dada por
A =

k
X
i=1

2
i

2
i
!
1
2
. (6.9)
Sea b
i
=

i

i
A
, luego
k
X
i=1
b
2
i
=
k
X
i=1

i
A

2
=
1
A
2
k
X
i=1
(
i

i
)
2
= 1.
113
Denamos W =
P
k
i=1
b
i
X
i
. Luego de acuerdo a la parte (i) de este
teorema se tendr que
W =
k
X
i=1
b
i
X
i
tiene distribucin N(0, 1). Por lo tanto como
Z = A
k
X
i=1

i
A
X
i
+ = AW +
en virtud de la denicin de distribucin normal se tendra que Z tiene
distribucin N

, A
2

. Luego el teorema se deduce de (6.8) y (6.9). 2


6.4. Transformaciones no inyectivas
Vamos a tratar el caso donde g no es inyectiva. En ese caso tenemos el
siguiente teorema.
Teorema 6.8 Sea X =(X
1
, X
2
, . . . , X
k
) un vector aleatorio absolutamente
continuo con densidad f
X
. Sean U
1
, U
2
, . . . , U
h
abiertos disjuntos en R
k
tales
que P
X
(
S
h
i=1
U
i
) = 1 . Sea g :
S
h
i=1
U
i
R
k
una funcin tal que es inyectiva
y diferenciable en U
i
con J
g
(x) 6= 0 para todo x U
i
. Luego el vector
Y = g (X) tambin es absolutamente continuo y su densidad est dada por
f
Y
(y) =
h
X
i=1
f
X

g
1
i
(y)

|J
g
1
i
(y) |I
V
i
(y) ,
donde V
i
= g (U
i
) , g
i
= g|
U
i
, g
1
i
: V
i
U
i
es la inversa de g
i
.
Demostracin. Bastar probar probar que para todo B B
k
se tiene
P
Y
(B) =
Z

Z
B
h
X
i=1
f
X

g
1
i
(y)

|J
g
1
i
(y) |I
V
i
(y) dy. (6.10)
Usando que los U
i
son disjuntos, que
P

k
[
i=1
U
i
!
= 1
y que
{Y B} {X U
i
} = {Y B V
i
} {X U
i
} = {X g
1
i
(B V
i
)}
114
obtenenemos
P
Y
(B) = P (Y B)
= P

h
[
i=1
{Y B} {X U
i
}
!
=
h
X
i=1
P ({Y B} {X U
i
})
=
h
X
i=1
P

X g
1
i
(B V
i
)

=
h
X
i=1
P
X

g
1
i
(B V
i
)

=
h
X
i=1
Z

Z
g
1
i
(BV
i
)
f
X
(x) dx
Como las funciones g
i
son biunvocas en cada U
i
, usando la frmula de
cambio de variables en integrales mltiples se tiene
P
Y
(B) =
h
X
i=1
Z

Z
g
1
i
(BV
i
)
f
X
(x) dx
=
h
X
i=1
Z

Z
BV
i
f
X

g
1
i
(y)

|J
g
1
i
(y) | dy
=
h
X
i=1
Z

Z
B
f
X

g
1
i
(y)

| J
g
1
i
(y) |I
V
i
(y) dy
=
Z

Z
B
h
X
i=1
f
X

g
1
i
(y)

| J
g
1
i
(y) | I
V
i
(y) dy,
y por lo tanto se cumple (6.10). 2
6.4.1. Distribucin Chi-cuadrado con un grado de libertad.
Sea X N(0, 1) y consideremos g : R R g (x) = x
2
. Denimos
Y = g (X) = X
2
. Sean U
1
= {x : x < 0} y U
2
= {x : x > 0}. Luego
g
1
1
(y) =

y y g
1
2
(y) =

y.
En este caso V
1
= V
2
= R
>0
y
J
g
1
1
(y) =
1
2
y

1
2
,
J
g
1
2
(y) =
1
2
y

1
2
.
115
Luego teniendo en cuenta que
f
X
(x) =
1

2
exp

x
2
2

,
y que V
1
= V
2
= R
>0
, por el teorema anterior se tiene
f
Y
(y) =
1

2
exp

y
2

1
2
y

1
2
I
V
1
(y) +
1

2
exp

y
2

1
2
y

1
2
I
V
2
(y)
=
1

2
exp

y
2

1
2
I
{y: y>0}
(y) .
A la distribucin de la variable Y la denominaremos distribucin Chi-cuadrado
con un grado de libertad, y lo notaremos por
2
1
.
6.5. Algunas distribuciones complementarias.
6.5.1. Distribucin Gamma.
En primer lugar introducimos la funcin Gamma (que denotaremos con
), que resulta ser una extensin a los reales positivos de la funcin factorial
denida sobre los nmeros naturales. La funcin : R
>0
R
0
se dene
por
() =
Z
+
0
exp(x) x
1
dx.
Para probar la existencia de este integral la descomponemos como
() =
Z
1
0
exp(x) x
1
dx +
Z
+
1
exp(x) x
1
dx
= I
1
+I
2
.
Es fcil ver que I
1
es nita, teniendo en cuenta que exp(x) 1 sobre
(0, 1)
I
1
=
Z
1
0
exp(x) x
1
dx
Z
1
0
x
1
dx =
x

1
0
=
1

.
Estudiaremos ahora la convergencia de I
2
. Observemos que el desarrollo de
Taylor de exp(x/2) est dado por
exp

x
2

=

X
k=0
1
k!

x
2

k
.
Luego como todos los trminos son positivos, tenemos
exp

x
2

1
k!

x
2

k
116
para todo k N.
Entonces
x
k
C
k
exp

x
2

,
donde C
k
= k!2
k
. Tomamos ahora k
0
> 1, luego se obtiene
I
2
=
Z
+
1
exp(x) x
1
dx

Z
+
1
exp(x) x
k
0
dx

Z
+
1
exp(x) C
k
0
exp

x
2

dx
C
k
0
Z
+
1
exp

x
2

dx < .
Propiedad 6.1 Si > 0 entonces ( + 1) = ().
Demostracin. Para probarlo integraremos por partes tomando u = x

; dv =
exp(x) dx. Luego se tiene v = exp(x) y du = x
1
, de donde resulta
( + 1) =
Z
+
0
exp(x) x

dx
=
Z
+
0
udv
= x
a
exp(x) |

0

Z
+
0
(exp(x)) x
1
dx
= x

exp(x) |

0
+
Z
+
0
exp(x) x
1
dx.
Como lm
x
x

exp(x) = 0, resulta que ( + 1) = () . 2


Propiedad 6.2 es una extensin del factorial. Ms precisamente para
todo n N se tiene (n) = (n 1)!
Demostracin. La prueba se hace por induccin. Si n = 1 entonces (1) =
1 = 0!. Supongamos ahora que la propiedad que vale para n y veamos que
entonces vale para n + 1. Usando la Propiedad 6.1 y la hiptesis inductiva
tenemos
(n + 1) = n(n) = n((n 1)!) = n!,
con lo cual la propiedad queda demostrada. 2
117
Denicin 6.1 Dado > 0, se dene la distribucin Gamma con parme-
tros y 1 (ser denotada por (, 1)) como la distribucin absolutamente
continua cuya funcin densidad es
f (x) =
1
()
exp(x) x
1
I
[0,)
(x) .
De acuerdo con la denicin de la funcin Gamma es claro que f es una
densidad ya que
Z
+

f (x) dx = 1.
Denicin 6.2 Dado > 0 y > 0 deniremos la distribucin Gam-
ma con parmetros y (que denotaremos por (, )), a la distribucin
de Y = X/ donde X tiene distribucin (, 1) . Como g (x) = x/, De
acuerdo a (6.5) y teniendo en cuenta que > 0 tendremos
f
Y
(y) = f
X
(y) =
=

()
exp(y) (y)
1
I
[0,)
(y) =
=

()
exp(y) y
1
I
[0,)
(y).
Obsrvese que como (1) = 0! = 1, la distribucin (1, ) tiene como
densidad
f(y) = exp(y) I
[0,)
(y)
que es la distribucin exponencial con parmetro . En la Figura 6.2 mues-
tran varias densidades gamma
Recordemos que si X N(0, 1) entonces Y = X
2
tiene, de acuerdo a
lo probado en la subseccin anterior, una distribucin chi-cuadrado con un
grado de libertad. Ms precisamente probamos que
f
Y
(y) =
1

2
y

1
2
exp

y
2

I
[0,)
(y). (6.11)
Ahora bien si consideramos Z (1/2, 1/2) entonces su densidad es
f
Z
(z) =

1
2
1
2

1
2
exp

z
2

1
2
I
[0,)
(z)
=
1

1
2
exp

z
2

1
2
I
[0,)
(z). (6.12)
Las densidades (6.11) y (6.12) dieren slo en una constante, luego deben
ser iguales Esto se muestra integrando las densidades sobre R, ya que ambas
118
0 2 4 6 8
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
Figura 6.2: Densidad de la

2,
1
2

(en lneal de puntos y rayas), de la (5, 1)(en


lnea llena) y de la (3, 3) (en lnea de puntos).
integrales deben ser iguales a 1. Por lo tanto la distribucin
2
con un
grado de libertad coincide con la distribucin

1
2
,
1
2

. Adems igualando
las constantes de ambas densidades se tiene la identidad
1

2
=
1

1
2
,
o equivalentemente

1
2

.
Necesitaremos el siguiente teorema
Teorema 6.9 Sea W=(W
1
, W
2
) un vector aleatorio y supongamos que
f
W
(w) = g
1
(w
1
) g
2
(w
2
) ,
donde g
1
es una funcin de densidad. Entonces
(i) f
W
2
= g
2
, y por lo tanto g
2
es una funcin de densidad.
(ii) f
W
1
= g
1
.
(iii) Las variables W
1
y W
2
son independientes.
Demostracin. Como
Z
+

g
1
(w
1
) dw
1
= 1,
119
se tiene que
f
W
2
(w
2
) =
Z
+

g
1
(w
1
) g
2
(w
2
) dw
1
=
= g
2
(w
2
)
Z
+

g
1
(w
1
) dw
1
= g
2
(w
2
) .
Esto prueba (i). Para ver (ii) se usa el mismo argumento. Como (i) y (ii)
implican que
f
W
(w
1
, w
2
) = f
W
1
(w
1
)f
W
2
(w
2
),
resulta que por el Teorema 5.10 W
1
y W
2
son independientes. 2
Teorema 6.10 Sean Y
1
, Y
2
variables aleatorias independientes con distribu-
ciones (
1
, ) y (
2
, ) respectivamente. Denamos W
1
= Y
1
+Y
2
, W
2
=
Y
1
/(Y
1
+Y
2
). Entonces se tiene
(i) La distribucin de W
1
es W (
1
+
2
, ) .
(ii) W
2
tiene densidad
(
1
+
2
)
(
1
) (
2
)
w

1
1
2
(1 w
2
)

2
1
I
[0,1]
(w
2
).
(iii) W
1
y W
2
son independientes.
Demostracin. La demostracin se basa en el Teorema 6.5. Sea el abierto
U R
2
denido por U = {(y
1
, y
2
) : y
1
> 0, y
2
> 0}. Luego P
Y
(U) = 1 con
Y = (Y
1
, Y
2
) . Consideremos la transformacin g : U R
2
denida por
g (y
1
, y
2
) =

y
1
+y
2
,
y
1
y
2
+y
1

.
Es fcil ver que V = g(U) = (0, ) (0, 1) y
g
1
(w
1
, w
2
) = (w
1
w
2
, w
1
w
1
w
2
)
= (w
1
w
2
, w
1
(1 w
2
)) .
Luego
J
g
1 (w
1
, w
2
) = det

w
2
1 w
2
w
1
w
1

= w
1
w
2
w
1
(1 w
2
)
= w
1
,
y por lo tanto |J
g
1 (w
1
, w
2
) | = w
1
.
120
Consideramos ahora la densidad del vector Y = (Y
1
, Y
2
) . Como se supu-
so independencia entre Y
1
e Y
2
, esta densidad es el producto de las densidades
marginales y luego
f
Y
(y
1
, y
2
) =

1
+
2
(
1
) (
2
)
exp((y
1
+y
2
)) y

1
1
1
y

2
1
2
I
(0,)
(y
1
)I
(0,)
(y
2
).
Luego de acuerdo al Teorema 6.5 y por el hecho de que
I
V
(w
1
, w
2
) = I
(0,)(0,1)
(w
1
, w
2
) = I
(0,)
(w
1
)I
(0,1)
(w
2
)
se tiene
f
W
(w
1
, w
2
)
=

1
+
2
(
1
) (
2
)
exp(w
1
) (w
1
w
2
)

1
1
(w
1
(1 w
2
))

2
1
w
1
I
V
(w
1
, w
2
)
=

1
+
2
(
1
+
2
)
w

1
+
2
1
1
exp(w
1
) I
(0,)
(w
1
)

(
1
+
2
)
(
1
) (
2
)
w

1
1
2
(1 w
2
)

2
1
I
(0,1)
(w
2
)

= g
1
(w
1
)g
2
(w
2
)
donde
g
1
(w
1
) =

1
+
2
(
1
+
2
)
w

1
+
2
1
1
exp(w
1
) I
(0,)
(w
1
)
y
g
2
(w
2
) =
(
1
+
2
)
(
1
) (
2
)
w

1
1
2
(1 w
2
)

2
1
I
(0,1)
(w
2
).
El primer factor g
1
corresponde a una densidad (
1
+
2
, ) . Por el Teo-
rema 6.9 resulta que W
1
tiene distribucin (
1
+
2
, ) y W
2
tiene como
funcin de densidad a
g
2
(w
2
) =
(
1
+
2
)
(
1
) (
2
)
w

1
1
2
(1 w
2
)

2
1
I
(0,1)
(w
2
).
Este teorema tambin implica que W
1
y W
2
son independientes. 2
6.5.2. Distribucin beta.
Denicin 6.3 Se dene la distribucin beta con parmetros
1
y
2
, que
denotaremos por (
1
,
2
) , como la distribucin absolutamente continua
cuya funcin de densidad es:
f (w) =
(
1
+
2
)
(
1
) (
2
)
w

1
1
(1 w)

2
1
I
(0,1)
(w).
121
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
Figura 6.3: Densidad de la (10, 3) (en lneal de puntos y rayas), de la (2, 2)(en
lnea llena) y de la (3, 6) (en lnea de puntos).
Observacin. Esta funcin es una densidad por el Teorema 6.10. Por lo
tanto podemos deducir que
Z
1
0
(
1
+
2
)
(
1
) (
2
)
w

1
1
(1 w)

2
1
dw = 1,
y entonces se tiene
Z
1
0
w

1
1
(1 w)

2
1
dw =
(
1
) (
2
)
(
1
+
2
)
.
En la Figura 6.3 se muestran varias densidades Beta, para distintos val-
ores de los parmetros
1
y
2
.
Teorema 6.11 Sean Y
1
, Y
2
, . . . , Y
n
variables aleatorias independientes tales
que Y
i
tiene distribucin (
i
, ) . Entonces
P
n
i=1
Y
i
tiene distribucin
(
P
n
i=1

i
, ) .
Demostracin. Se deduce de de la proposicin anterior usando induccin. 2
A continuacin denimos las distribuciones chi-cuadrado con n grados
de libertad y la t de Student. Ambas distribuciones son de gran importancia
en Estadstica. Volveremos ms adelante sobre ellas.
122
-3 -2 -1 0 1 2 3
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Figura 6.4: Densidad de la t
1
(en lneal llena), de la t
5
(en lnea de puntos) y de la
t
25
(en lnea de puntos y rayas).
6.5.3. Distribucin Chi-cuadrado.
Supongamos que se tienen n variables independientes X
i
, i = 1, 2, . . . , n
con distribucin N(0, 1) . Sabemos que cada Y
i
= X
2
i
tiene distribucin
2
con 1 grado de libertad, la cual que coincide con la distribucin (1/2, 1/2) .
Se dene la distribucin chi-cuadrado con n grados de libertad, que
simbolizaremos por
2
n
, como la distribucin de la variable aleatoria Y =
P
n
i=1
X
2
i
.
De acuerdo al Teorema 6.11, como cada X
2
i
tiene distribucin
2
1
y estas
variables son independientes, se obtiene que Y tiene distribucin (n/2, 1/2) .
Por lo tanto la distribucin
2
n
coincide con la distribucin (n/2, 1/2) .
6.5.4. Distribucin t de Student
Supongamos que U tiene distribucin N(0, 1) y V distribucin
2
n
con
U y V independientes. Luego se dene la distribucin de t de Student con
n grados de libertad, que simbolizaremos con t
n
, como la distribucin de
T =
U
p
V/n
.
En la Figura 6.4 se muestran varias densidades de Student para diferentes
grados de libertad
123
Se deja como ejercicio de la prctica mostrar que la densidad de T es
f
T
(t) =

n+1
2

n
2

1 +
t
2
n

n+1
2
.
El grco de esta densidad es simtrico respecto al origen (funcin par)
y con forma de campana. Se puede probar que cuando n tiende a , f
T
converge a la densidad de la normal.
124
Captulo 7
Esperanza Matemtica.
7.1. Integral de Riemann-Stieltjes.
7.1.1. Denicin de la integral.
Sea f : [a, b] R y consideremos una particin del intervalo [a, b] que
llamaremos = {x
0
, x
1
, . . . , x
n
} tal que a = x
0
< x
1
< < x
n
= b.
Sea = {
i
}
1in
una coleccin de puntos tal que
i
(x
i1
, x
i
] para
i = 1, 2, . . . , n, que se denominar seleccin en .
Denimos la suma de Riemann
S
b
a
(, ,f) =
n
X
i=1
f (
i
) (x
i
x
i1
) .
Se llama norma de la particin
|||| = m ax
1in
{x
i
x
i1
}.
Denicin 7.1 Se dice que f es integrable Riemann sobre [a, b] con valor
I =
R
b
a
f =
R
b
a
f (x) dx sii para todo > 0 existe > 0 tal que si |||| <
entonces
|S
b
a
(, ,f) I| < .
Anlogamente se dene la integral de Riemann-Stieltjes. Dadas g, F fun-
ciones denidas sobre [a, b] se dene la suma de Riemann-Stieltjes asociada
a la particin = {x
i
}
0in
y la seleccin = {
i
}
1in
de por
S
b
a
(, ,g, F) =
n
X
i=1
f (
i
) (F (x
i
) F (x
i1
)) .
125
Denicin 7.2 Se dice que existe la integral de Riemann-Stieltjes sobre [a, b]
con valor I =
R
b
a
gdF =
R
b
a
g (x) dF (x) sii para todo > 0 existe > 0 tal
que si es una particin de [a, b] con |||| < y es cualquier seleccin en
entonces
|S
b
a
(, ,g, F) I| < .
Observaciones.
1. Si F(x) = x, entonces la integral de Riemann-Stieltjes es la integral
de Riemann.
2. Una condicin suciente, aunque no necesaria, para que exista la inte-
gral de Riemann-Stieltjes, es que g sea continua en [a, b] y F montona
en [a, b]. Si tomamos como F una funcin de distribucin el ltimo req-
uisito se cumplir.
3. Otra condicin suciente (tampoco necesaria) para que exista la inte-
gral de Riemann-Stieltjes es que (i) g sea continua en (a, b], (ii) existe
lm
xa
g (x), (iii) F sea montona en [a, b] y (iv) F es continua en a.
En tal caso, vale que
Z
b
a
gdF = lm
ca
Z
b
c
gdF.
A continuacin damos algunas propiedades de la integral de Riemann
Stieltjes.
Propiedad 7.1 (Linealidad de la Integral de R-S respecto de g) Si
R
b
a
g
1
dF y
R
b
a
g
2
dF existen y
1
,
2
R entonces
R
b
a
(
1
g
1
+
2
g
2
) dF existe
y adems
Z
b
a
(
1
g
1
+
2
g
2
) dF =
1
Z
b
a
g
1
dF +
2
Z
b
a
g
2
dF.
Propiedad 7.2 (Linealidad de la Integral R-S respecto de F) Si
R
b
a
gdF
1
y
R
b
a
gdF
2
existen y
1
,
2
R entonces
R
b
a
gd (
1
F
1
+
2
F
2
) existe
y adems
Z
b
a
gd (
1
F
1
+
2
F
2
) =
1
Z
b
a
gdF
1
+
2
Z
b
a
gdF
2
.
126
Propiedad 7.3 (Aditividad respecto del dominio de integracin) Sean
a < b < c y supongamos que
R
b
a
gdF,
R
c
b
gdF y
R
c
a
gdF existen. Entonces
Z
c
a
gdF =
Z
b
a
gdF +
Z
c
b
gdF.
Propiedad 7.4 Si F es no decreciente y g
1
g
2
sobre [a, b] entonces
Z
b
a
g
1
dF
Z
b
a
g
2
dF.
En particular teniendo en cuenta que |g| g |g| se obtiene la sigu-
iente
Propiedad 7.5 Si las dos integrales existen, entonces

Z
b
a
gdF

Z
b
a
|g| dF
Estamos interesados en extender el dominio de integracin a toda la recta
o a semirectas. Esto lleva a la siguiente denicin.
Denicin 7.3 Supongamos que
R
b
a
gdF existe para todo a, b R. Decimos
que la integral impropia
R
+

gdF existe y es igual al nmero real I sii


lm
a; b+
Z
b
a
gdF = I. (7.1)
De manera anloga se dene
R
+
a
gdF y
R
b

gdF. Tendremos el siguiente


teorema.
Teorema 7.1 Sea g 0 y F no decreciente. Entonces pueden ocurrir dos
cosas
(i)
M = sup
a,bR
Z
b
a
gdF <
En este caso el lmite (7.1) existe y es nito.
127
(ii)
M = sup
a,bR
Z
b
a
gdF =
En este caso el lmite (7.1) existe y es . Luego podemos denir
R
+

gdF = .
Sea ahora g de signo arbitrario y F no decreciente. El siguiente teorema
es vlido.
Teorema 7.2 Una condicin necesaria y suciente para que
R
+

gdF ex-
ista es que
f
M = sup
a,bR
Z
b
a
|g| dF < .
7.2. Denicin de Esperanza Matemtica.
7.2.1. Algunas consideraciones heursticas.
Sea X una variable aleatoria discreta. Para jar ideas supongamos que
toma un nmero nito de valores, x
1
, x
2
, ..., x
k
, con probabilidades p
X
(x
1
), p
X
(x
2
),
. . . , p
X
(x
k
).
Supongamos que se repite un experimento asociado a la variable aleatoria
X, n veces en forma independiente y que el resultado x
i
se obtiene n
i
veces,
1 i k. Entonces el promedio de todos los valores es
x
n
=
n
1
x
1
+n
2
x
2
+ +n
k
x
k
n
=
n
1
n
x
1
+
n
2
n
x
2
+ +
n
k
n
x
k
.
Luego pasando al lmite y dado que la frecuencia observada
n
j
n
se aprox-
ima a p
X
(x
j
) obtenemos
lm
n+
x
n
= lm
n+

n
1
n
x
1
+
n
2
n
x
2
+... +
n
k
n
x
k

= x
1
lm
n+
n
1
n
+x
2
lm
n+
n
2
n
+... +x
k
lm
n+
n
k
n
=
k
X
j=1
x
j
p
X
(x
j
) .
Esto motiva la denicin de la esperanza matemtica de una variable disc-
reta.
128
7.2.2. Esperanza de una variable aleatoria discreta.
Denicin 7.4 Sea X una variable aleatoria con rango R
X
y distribucin
de probabilidad p
X
. Supongamos que
X
xR
X
|x|p
X
(x) < .
En tal caso denimos la esperanza matemtica de la variable X de la siguiente
manera
E(X) =
X
xR
X
xp
X
(x) .
Observaciones.
1. Se sabe que la convergencia absoluta de la serie garantiza la conver-
gencia de la serie.
2. Supongamos
P
xR
X
|x|p
X
(x) = . Denotemos con
R
+
X
= {x R
X
: x > 0}
R

X
= {x R
X
: x < 0}.
Entonces pueden ocurrir tres casos distintos.
a)
P
xR
+
X
xp
X
(x) = +y
P
xR

X
xp
X
(x) = .
b)
P
xR
+
X
xp
X
(x) = +y
P
xR

X
xp
X
(x) > .
c)
P
xR
+
X
xp
X
(x) < +y
P
xR

X
xp
X
(x) = .
En el caso (a) no se puede denir la esperanza de X. En el caso (b)
se puede denir E(X) = + en el (c) E(X) = . Es decir para
que la esperanza est denida se requiere que
P
xR
+
X
xp
X
(x) o bien
P
xR

X
xp
X
(x) sea nita.
7.2.3. Denicin general de esperanza matemtica.
Ahora queremos denir la esperanza matemtica, de manera ms gen-
eral. Supongamos primero que X es una variable aleatoria concentrada en
[a, b]. Es decir, supongamos que
P (a < X < b) = 1.
La idea que se utiliza para la denicin de la esperanza de esta variable es
la siguiente. Se dene una sucesin de variables aleatorias discretas X
n
que
la aproximan y luego como E(X
n
) est denida para cada X
n
la esperanza
de X se dene por un paso al lmite.
129
Consideremos para cada n, una particin del intervalo [a, b] formada
por n intervalos de longitud (b a)/n. Para esto consideramos la particin

n
= {x
n
0
, x
n
1
, ..., x
n
n
} tal que a = x
n
0
< x
n
1
< ... < x
n
n
= b y x
n
i
x
n
i1
=
b a
n
.
Elegimos para cada i, 1 i n,
n
i
(x
i1
, x
i
] y denimos la variable
aleatoria
X
n
() =
n
i
si X() (x
n
i1
, x
n
i
].
Esta variable toma nicamente un nmero nito de valores:
n
i
, 1 i
n. Adems
p
Xn
(
n
i
) = F
X
(x
n
i
) F
X

x
n
i1

.
Luego la esperanza de la variable X
n
viene dada por
E(X
n
) =
n
X
i=1

n
i
p
X
n
(
n
i
)
=
n
X
i=1

n
i

F
X
(x
n
i
) F
X

x
n
i1

= S
b
a
(
n
,
n
, id, F) ,
con id (x) = x y se obtiene
lm
n+
E(X
n
) = lm
n+
S
b
a
(
n
,
n
, id, F
X
) =
Z
b
a
xdF
X
.
Por lo tanto denimos la esperanza matemtica de X por
E(X) =
Z
b
a
xdF
X
.
Siendo la funcin id (x) = x continua y F montona no decreciente, re-
sulta que
R
b
a
xdF existe siempre y por lo tanto tambin E(X) existe siempre.
Supongamos ahora que X es una variable aleatoria no acotada. El proble-
ma que ahora surge es que podra no existir
R
+

xdF. Sin embargo sabemos


que M =
R
+

|x| dF siempre est bien denida, eventualmente con el valor


+.
Si M < + denimos la esperanza de la variable X similarmente al
caso anterior por
E(X) =
Z

xdF.
Si M = + hay tres casos y el anlisis es anlogo al que realizamos
anteriormente para variables discretas. Los tres casos son:
(a)
R

0
xdF = + y
R
0

xdF = .
(b)
R

0
xdF = + y
R
0

xdF > .
130
(c)
R

0
xdF < + y
R
0

xdF = .
En el caso (a) la esperanza matemtica de X no est denida. En el caso
(b) se dene E(X) = +y en el (c) E(X) = . Nuevamente la esperanza
puede estar no denida y para su denicin se requiere que al menos una de
de las dos integrales
R

0
xdF
R
0

xdF converja.
Con esta denicon general de esperanza matemtica, para el caso de una
variable discreta se tienen dos deniciones diferentes. Probaremos ahora que
la denicin general de esperanza es una extensin de la primera denicin
dada para el caso discreto, es decir que para variables aleatorias discretas
ambas deniciones coinciden.
Teorema 7.3 Sea F
X
la funcin de distribucin de una variable discreta y
g : R R continua. Luego
Z
b
a
g(x)dF
X
(x) =
X
xR
X
[a,b]
g(x)p
X
(x) . (7.2)
Observacin. Este resultado vale siempre, pero para facilitar la demostracin
vamos a probarlo para el caso en que R
X
[a, b] es nito para todo a y
b. Esto se cumple cuando las variables toman valores enteros como sucede,
por ejemplo, con las distribuciones Poisson, binomial, etc.
Demostracin. Por la hiptesis supuesta R
X
[a, b] es un conjunto nito,
digamos
R
X
[a, b] = {z
1
, z
2
, ..., z
k
}.
Llamemos a
= mn
2ik
{z
i
z
i1
}. (7.3)
Consideremos una particin
n
= {x
n
i
}
0in
del intervalo [a, b], en n inter-
valos iguales. Luego tenemos a = x
n
0
< x
n
1
< < x
n
n
= b y x
n
i
x
n
i1
=
(b a)/n . Teniendo en cuenta que ||
n
|| = (b a)/n es claro que
lm
n+
||
n
|| = 0.
Sea n
0
tal que (b a)/n
0
< . Tomemos n > n
0
, luego k
n
k < , luego por
(7.3) en cada intervalo de
n
hay a lo sumo un elemento de R
X
[a, b] .Va
a ser fundamental para esta demostracin la eleccin de la seleccin
n
=
{
n
i
}
1in
de
n
. Procedemos de la siguiente manera.
(i) Si
(R
X
[a, b]) (x
n
i1
, x
n
i
] 6=
se elige como
n
i
el nico punto de esta interseccin.
131
(ii) Si
(R
X
[a, b]) (x
n
i1
, x
n
i
] =

n
i
es cualquier punto de (x
i1
, x
i
].
Sea
A = {i : (R
X
[a, b]) (x
n
i1
, x
n
i
] 6= }
y por lo tanto
A
c
= {i : (R
X
[a, b])

x
n
i1
, x
n
i

= }
Entonces podemos realizar la siguiente descomposicin de S
b
a
(
n
,
n
, g, F)
S
b
a
(
n
,
n
, g, F) =
n
X
i=1
g(
n
i
)

F
X
(x
n
i
) F
X

x
n
i1

=
X
iA
g(
n
i
)

F
X
(x
n
i
) F
X

x
n
i1

+
X
iA
c
g(
n
i
)

F
X
(x
n
i
) F
X

x
n
i1

.
Observemos que F
X
(x
n
i
) F
X

x
n
i1

= 0 si i A
c
ya que el intervalo
(x
i1
, x
i
] no contiene elementos de R
X
. Luego
X
iA
c
g(
n
i
)

F
X
(x
n
i
) F
X

x
n
i1

= 0,
y se obtiene
S
b
a
(
n
,
n
, g, F
X
) =
X
iA
g(
n
i
)

F
X
(x
n
i
) F
X

x
n
i1

. (7.4)
Adems, como para i A, el valor
n
i
es el nico punto de R
X
en el intervalo
(x
n
i1
, x
n
i
], resulta
p
X
(
n
i
) = P
X
((x
n
i1
, x
n
i
]) = F
X
(x
n
i
) F
X

x
n
i1

.
Luego de (7.4) obtenemos
S
b
a
(
n
,
n
, g, F
X
) =
X
iA
g(
n
i
) p
X
(
n
i
).
Pero (
n
i
)
iA
coincide con {z
j
}
1jk
= R
X
[a, b], y entonces para todo
n n
0
S
b
a
(
n
,
n
, g, F
X
) =
k
X
j=1
g(z
j
)p
X
(z
j
) =
X
xR
X
[a,b]
g(x)p
X
(x) . (7.5)
132
Como el miembro derecho de (7.5) no depende de n, obtenemos
Z
b
a
xdF = lm
n
S
b
a
(
n
,
n
, g, F
X
) =
X
xR
X
[a,b]
xp
X
(x) .
Esto prueba (7.2) y por lo tanto el teorema queda demostrado. 2
Teorema 7.4 Supongamos que X es una variable aleatoria discreta y que
E(X) existe y es nita. Entonces
X
xR
X
xp
X
(x) =
Z
+

xdF
X
Demostracin. Teniendo en cuenta que
X
xR
X
xp
X
(x) = lm
a; b+
X
xR
X
[a,b]
xp
X
(x) ,
y que
Z
+

xdF
X
= lm
a; b+
Z
b
a
xdF
X
,
bastar probar que para todo a < b
X
xR
X
[a,b]
xp
X
(x) =
Z
b
a
xdF
X
.
Pero esto resulta del teorema 7.3 poniendo g(x) = x. 2
7.2.4. Esperanza matemtica para una variable absolutamente
continua.
El siguiente Teorema prueba que en el caso de que X sea una variable
aleatoria absolutamente continua la E(X) se puede calcular a travs de una
integral de Riemann.
Teorema 7.5 Supongamos que
R

|x|f
X
(x) dx < . Luego
E(X) =
Z

xf
X
(x) dx.
Demostracin. El teorema vale en general. Sin embargo, para facilitar la
demostracin, lo probaremos slo para el caso en que f
X
es continua.
133
Bastar ver que para todo intervalo [a, b] , a < b vale que
Z
b
a
xf
X
(x) dx =
Z
b
a
xdF
X
, (7.6)
ya que en tal caso el resultado se obtiene pasando al lmite.
Consideremos para cada n una particin de puntos equidistantes del
intervalo [a, b]

n
= {x
n
0
, x
n
1
, ..., x
n
n
}
tales que a = x
n
0
< x
n
1
< ... < x
n
n
= b satisfaciendo x
n
i
x
n
i1
=
b a
n
.
Sabemos que F
0
X
(x) = f
X
(x) . Por el Teorema del Valor Medio, para
todo i, 1 i n, existe
n
i
(x
n
i
, x
n
i1
] tal que
F
X
(x
n
i
) F
X

x
n
i1

= f
X
(
n
i
)

x
n
i
x
n
i1

. (7.7)
Elegiremos la seleccin = (
n
i
)
1in
para formar las sumas de Riemann-
Stieltjes. Luego
S
b
a
(
n
,
n
, id, F
X
) = S
b
a
(
n
,
n
, x, F
X
) =
n
X
i=1

n
i

F
X
(x
n
i
) F
X

x
n
i1

,
(7.8)
y se tendr que
lm
n
S
b
a
(
n
,
n
, x, F
X
) =
Z
b
a
xdF
X
. (7.9)
Usando (7.7) y (7.8) obtenemos que S
b
a
(
n
,
n
, x, F
X
) es tambin una suma
de Riemann correspondiente a la funcin xf
X
(x) . En efecto
S
b
a
(
n
,
n
, x, F
X
) =
n
X
i=1

n
i
f
X
(
n
i
)

x
n
i
x
n
i1

= S
b
a
(
n
,
n
, xf
X
(x), x) .
Luego
lm
n
S
b
a
(
n
,
n
, x, F
X
) =
Z
b
a
xf
X
(x) dx. (7.10)
De (7.9) y (7.10) se obtiene (7.6). 2
7.2.5. Algunas propiedades de la esperanza matemtica
Propiedad 7.6 Sea X una variable aleatoria tal que P
X
({a}) = 1. En-
tonces
E(X) = a.
134
Demostracin. Esto es inmediato teniendo en cuenta X es una variable disc-
reta con R
X
= {a} y p
X
(a) = 1. Luego
E(X) =
X
xR
X
xp
X
(x) = a.2
Propiedad 7.7 Sea (, A, P) un espacio de probabilidad y A A. Entonces
E(I
A
) = P(A).
Demostracin. Como
I
A
() =

1 si A
0 si / A.
En este caso R
X
= {0, 1}, p
X
(1) = P (A) , y p
X
(0) = 1 P (A) . Entonces
E(I
A
) = 0 (1 P (A)) + 1P (A) = P (A) .2
El siguiente teorema permite la integracin por partes de una integral
de Riemann-Stieltjes.
Teorema 7.6 (Integracin por partes) Sean g y F funciones denidas
sobre [a, b] tales que
R
b
a
gdF existe. Supongamos que g sea continua en a y
que F es acotada en [a, b] . Entonces
R
b
a
Fdg existe y
Z
b
a
gdF = g (x) F (x) |
b
a

Z
b
a
Fdg.
Demostracin. Tenemos que mostrar que
Z
b
a
Fdg = g (x) F (x) |
b
a

Z
b
a
gdF. (7.11)
Para eso habr que probar que dado > 0 existe > 0 tal que para toda
= {x
i
}
0in
particin de (a, b] con |||| y toda = {
i
}
0in
seleccin
de puntos en , se tendr que

S
b
a
(, , F, g) g (x) F (x) |
b
a
+
Z
b
a
gdF

< . (7.12)
Como
R
b
a
gdF existe, dado

2
podemos encontrar un
1
tal que si ||||
1
para toda seleccin en tendremos que

S
b
a
(g, f, , )
Z
b
a
gdF


2
. (7.13)
135
Como F es acotada en [a, b] existe un nmero real M > 0 tal que
|F (x)| M
para todo x [a, b] . Por la continuidad de g en a, sabemos que existe
2
> 0
tal que si |x a|
2
entonces
|g(x) g(a)| <

4M
.
Pongamos = mn(

1
2
,
2
). Sea = {x
i
}
0in
una particin de (a, b], tal
que |||| y sea = {
i
}
0in
una seleccin en la particin.
Vamos a mostrar que (7.12) vale. Sabemos que x
n1
<
n
b. Supon-
dremos que
n
< b. El caso
n
= b se demuestra anlogamente. Tenemos
que
a = x
0
<
1
x
1
< <
i1
x
i1
<
i
x
i
< < x
n1
<
n
< x
n
= b.
Podemos construir una nueva particin

= {x

i
}
0in+1
con
x

0
= a,
x

i
=
i
, 1 i n,
x

n+1
= b,
y denimos la seleccin

= (

i
)
1in+1
en

por

1
=
1
,

i
= x
i1
, 2 i n + 1.
Como
|x

i
x

i1
| = |
i

i1
| |
i
x
i1
| +|x
i1

i1
|
|x
i1
x
i
| +|x
i1
x
i+1
|
< + = 2
1
, para 2 i n
|x

1
x

0
| = |
1
a| = |
1
x
0
| |x
1
x
0
| <
1
|x

n+1
x

n
| = |b
n
| = |x
n

n
| |x
n
x
n1
| <
1
tenemos que ||

||
1
y entonces por (7.13) resulta

S
b
a
(

, g, F)
Z
b
a
gdF

<

2
. (7.14)
136
Por otro lado tenemos
S
b
a
(

, g, F)=
n+1
X
i=1
g(

i
)

F(x

i
) F(x

i1
)

= g(

1
)F(x

1
) +
n
X
i=2
g(

i
)F(x

i
) +g(

n+1
)F(x

n+1
)
g(

1
)F(x

0
)
n+1
X
i=2
g(

i
)F(x

i1
)
= g(
1
)F(
1
) +
n
X
i=2
g(x
i1
)F(
i
) +g(b)F (b)
g(
1
)F(a)
= g(
1
)F(
1
) g(
1
)F(a) +
n
X
i=2
g(x
i1
)F(
i
)
+g(b)F (b)
n
X
i=1
g(x
i
)F(
i
)
= g(
1
) [F(
1
) F(a)]
n
X
i=1
[g(x
i1
) g(x
i
)] F(
i
)
+g(b)F (b) g (x
0
) F (
1
)
=
n
X
i=1
F(
i
) [g(x
i1
) g(x
i
)] +g(b)F (b) g(a)F (a)
+g(
1
) [F(
1
) F(a)] +g(a)F (a) g (a) F (
1
)
= S
b
a
(, ,F, g)+ g(x)F(x)|
b
a
+g(
1
) [F(
1
) F(a)] +g(a) [F (a) F (
1
)]
= S
b
a
(, ,F, g)+ g(x)F(x)|
b
a
+ [g(
1
) g(a)] [F(
1
) F(a)]
= S
b
a
(F, g, , )+ g(x)F(x)|
b
a
+r, (7.15)
donde r = [g(
1
) g(a)] [F(
1
) F(a)] . Luego, como k

k < y |x

0
x

1
| =
|a
1
| <
2
se tendr
|g(a) g(
1
)| /4M.
Adems |F(x)| M, y entonces obtenemos
|r| = |F(
1
) F(a)||g(
1
) g(a)|
2M

4M
=

2
.
Luego de (7.15) resulta.

S
b
a
(

, g, F) g(x)F(x)|
b
a
+S
b
a
(, ,F, g)



2
. (7.16)
137
De (7.14) y (7.16) resulta (7.12) y el teorema queda demostrado.2
Propiedad 7.8 Dada una funcin F montona se tiene
Z
b
a
dF = F (b) F (a) .
Demostracin. Aplicando integracin por partes con g = 1 y dado que dg = 0,
obtenemos
Z
b
a
dF = 1F (x) |
b
a

Z
b
a
Fdg = F
X
(x) |
b
a
= F (b) F (a) .2
Teorema 7.7 Supongamos que
R
+

|x|dF
X
< . Entonces vale
(i) lm
x+
x(1 F
X
(x)) = 0.
(ii) lm
x
xF
X
(x) = 0.
Demostracin.
(i) A partir del hecho de que
R

|x|dF
X
es nita se deduce que las
colas tienden a cero, es decir
lm
b+
Z
+
b
xdF
X
= 0, (7.17)
y
lm
a
Z
a

xdF
X
= 0. (7.18)
Usando la Propiedad 7.8 obtenemos
Z
+
b
dF
X
= lm
d
Z
d
b
dF
X
= lm
d
F
X
(d) F
X
(b) = 1 F
X
(b),
y entonces si b 0
Z
+
b
xdF
X
b
Z
+
b
dF
X
= b (1 F
X
(b)) 0 .
Luego
0 = lm
b
Z
+
b
xdF
X
lm
b
b (1 F
X
(b)) 0.
Luego se deduce (i).
(ii) Se prueba de manera anloga y se deja como ejercicio. 2
138
Ahora estamos en condiciones de dar una expresin de la esperanza como
sumas de integrales de Riemann.
Teorema 7.8 Supongamos que
R

|x|dF
X
< . Entonces
E(X) =
Z
+
0
(1 F
X
(x)) dx
Z
0

F
X
(x) dx. (7.19)
Demostracin. Sabemos que
E(X) =
Z
+
0
xdF
X
+
Z
0

xdF
X
.
Estudiaremos cada integral por separado. Integrando por partes tenemos
que
Z
b
0
xdF
X
= xF
X
(x)|
b
0

Z
b
0
F
X
(x) dx
= bF
X
(b)
Z
b
0
F
X
(x) dx
= bF
X
(b) +b b
Z
b
0
F
X
(x) dx
= b (1 F
X
(b)) +b
Z
b
0
F
X
(x) dx
= b (1 F
X
(b)) +
Z
b
0
dx
Z
b
0
F
X
(x) dx
= b (1 F
X
(b)) +
Z
b
0
(1 F
X
(x)) dx.
Luego pasando al lmite y teniendo en cuenta el Teorema 7.7 se obtiene
Z
+
0
xdF
X
=
Z
+
0
(1 F
X
(x)) dx.
Anlogamente se prueba
Z
0

xdF
X
=
Z
0

F
X
(x) dx.
De estas dos ltimas igualdades se obtiene el teorema. 2
Propiedad 7.9 Sean X e Y dos variables aleatorias tal que P (X Y ) =
1, y tal que sus esperanzas E(X) , E(Y ) existen. Entonces
(i) F
X
(t) F
Y
(t), t, y
139
(ii) E(X) E(Y ) .
Demostracin.
(i) Consideremos el evento U = { : X () Y ()}. Claramente P (U) =
1 y P (U
c
) = 0. Podemos escribir
{Y t} = ({Y t} U) ({Y t} U
c
) . (7.20)
y luego como P ({Y t} U
c
) P (U
c
) = 0, resulta
P({Y t}) = P ({Y t} U) +P ({Y t} U
c
) (7.21)
= P ({Y t} U) . (7.22)
Si {Y t} U entonces X () Y () t de manera que
{Y t} U {X t}.
Tomando probabilidades y teniendo en cuenta (7.21) se obtiene que
P({Y t}) = P ({Y t} U) P ({X t}) ,
o bien
F
Y
(t) F
X
(t) (7.23)
y por lo tanto (i) se cumple.
(ii) Tambin se tiene
1 F
X
(t) 1 F
Y
(t) , (7.24)
y usando el Teorema 7.8 resulta
E(X) =
Z
+
0
(1 F
X
(t)) dt
Z
0

F
X
(t) dt,
E(Y ) =
Z
+
0
(1 F
Y
(r)) dt
Z
0

F
Y
(t) dt.
Luego la Propiedad 7.9 se deduce de (7.23) y (7.24). 2
Supongamos que P (X = 0) = 1. Por la Propiedad 7.6 es claro que
E(X) = 0.
Ahora bien, del hecho de que E(X) = 0 no se deduce que P (X = 0) = 1.
Qu condicin podemos agregar para que se cumpla? La propiedad 7.10
responde a esta pregunta.
Propiedad 7.10 E(X) = 0 y P (X 0) = 1 implica que P (X = 0) = 1.
140
Demostracin. Supongamos que esta propiedad no fuera cierta, luego ten-
dramos una variable aleatoria X tal que E(X) = 0, P (X 0) = 1 y
P (X = 0) < 1. Luego teniendo en cuenta que P (X 0) = 1 obtenemos
que P (X > 0) = P(X 0) P(X = 0) = 1 P(X > 0) = a > 0.
Ahora consideremos los eventos A
n
=

X >
1
n

. La sucesin {A
n
} es
montona creciente ya que A
n
A
n+1
y adems
{X > 0} =
[
nN
A
n
,
de manera que
lm
n
P (A
n
) = P ({X > 0}) = a > 0.
Por lo tanto existe un nmero natural n
0
tal que P (A
n
0
) > a/2 y entonces
E(X) =
Z
+

xdF
X
=
Z
+
0
xdF
X
=
Z 1
n
0
0
xdF
X
+
Z
+
1
n
0
xdF
X

Z
+
1
n
0
xdF
X

1
n
0
Z
+
1
n
0
dF
X
=
1
n
0

1 F
X

1
n
0

=
1
n
0
P

X >
1
n
0

=
1
n
0
a
2
> 0.
lo cual es un absurdo ya que contradice la hiptesis. 2
Observacin. La igualdad
R
+

xdF
X
=
R
+
0
xdF
X
se justica teniendo
en cuenta que P (X 0) = 1.
Sea X una variable aleatoria discreta, R
X
su rango y p
X
su densidad. Sabemos
que
E(X) =
X
xR
X
xp
X
(x) .
El siguiente teorema permite hallar la esperanza de una variable aleatoria
Y que es funcin medible de otra variable aleatoria X sin necesidad de de
hallar antes la funcin de probabilidad puntual de la variable Y.
141
Teorema 7.9 Consideremos X un vector aleatorio discreto de dimensin k
y sea g : R
k
R una funcin medible . Denamos Y = g (X). Entonces
E(Y ) =
X
xR
X
g (x) p
X
(x) .
Demostracin. Sea y g (R
X
) = R
Y
y denamos
A
y
= {x R
X
: g (x) = y} = g
1
({y}) .
Es fcil ver que la familia de subconjuntos {A
y
}
yR
Y
es una particin de
R
X
, es decir R
X
=
S
yR
Y
A
y
y si y 6= y
0
entonces A
y
A
y
0 = .
Teniendo en cuenta que
p
Y
(y) = P
X
(A
y
) =
X
xA
y
p
X
(x) ,
y que para todo x A
y
se tiene g(x) = y, obtenemos
E(Y ) =
X
yR
Y
yp
Y
(y)
=
X
yR
Y
y
X
xA
y
p
X
(x)
=
X
yR
Y
X
xAy
yp
X
(x)
=
X
yR
Y
X
xA
y
g (x) p
X
(x)
=
X
xR
X
g (x) p
X
(x) ,
y por lo tanto queda demostrado el Teorema. 2
Ahora pasamos al caso absolutamente continuo. Sea X una variable
aleatoria absolutamente continua y f
X
su funcin de densidad. Sabemos
que
E(X) =
Z
+

xf
X
(x) dx.
El siguiente teorema es el anlogo al teorema anterior cuando Xes un vector
absolutamente continuo.
Teorema 7.10 Sea X un vector aleatorio absolutamente continuo de di-
mensin k, con densidad f
X
. Sea g : R
k
R una funcin medible que toma
un conjunto a lo sumo numerable de valores y denamos Y = g (X) . Luego
E(Y ) =
Z
+

...
Z
+

g (x) f
X
(x) dx
1
...dx
k
. (7.25)
142
Demostracin. Como en el teorema anterior consideramos la particin
A
y
= {x R
X
: g (x) = y} = g
1
({y}) .
En este caso R
k
=
S
yR
Y
A
y
y si y 6= y
0
entonces A
y
A
y
0 = . Adems
p
Y
(y) = P
X
(g
1
({y}) = P
X
(A
y
) . Entonces usando que para x A
y
se
tiene g(x) = y, que adems
X
yR
Y
I
A
y
(x) = 1
y que
P
X
(A
y
) =
Z

Z
Ay
f
X
(x) dx
1
. . . dx
k
(7.26)
obtenemos
E(Y ) =
X
yR
Y
yp
Y
(y)
=
X
yR
Y
yP
X
(A
y
)
=
X
yR
Y
y
Z

Z
Ay
f
X
(x) dx
1
. . . dx
k
=
X
yR
Y
Z

Z
Ay
yf
X
(x) dx
1
. . . dx
k
=
X
yR
Y
Z

Z
Ay
g (x) f
X
(x) dx
1
. . . dx
k
=
X
yR
Y
Z

Z
R
k
g (x) f
X
(x) I
A
y
(x)dx
1
. . . dx
k
=
Z

Z
R
k
g (x) f
X
(x)
_
_
X
yR
Y
I
A
y
(x)
_
_
dx
1
. . . dx
k
=
=
Z

Z
R
k
g (x) f
X
(x) dx
1
. . . dx
k
. 2
Observacin. En la demostracin usamos (7.26). Como se comenta en la
observacin que sigue al Teorema 5.5, para demostrar esta propiedad para
todo boreliano se requiere teora de la medida y se debe usar la integral de
Lebesgue.
Propiedad 7.11 Sea X una variable aleatoria con esperanza nita. En-
tonces E(X +c) = E(X) +c.
143
Demostracin. Sea Y = X+c. Supongamos primero que c > 0. Sabemos que
F
Y
(x) = F
X
(x c) . Utilizando el Teorema 7.8 tenemos
E(Y ) =

Z
0
(1 F
Y
(y))dy
0
Z

F
Y
(y)dy
=

Z
0
(1 F
X
(y c))dy
0
Z

F
X
(y c)dy.
Haciendo el cambio de variable x = y c dentro de las integrales, resulta
E(Y ) =

Z
c
(1 F
X
(x))dx
c
Z

F
X
(x)dx
=
0
Z
c
(1 F
X
(x))dx +

Z
0
(1 F
X
(x))dx
0
Z

F
X
(x)dx +
0
Z
c
F
X
(x)dx
= E(X) +
0
Z
c
(1 F
X
(x))dx +
0
Z
c
F
X
(x)dx
= E(X) +
0
Z
c
dx
0
Z
c
F
X
(x)dx +
0
Z
c
F
X
(x)dx
= E(X) +
0
Z
c
dx
= E(X) +x|
0
c
= E(X) +c.
El caso de c < 0 se demuestra de la misma manera. 2
Recordemos el concepto de convergencia uniforme.
Denicin 7.5 Sea (f
n
)
n1
una sucesin de funciones denidas sobre A un
conjunto cualquiera. Se dice que la sucesin de funciones (f
n
)
n1
converge
uniformemente a la funcin f sobre A sii para cada > 0 existe n
0
N tal
que si n n
0
entonces para todo x A
|f
n
(x) f (x) | < .
Observacin. La diferencia con la convergencia puntual es que el n
0
en este
caso sirve para todo x, es decir slo depende de .
144
La convergencia uniforme implica la puntual pero no al revs. En parti-
cular nos interesa la convergencia uniforme de variables aleatorias. Hacemos
notar que el lmite puntual de funciones medibles, y en consecuencia el lmite
uniforme, tambin resulta ser una funcin medible.
Teorema 7.11 Sea (X
n
)
n1
una sucesin de variables aleatorias denidas
en (, A, P) que convergen uniformemente a una variable aleatoria X sobre
. Supongamos que E(X) existe. Entonces
lm
n+
E(X
n
) = E(X) .
Observacin. La existencia de E(X) implica la existencia de E(X
n
)
para todo n a partir de un valor n
0
. Se deja como ejercicio.
Demostracin. Sea ( A, P) el espacio de probabilidades donde estn denidas
las variables aleatorias X
n
, n 1 y X. Teniendo en cuenta la convergencia
uniforme dado > 0 existe n
0
N tal que si n n
0
entonces
sup

|X
n
() X()| < .
Esto signica que si n n
0
entonces
|X
n
() X()| < , ,
o bien
X() < X
n
() < X() +, .
Por las propiedades 7.9 y 7.11 se obtiene que si n n
0
entonces
E(X) E(X
n
) E(X) +.
Por lo tanto lmE(X
n
) = E(X). 2
El siguiente teorema muestra que cualquier funcin medible puede aprox-
imarse por otra que toma un conjunto a lo sumo numerable de valores.
Teorema 7.12 (i) Sea g : R
k
R una funcin tal que g(R
k
) es un con-
junto nito o numerable. Luego una condicion necesaria y suciente
para que g sea medible es que para todo y g(R
k
) = R
g
, se tenga que
g
1
(y) pertenezca a B
k
.
(ii) Dada una funcin g : R
k
R medible, existe una sucesion g
n
: R
k

R de funciones medibles tales que R


g
n
es numerable, y |g
n
() g()|

1
n
para todo . Luego g
n
converge a g uniformemente.
145
(iii) Sea X un vector aleatorio de dimensin k y sea Y = g(X) donde
g : R
k
R es una funcin medible. Entonces si g
n
: R
k
R es
una sucesin de funciones medibles que converge uniformemente a g,
resulta que Y
n
= g
n
(X) converge uniformemente a Y.
(iv) Dada una variable aleatoria X existe una sucesin de variables aleato-
rias discretas X
n
, n 1 que converge uniformemente a X.
Demostracin.
(i) Sea y R
g
. Como {y} B, y R
g
, para que g sea medible es
necesario que g
1
(y) B
k
.Supongamos ahora que esta condicin se
cumpla. Entonces
g
1
((, x]) = g
1
((, x] R
g
)
=
[
y(,x]Rg
g
1
(y).
como (, x]R
g
es numerable y g
1
(y) B
k
, resulta g
1
((, x])
B
k
y por lo tanto g es medible.
(ii) Dado n, todo y R pertence a un intervalo de la forma (i/n, (i+1)/n)
para algn i entero Luego denimos g
n
por
g
n
(x) =
(i + 1)
n
si g(x) (i/n, (i + 1)/n].
Luego |g
n
(x) g(x)| 1/n y R
g
n
es numerable. Por otro lado
g
1
n

i + 1
n

= g
1

i
n
,
i + 1
n

pertenece a B
k
ya que g es medible. Por lo tanto por (i) g
n
es medible.
(iii) Se deja como ejercicio.
(iv) Por (ii) podemos encontrar una sucesin de funciones medibles g
n
:
R R tales que g
n
converja uniformemente a la funcin identidad
g(x) = x y tal que adems tomen un conjunto a lo sumo numerable
de valores. Luego las variables X
n
= g
n
(X) son discretas y por (iii)
X
n
= g
n
(X) converge uniformemente a g(X) = X. 2
El siguiente teorema generaliza el Teorema 7.10 para una funcin g med-
ible cualquiera. La estrategia de la demostracin es la siguiente y ser usada
a menudo: se aproxima uniformemente a la funcin g por una sucesin de
funciones g
n
que toman un nmero a lo sumo numerable de valores y que
satisfacen la propiedad pedida. Luego usando que el Teorema 7.12 vale para
las funciones g
n
y pasando al lmite se demuestra que la propiedad vale para
g.
146
Teorema 7.13 Sea X =(X
1
, X
2
, . . . , X
k
) un vector aleatorio absolutamente
continuo con funcin de densidad f
X
y g : R
k
R una funcin medible ar-
bitraria. Si denimos la variable aleatoria Y = g (X) entonces
E(Y ) =
Z
+


Z
+

g (x) f
X
(x) dx.
Demostracin. Por el Teorema 7.12 (ii) existe una sucesin de funciones med-
ibles g
n
tal que R
g
n
es a lo sumo numerable y que converge uniformemente a
g. Denimos las variables aleatorias Y
n
= g
n
(X) . Por el Teorema 7.12 (iii),
(Y
n
)
n
converge uniformemente a Y.
Como ya hemos demostrado en el Teorema 7.10 que esta propiedad vale
para funciones que toman un conjunto a lo sumo numerable de valores, se
tendr
E(Y
n
) =
Z
+


Z
+

g
n
(x) f
X
(x) dx.
Adems por el Teorema 7.11 se tiene que lm
n
E(Y
n
) = E(Y ). Luego
bastar probar que
lm
n+
Z
+


Z
+

g
n
(x) f
X
(x) dx =
Z
+


Z
+

g (x) f
X
(x) dx.
(7.27)
Para probar esto observemos que

Z
+


Z
+

g
n
(x) f
X
(x) dx
Z
+


Z
+

g (x) f
X
(x) dx

Z
+


Z
+

(g
n
(x) g (x)) f
X
(x) dx

Z
+


Z
+

|(g
n
(x) g (x))| f
X
(x) dx

1
n
Z
+


Z
+

f
X
(x) dx
| {z }
=1
=
1
n
,
y por lo tanto se cumple (7.27). 2
Ahora vamos a probar la linealidad de la esperanza.
Teorema 7.14 Sean X
1
y X
2
dos variables aleatorias con esperanza nita.
Entonces para todo escalar y vale que
E(X
1
+X
2
) = E(X
1
) +E(X
2
) .
147
Demostracin.
Primero probaremos el Teorema cuando X
1
y X
2
son discretas. Sean X
1
y X
2
variables aleatorias discretas con esperanza nita y sea Z = X
1
+X
2
.
Denamos g : R
2
R por
g (x
1
, x
2
) = x
1
+x
2
.
Entonces si X = (X
1
, X
2
) se tiene que Z = g (X) . Denamos g
i
: R
2

R, i = 1, 2 por g
i
(x
1
, x
2
) = x
i
. Luego g(x) =g
1
(x)+g
2
(x). Usando el
Teorema 7.9 podemos escribir
E(Z) =
X
(x
1
,x
2
)R
X
g (x) p
X
(x)
=
X
(x
1
,x
2
)R
X
[g
1
(x) +g
2
(x)] p
X
(x)
=
X
(x
1
,x
2
)R
X
g
1
(x)p
X
(x) +
X
(x
1
,x
2
)R
X
g
2
(x)p
X
(x)
= E(g
1
(X)) +E(g
2
(X))
= E(X
1
) +E(X
2
).
Ahora bien, si X
1
y X
2
son variables aleatorias arbitrarias, entonces por
Teorema 7.12 (iii) podemos denir dos sucesiones de variables aleatorias
discretas (X
1n
)
n1
e (X
2n
)
n1
tales que convergen uniformemente a X
1
y
X
2
respectivamente.Es fcil ver que tambin se tendr que X
1n
+ X
2n
converge uniformemente a X
1
+X
2.
.
Hemos demostrado que para el caso de variables aleatorias discretas se
cumple la linealidad de la esperanza. Luego tenemos
E(X
1n
+X
2n
) = E(X
1n
) +E(X
2n
) . (7.28)
Aplicando el Teorema 7.11 se obtiene
lm
n
E(X
1n
+X
2n
) = E(X
1
+X
2
) , (7.29)
y
lm
n
E(X
jn
) = E(X
j
), j = 1, 2. (7.30)
Luego por (7.28), (7.29) y (7.30) se obtiene
E(X
1
+X
2
) = lm
n
E(X
1n
+X
2n
)
= lm
n
(E(X
1n
) +E(X
2n
))
= lm
n
E(X
1n
) + lm
n
E(X
2n
)
= E(X
1
) +E(X
2
) ,
y esto prueba el teorema. 2
148
7.3. Esperanza del producto de variables aleato-
rias independientes.
Otro problema interesante es estudiar la esperanza de un producto de va-
riables aleatorias. Si las variables aleatorias X e Y tienen esperanzas nitas
y denimos la variable aleatoria Z = XY entonces nos podemos preguntar:
cundo vale que E(Z) = E(XY ) = E(X) E(Y )? Veremos en el siguiente
Teorema que una condicin suciente es la independencia de las variables X
e Y.
Teorema 7.15 Sean X e Y variables aleatorias independientes con esper-
anza nita. Si Z = XY entonces
E(Z) = E(XY ) = E(X) E(Y ) .
Demostracin. En principio lo probaremos para el caso discreto. Luego aprox-
imaremos a X e Y por variables discretas uniformemente y probaremos el
teorema para el caso general pasando al lmite.
Sean X e Y variables aleatorias discretas independientes con esperanza
nita y denamos g : R
2
R
g (x, y) = xy.
Entonces como Z = g (X, Y ) , por el Teorema 7.9 resulta
E(Z) =
X
(x,y)R
(X,Y )
g (x, y) p
(X,Y )
(x, y)
=
X
(x,y)R
X
R
Y
xyp
(X,Y )
(x, y)
=
X
(x,y)R
X
R
Y
(xp
X
(x)) (yp
Y
(y))
=
_
_
X
xR
X
xp
X
(x)
_
_
_
_
X
yR
Y
yp
Y
(y)
_
_
= E(X) E(Y ) .
Observemos que R
(X,Y )
R
X
R
Y
pero para (x, y) R
X
R
Y
R
(X,Y )
se tiene p
(X,Y )
(x, y) = 0, lo que justica la segunda igualdad. La tercera se
justica por el hecho de que dado que X e Y son independientes se tiene
p
(X,Y )
(x, y) = p
X
(x)p
Y
(y).
Por el Teorema 7.12 (ii) existe una sucesin de funciones medibles g
n
:
R R que toman un conjunto a lo sumo numerable de valores y que
converge uniformemente a la funcin identidad g(x) = x. Consideremos
149
las sucesiones de variables aleatorias discretas g
n
(X) = X
n
e Y
n
= g
n
(Y ) .
Dado que X e Y son independientes, se tiene que X
n
e Y
n
tambin lo son.
Luego, como ya hemos probado que el teorema vale para el caso discreto,
se tiene
E(X
n
Y
n
) = E(X
n
) E(Y
n
) .
Ahora como por el Teorema 7.12 (iii) X
n
converge uniformemente a X e Y
n
converge uniformemente a Y se tendr
lm
n
E(X
n
Y
n
) = lm
n
E(X
n
) lm
n
E(Y
n
) = E(X) E(Y ) .
Luego basta probar que lm
n
E(X
n
Y
n
) = E(XY ). Para ver esto ob-
servemos que
|E(X
n
Y
n
) E(XY ) | = |E(X
n
Y
n
XY ) |
E|X
n
Y
n
XY |
= E|X
n
Y
n
X
n
Y +X
n
Y XY |
= E|X
n
(Y
n
Y ) +Y (X
n
X)|
E(|X
n
(Y
n
Y )| +|Y (X
n
X)|)
E(|X
n
| |Y
n
Y |) +E(|Y | |X
n
X|) . (7.31)
Por la convergencia uniforme de X
n
a X y de Y
n
a Y tenemos
lm
n
max

|X
n
() X()| = 0 (7.32)
y
lm
n
max

|Y
n
() Y ()| = 0. (7.33)
Adems como |X
n
| |X| uniformemente, resulta por el Teorema 7.11
lm
n
E(|X
n
|) = E(|X|). (7.34)
De (7.31), (7.32), (7.33) y (7.34) se obtiene que
lm
n
|E(X
n
Y
n
) E(XY ) | = 0,
y esto prueba el teorema. 2
Damos a continuacin un ejemplo que muestra que la recproca es fal-
sa, es decir es falso que E(XY ) = E(X) E(Y ) implique que X e Y son
independientes.
Ejemplo 7.1 Consideremos un vector (X, Y ) discreto tal que
R
(X,Y )
= {(1, 0), (1, 0), (0, 1) , (0, 1)}
150
y tal que p(x, y) = 1/4 para cada (x, y) R
(X,Y )
.
Como para todo (x, y) R
(X,Y )
, se tiene xy = 0, resulta P(XY 0) = 1.
Luego E(XY ) = 0. Tambin se ve que R
X
= {1, 0, 1} y p
X
(1) = 1/4,
p
X
(0) = 1/2 y p
X
(1) = 1/4, por lo tanto resulta
E(X) = 1(1/4) + 0(1/2) + 1(1/4) = 0.
De manera que se cumple que
E(XY ) = E(X) E(Y ) = 0.
Pero X e Y no son independientes pues p
X
(1) =
1
4
= p
Y
(1) y dado que
(1, 1) / R
(X,Y )
se tiene p
(X,Y )
(1, 1) = 0.
Sin embargo si X, Y fueran independientes debiera cumplirse
p
(X,Y )
(1, 1) = p
X
(1)p
Y
(1) =
1
4
1
4
=
1
16
.
lo cual es una contradiccin. Por lo tanto X e Y no son independientes.
7.4. Una frmula general para la esperanza de una
variable transformada
Teorema 7.16 Sea X una variable aleatoria con esperanza nita y g : R
R tal que g(X) tiene esperanza nita. Supongamos adems que existen un
nmero nito de puntos = d
0
< d
1
< < d
k
= , tales que en D
i
=
(d
i
, d
i+1
] la funcin g es continua y estrictamente creciente o estrictamente
decreciente o constante y que lm
xd
i
g (x) existe . Supongamos adems que
en d
i
, 1 i k 1 la funcin g es continua o F
X
es continua. Luego se
tiene
E(g(X)) =

gdF
X
.
Demostracin. Podemos escribir
g(X) =
k
X
i=1
g(X)I
D
i
(X).
Vamos a ver que para probar el teorema bastar mostrar que
E(g(X)I
D
i
(X)) =
d
i+1
Z
d
i
gdF
X
. (7.35)
151
Es importante observar que de acuerdo a las observaciones 2 y 3 de la pgina
126 la integral de Riemann-Stieltjes en el lado derecho de (7.35) existe. En
efecto, si (7.35) se cumple se tendr por el Teorema 7.14 y el hecho de que
en los puntos d
i
, 1 i k 1 la funcin F
X
o g es continua, que
E(g(X)) =
k
X
i=1
E(g(X)I
D
i
(X))
=
k
X
i=1
d
i+1
Z
d
i
gdF
X
=

gdF
X
.
Veamos que (7.35) para el caso que g es constante en D
i
En este caso sea
c el valor de la funcin en D
i
. Luego g(X)I
D
i
(X) toma valores c con pro-
babilidad F
X
(d
i+1
) F
X
(d
i
) y 0 con probabilidad 1 (F
X
(d
i+1
) F
X
(d
i
)).
Luego
E(g(X)I
D
i
(X)) = c(F
X
(d
i+1
) F
X
(d
i
))
=
d
i+1
Z
d
i
gdF
X
,
y por lo tanto (7.35) se cumple.
Veamos ahora que (7.35) vale en los intervalos D
i
donde g es estricta-
mente creciente. Sean a

i
= lm
xd
i
g(x) y b

i
= lm
xd
i+1
g(x) donde lm
xa
indica lmite cuando x tiende a a por la derecha y lm
xa
indica el lmite
cuando x tiende a a por la izquierda. Sea Y
i
= g(X)I
D
i
(X). De acuerdo al
Teorema 6.1
F
Y
i
(y) =
_
_
_
0 si y a

i
F
X
(g
1
i
(y)) si a

i
< y < b

i
1 si y b

i
,
(7.36)
donde g
i
es la restriccin de g a D
i
. Luego
E(Y
i
) =
Z
b

i
a

i
ydF
Y
i
.
Como lm
aa

i
g
1
i
(a) = d
i
y lm
bb
g
1
i
(b) = d
i+1
, para probar (7.35) bas-
tar demostrar que para todo a

i
< a < b < b

i
se tiene
Z
b
a
ydF
Y
=
g
1
i
(b)
Z
g
1
i
(a)
g(x)dF
X
. (7.37)
152
En efecto si (7.37), vale entonces resulta
E(Y
i
) =
Z
b

i
a

i
ydF
Y
i
= lm
aa

i
,bb

i
Z
b
a
ydF
Y
i
= lm
aa

i
,bb

i
g
1
i
(b)
Z
g
1
i
(a)
g(x)dF
X
=
d
i+1
Z
d
i
g(x)dF
X
.
y por lo tanto (7.35) vale.
Para mostrar (7.37) consideremos una sucesin de particiones
n
del
intervalo [a, b] en n intervalos de igual longitud. Entonces tenemos
n
Y
=
{y
n
0
, y
n
1
, ..., y
n
n
} con a = y
n
0
< y
n
1
< < y
n
n
= b e y
j+1
y
j
= 1/n,
1 j n. Tomemos una seleccin arbitraria de puntos en esta particin
y
n
j
<
n
j
y
n
j+1
, la llamamos
n
= (
n
j
)
1
jn
. Luego por 7.36 tenemos que
S
b
a
(
n
Y
,
n
, y, F
Y
) =
n
X
j=1

n
j
(F
Y
(y
n
j+1
) F
Y
(y
n
j
))
=
n
X
j=1

n
j
(F
X
(g
1
i
(y
n
j+1
)) F
X
(g
1
i
(y
n
j
))). (7.38)
Entonces como la funcin id (y) = y es continua en [a, b] y F
Y
es montona,
existe la integral de Riemann-Stieltjes
R
b
a
ydF
Y
y se tiene que
lm
n
S
b
a
(
n
Y
,
n
, y, F
Y
) =
Z
b
a
ydF
Y
. (7.39)
Llamemos ahora
x
n
j
= g
1
i
(y
n
j
), 0 j n,
n
j
= g
1
i
(
n
j
), 1 j n.
Luego por la monotona de g
1
i
obtenemos g
1
i
(a) = x
n
0
< x
n
1
< ... < x
n
n
=
g
1
i
(b) y x
n
j
<
n
j
x
n
j+1
. Por lo tanto
n
X
= {x
n
0
, x
n
1
, ..., x
n
n
} es una particin
de [g
1
i
(a), g
1
i
(b)] y
n
= (
n
j
)
1jn
una seleccin en esta particin. Adems
||
n
X
|| = m ax
1jn
(x
n
j+1
x
n
j
)
= m ax
1jn
(g
1
i
(y
n
j+1
) g
1
i
(y
n
j
))
153
tiende a 0 con n por la continuidad uniforme de g
1
i
en [g
1
i
(a), g
1
i
(b)] y el
hecho de que
lm
n
max
1jn
(y
n
j+1
y
n
j
) = 0.
Luego, como g es continua en [g
1
i
(a), g
1
i
(b)] y F
X
es montona, existe la
integral de Riemann-Stieltjes
R
g
1
i
(b)
g
1
i
(a)
g(x)dF
X
y resulta que
lm
n
S
g
1
i
(b)
g
1
i
(a)
(
n
X
,
n
, g, F
X
) =
Z
g
1
i
(b)
g
1
i
(a)
g(x)dF
X
. (7.40)
Finalmente observemos de (7.38) que
S
b
a
(
n
Y
,
n
, y, F
Y
) =
n
X
j=1

n
j
(F
X
(g
1
i
(y
n
j+1
)) F
X
(g
1
i
(y
n
j
)))
=
n
X
j=1
g(g
1
i
(
n
j
))(F
X
(x
j+1
) F
X
(x
j
))
=
n
X
j=1
g(
n
j
)(F
X
(x
j+1
) F
X
(x
j
))
= S
g
1
i
(b)
g
1
i
(a)
(
n
X
,
n
, g, F
X
). (7.41)
Luego de (7.39) (7.40) y (7.41) obtenemos (7.37), y por lo tanto (7.35) queda
demostrada para el caso que g es estrictamente creciente en D
i
.
Para el caso que g es estrictamente decreciente, tenemos que g es es-
trictamente creciente. Por lo tanto (7.35) vale para g y entonces
E(g(X)I
D
i
(X)) =
d
i+1
Z
d
i
gdF
X
.
Pero esto es equivalente a
E(g(X)I
D
i
(X)) =
d
i+1
Z
d
i
gdF
X
,
y luego (7.35) tambin vale. Esto prueba el teorema. 2
7.5. Esperanza de distribuciones simtricas
El concepto de esperanza matemtica est ligado con el valor central
de la distribucin. Ciertas variables llamadas simtricas tienen un centro
154
natural. Por ejemplo aquellas que tienen densidad simtrica respecto a un
punto.
Denicin 7.6 Dada una variable aleatoria X cualquiera, se dice que tiene
distribucin simtrica respecto de si
P
X
([ x, )) = P
X
((, +x]). (7.42)
para todo x > 0.
Teorema 7.17 X tiene distribucin simtrica respecto de 0 si y slo si
F
X
= F
X
Demostracin. X tiene distribucin simtrica respecto de 0 si y slo si
P
X
([x, 0)) = P
X
((0, x]), x > 0. (7.43)
Se tiene
P
X
((0, x]) = F
X
(x) F
X
(0) (7.44)
y
P
X
([x, 0)) = P(x X < 0)
= P(x X > 0)
= P(0 < X x)
= F
X
(x) F
X
(0). (7.45)
Luego, de (7.43), (7.44) y (7.45) resulta que X tiene distribucin simtrica
respecto de 0 si y slo si
F
X
(x) F
X
(0) = F
X
(x) F
X
(0), x > 0. (7.46)
Tomando lmite cuando x tiende a innito resulta
1 F
X
(0) = 1 F
X
(0)
y luego
F
X
(0) = F
X
(0). (7.47)
De (7.46) y (7.47) resulta que si X tiene distribucin simtrica respecto de
0 entonces
F
X
(x) = F
X
(x), x. (7.48)
Veamos la recproca. Supongamos que
F
X
(x) = F
X
(x), x.
155
Luego, para todo x R se tiene
P (X x) = F
X
(x) = F
X
(x) = P (X x) = P (X x) .
En particular
P (X 0) = P (X 0) .
Luego, si x > 0
P (0 < X x) = P (X x) P (X 0)
= P (X x) P (X 0)
= P (x X < 0) .
Es decir, (7.48) implica que
P
X
([x, 0)) = P
X
((0, x]), x > 0,
de lo que se deduce que X es simtrica. 2
Teorema 7.18 X tiene distribucin simtrica respecto de si y slo si
Y = X tiene distribucin simtrica respecto de 0.
Demostracin. Sea x > 0. Se tiene
P
X
([ x, )) = P( x X < )
= P(x X 0)
= P(x Y 0)
= P
Y
([x, 0)),
y
P
X
((, +x]) = P( < X +x)
= P(0 < X x)
= P(0 < Y x)
= P
Y
((0, x]).
Luego P
X
([x, )) = P
X
((, +x] es equivalente a P
Y
([x, 0)) = P
Y
((0, x])
y por lo tanto el teorema es cierto. 2
Teorema 7.19 Si X tiene esperanza nita y tiene distribucin simtrica
respecto de , entonces E(X) = .
156
Demostracin. Primero probaremos el teorema cuando = 0. En este caso
por el Teorema 7.14
E(X) = E(X). (7.49)
Ademas como F
X
= F
X
, y la esperanza depende solamente de la funcin
de distribucin se tendr
E(X) = E(X). (7.50)
De (7.49) y (7.50) resulta E(X) = E(X) = 0.
Supongamos ahora que X tenga distribucin simtrica respecto de .
Entonces X tiene distribucin simtrica respecto de 0. Luego usando la
Propiedad 7.11 resulta
0 = E(X ) = E(X) ,
y el teorema queda demostrado. 2
Teorema 7.20 (i) Si X es absolutamente continua, entonces X tiene
distribucin simetrica respecto de si y slo si
f
X
( x) = f
X
( +x) . (7.51)
(ii) Si X es discreta, entonces X tiene distribucin simetrica respecto de
si y slo si
p
X
( x) = p
X
( +x) .
Demostracin.
(i) Si llamamos Y = X, como f
Y
(x) = f
X
(x+), (7.51) es equivalente
a
f
Y
(x) = f
Y
(x) .
Por otro lado por las frmulas de cambio de variable
f
Y
(x) = f
Y
(x).
Luego (7.51) es equivalente a f
Y
= f
Y
y esto es equivalente a F
Y
=
F
Y.
. Aplicando el Teorema 7.17 esto es equivalente a que Y sea simtri-
ca respecto de 0 y por Teorema 7.18 a que X sea simtrica respecto
de .
(ii) Es similar a (i). Se deja como ejercicio. 2
157
7.6. Mediana de una variable aleatoria.
Dijimos que la esperanza describe un valor central de una variable aleato-
ria. En particular, si la variable aleatoria X es simtrica y tiene esperanza
nita, entonces esta coincide con su centro de simetra. Una desventaja de
la esperanza es que es muy inestable, es decir es muy sensible a las pequeas
perturbaciones, pequeos cambios en la distribucin de la variable se ven
reejados en importantes cambios en los valores de la esperanza.
Otra desventaja de la esperanza es que puede ocurrir que no exista.
Incluso esto puede darse en el caso de una distribucin simtrica. Un ejemplo
de distribucin simtrica que no tiene esperanza es la distribucin de Cauchy.
Su densidad est dada por
f (x) =
1

1
1 +x
2
.
Es fcil ver que efectivamente es una densidad. Tenemos que
1

1
1 +x
2
=
2

Z

0
1
1 +x
2
=
2

arctg(x)|

0
=
2

2
0)
= 1
El grco de esta densidad es parecido al de la densidad normal aunque
las colas tienden a 0 ms lentamente. Es una funcin par y por lo tanto
simtrica respecto del eje y. Esta distribucin no tiene esperanza puesto que
un clculo sencillo prueba que
1

Z
+
0
x
1
1 +x
2
dx =
1

Z
0

x
1
1 +x
2
dx = +.
En efecto haciendo la tranformacin y = 1+x
2
en la primer integral se tiene
dy = 2xdx y entonces
1

Z
+
0
x
1
1 +x
2
dx =
1
2
Z
+
1
1
y
dy
=
1
2
log(y)|

1
= .
Por lo tanto la simetra no garantiza la existencia de la esperanza. En
este sentido no es una buena medida de centralidad, puesto que cualquier
medida de centralidad debiera coincidir con el centro de simetra de f
X
en
el caso de existir ste.
158
Otra medida de centralidad es la mediana. Si existe un valor que deja la
misma probabilidad a su derecha que a la izquierda, ese valor es la mediana.
Esto se podr lograr siempre en el caso de una variable aleatoria continua.
Si X es simtrica entonces la mediana coincide con el centro de simetra.
Una denicin general de mediana es la siguiente.
Denicin 7.7 Se dice que m es una mediana de la variable aleatoria X
si se cumple que
(i) P (X m)
1
2
, y
(ii) P (X m)
1
2
.
Veremos que siempre existe, y que si no es nica, el conjunto de las
medianas es conexo, es decir es un intervalo en R. Para mostrar esto nece-
sitaremos recurrir a la funcin
F
1
X
(y) = inf A
y
,
donde A
y
= {x : F
X
(x) y}. Hemos visto que el nmo es en verdad un
mnimo, de manera que F
X

F
1
X
(y)

y es decir
P

X F
1
X
(y)

y. (7.52)
Probaremos ahora una propiedad adicional.
Teorema 7.21
P

X F
1
X
(y)

1 y. (7.53)
Demostracin. Sea x < F
1
X
(y) , entonces, dado que F
1
X
(y) es el mnimo de
A
y
se tiene que F
X
(x) < y. Luego si ponemos x = F
1
X
(y)
1
n
< F
1
X
(y)
obtenemos
F
X

F
1
X
(y)
1
n

< y,
es decir
P

X F
1
X
(y)
1
n

< y.
La sucesin de eventos
A
n
= {X F
1
X
(y)
1
n
}
es montona no decreciente y adems

[
n=1
A
n
= {X < F
1
X
(y)}.
159
Luego pasando al lmite se tiene
lm
n
P

X F
1
X
(y)
1
n

y,
y adems
lm
n
P

X F
1
X
(y)
1
n

= P

{X < F
1
X
(y)}

.
Por lo tanto
P

{X < F
1
X
(y)}

y,
o equivalentemente
P

{X F
1
X
(y)}

1 y. 2
Teorema 7.22 Sea X una variable aleatoria y F
X
su distribucin. Entonces
(i) F
1
X

1
2

es una mediana.
(ii) Si m es mediana de X entonces
F
1
X

1
2

m.
(iii) Si m
1
y m
2
son medianas de X entonces para todo m (m
1
, m
2
), m
es mediana de X.
Demostracin.
(i) Se deduce de (7.52) y (7.53) tomando y =
1
2
.
(ii) Si m es otra mediana, entonces como P (X m)
1
2
, resulta que
m A1
2
. Como F
1
X

1
2

= inf A1
2
resulta F
1

1
2

m.
(iii) Se deja como ejercicio. 2
Tambin se propone como ejercicio dar ejemplos de distribuciones en las
que el intervalo de las medianas sea cerrado a derecha y ejemplos en los que
sea abierto a derecha.
En el caso de que se trate de un intervalo podemos denir la mediana
central como el punto medio del intervalo. Es decir si el conjunto de medianas
es el intervalo [a, b) o el [a, b], la mediana central es m
c
(X) =
a +b
2
.
160
7.7. Varianza de una variable aleatoria.
La esperanza y la mediana de una variable aleatoria son caractersticas
de su distribucin que describen un valor central. Sin embargo, variables
aleatorias con distribuciones muy distintas pueden tener la misma esperanza.
Por ejemplo pueden diferir en cuan dispersos alrededor de la esperanza estn
los valores que toma la variable. Variables con la misma esperanza pueden
estar ms o menos dispersas. Esto nos lleva a denir otras caractersticas de
una variable aleatoria, que midan la dispersin alrededor de un valor central.
Tampoco existe una nica manera de medir dicha dispersin. Consid-
eremos una variable aleatoria X. Podramos considerar la distancia entre los
valores que toma X y su esperanza, es decir |X E(X)| y como esto re-
sulta ser una variable aleatoria, calcular su esperanza E(|X E(X)|) . Sin
embargo, dado que la funcin valor absoluto no es derivable en el origen,
ser conveniente reemplazarla por la funcin cuadrtica.
Denicin 7.8 Denimos la varianza de la variable aleatoria X por
Var (X) = E

(X E(X))
2

.
Se la suele notar por
2
X
. La desviacin tpica o desvo estndar de una
variable aleatoria X es denida como la raz cuadrada de la varianza
ds (X) =
p
Var (X) =
X
.
Observacin. Es Inmediato observar que Var (X) 0 pues se trata de
la esperanza de una variable aleatoria no negativa. Tambin es claro que
siempre existe si admitimos como medida el valor +.
La varianza tiene las siguientes propiedades.
Propiedad 7.12 Si X tiene varianza nita, entonces
Var (X) = E

X
2

E
2
(X) .
Luego para el caso discreto resulta
Var (X) =
X
xR
X
x
2
p
X
(x)
_
_
X
xR
X
xp
X
(x)
_
_
2
,
y para el continuo
Var (X) =
Z

x
2
f
X
(x)dx
Z

xf
X
(x)dx

2
.
161
Demostracin. Teniendo en cuenta las propiedades de la esperanza, se obtiene
que:
Var (X) = E

(X E(X))
2

= E

X
2
2E(X) X +E
2
(X)

= E

X
2

2E(X) E(X) +E

E
2
(X)

= E

X
2

2E
2
(X) +E
2
(X)
= E

X
2

E
2
(X) .2
Propiedad 7.13 Var (X) = 0 es equivalente a P (X = E(X)) = 1.
Demostracin. Supongamos que Var (X) = E

(X E(X))
2

= 0. Como
(X E(X))
2
es no negativa, resulta por la Propiedad 7.10 que
P

(X E(X))
2
= 0

= 1.
Esto equivale a que
P (X E(X) = 0) = 1,
o
P (X = E(X)) = 1.
Se deja como ejercicio probar que si
P (X = E(X)) = 1,
entonces Var (X) = 0. Para eso obsrvese que la variable aleatoria (X
E(X))
2
es cero con probabilidad uno. 2
Propiedad 7.14 Sea X una variable aleatoria e Y = X + , con ,
escalares. Entonces Var (Y ) =
2
Var (X) .
Demostracin. Como E(Y ) = E(X) + resulta
Var (Y ) = E

(Y E(Y ))
2

= E([X + (E(X) +)]


2
)
= E

[(X E(X))]
2

=
2
E

[X E(X)]
2

=
2
Var (X) .2
Se mostrar que en el caso de suma de variables aleatorias independi-
entes, la varianza es aditiva.
162
Propiedad 7.15 Sean X e Y variables aleatorias independientes. Luego si
Z = X +Y resulta Var (Z) = Var (X) + Var (Y ) .
Demostracin. Tenemos
Var (Z) = E

[Z E(Z)]
2

= E

[X +Y E(X) E(Y )]
2

= E

[(X E(X)) + (Y E(Y ))]


2

= E

[X E(X)]
2

+ 2E([X E(X)] [Y E(Y )]) +E

[Y E(Y )]
2

= Var (X) + 2E([X E(X)] [Y E(Y )]) + Var (Y ) .


Luego, bastar probar que
E([X E(X)] [Y E(Y )]) = 0.
Usando la independencia de X e Y y teniendo en cuenta que
E(X E(X)) = 0 = E(Y E(Y )) ,
resulta
E([X E(X)] [Y E(Y )]) = E(X E(X)) E(Y E(Y ))
= 0. 2 (7.54)
7.7.1. Esperanzas y varianzas de distribuciones normales
Calcularemos ahora E(Y ) y Var(Y ) para una variable Y con distribucin
N

,
2

.
Teorema 7.23 Si Y N

,
2

entonces E(Y ) = y Var(Y ) =


2
.
Demostracin. Tomemos primero una variable X con distribucin N(0, 1).
Mostraremos que E(X) = 0 y Var(X) = 1. La densidad de X es
f(x) =
1
(2)
1/2
e
x
2
/2
.
Como X es simtrica respecto de 0, para mostrar que E(X) = 0, bastara
mostrar que E(|X|) < . Tenemos que
E(|X|) =
Z

|x|f(x)dx
= 2
Z

0
xf(x)dx
=
2
(2)
1/2
Z

0
xe
x
2
/2
dx. (7.55)
163
Denamos u = x
2
/2 y entonces du = xdx. Luego
E(|X|) =
2
(2)
1/2
Z

0
xe
x
2
/2
dx
=
2
(2)
1/2
Z

0
e
u
du
=
2
(2)
1/2

e
u
|

(7.56)
=
2
(2)
1/2
< .
Vamos ahora a calcular la integral indenida
Z
x
2
e
x
2
/2
dx.
Haciendo u = x y dv = xe
x
2
/2
dx para integrar por partes, se tiene du = dx
y por (7.56) v = e
x
2
/2
. Luego
Z
x
2
e
x
2
/2
dx =
Z
udv
= uv
Z
vdu
= xe
x
2
/2
+
Z
e
x
2
/2
dx.
Luego
Z

x
2
e
x
2
/2
dx = [xe
x
2
/2
]

+
Z

e
x
2
/2
dx,
y como [xe
x
2
/2
]

= 0, resulta
Z

x
2
e
x
2
/2
dx =
Z

e
x
2
/2
dx.
Entonces se tiene
Var(X) =
Z

x
2
f(x)dx
=
1
(2)
1/2
Z

x
2
e
x
2
/2
dx
=
1
(2)
1/2
Z

e
x
2
/2
dx
=
Z

f(x)dx
= 1.
164
De acuerdo a su denicin, la distribucin N

,
2

es la distribucin de
Y = X + , con X N

,
2

. Luego E(Y ) = E(X) + = y


Var (Y ) =
2
Var (X) =
2
. 2
Observacin. De acuerdo a este resultado, los parmetros de una distribu-
cin normal coinciden con la esperanza y la varianza.
7.8. Covarianza
La ecuacin (7.54) motiva la denicin del concepto de covarianza.
Denicin 7.9 Sean X e Y variables aleatorias. Se dene la covarianza de
X e Y como
Cov (X, Y ) = E([X EX] [Y E(Y )]) .
La siguientes Propiedades 7.16 y 7.17 son inmediatas
Propiedad 7.16 Var (X +Y ) = Var (X) + Var (Y ) + 2Cov(X, Y ).
Propiedad 7.17 Si X , Y son independientes, Cov(X, Y ) = 0
La recproca es falsa: la covariaza igual a cero no garantiza la indepen-
dencia de las variables. Se puede dar el mismo contraejemplo que se us
luego del Teorema 7.15 para mostrar que E(XY ) = E(X)E(Y ) no implica
que X e Y sean independientes.
Diremos que dos variables aleatorias X e Y estn positivamente correla-
cionadas si Cov (X, Y ) > 0 y negativamente correlacionadas si Cov (X, Y ) <
0.
Si Cov (X, Y ) = E([X EX] [Y E(Y )]) > 0, X EX y Y E(Y )
tienden a tener el mismo signo, es decir tienden a situarse del mismo lado
de sus respectivas esperanzas. Lo contrario ocurre si Cov (X, Y ) < 0.
Propiedad 7.18 Si X e Y son variables aleatorias y ponemos X
0
= X+
e Y
0
= Y + entonces
Cov

X
0
, Y
0

= Cov (X, Y ) .
Demostracin. Para probarlo obsrvese que
X
0
E

X
0

= X + (E(X) +) = (X E(X)) ,
Y
0
E

Y
0

= Y + (E(Y ) +) = (Y E(Y )) .
165
Luego
E

X
0
E

X
0

Y
0
E

Y
0

= E( [X E(X)] [Y E(Y )])


= E([X E(X)] [Y E(Y )])
de donde se obtiene el resultado enunciado. 2
Ahora enunciaremos la desigualdad de Cauchy-Schwarz para variables
aleatorias.
Teorema 7.24 (Desigualdad de Cauchy-Schwarz) Sean X e Y vari-
ables aleatorias. Entonces si las varianzas de ambas variables son nitas se
tiene
E
2
(XY ) E

X
2

Y
2

, (7.57)
y la igualdad ocurre si y slo si existe tal que P(Y = X) = 1. Adems
Cov
2
(X, Y ) Var(X)Var(Y ), (7.58)
y la igualdad ocurre si y slo si existen escalares , tal que
P (Y = X +) = 1. (7.59)
Demostracin.
Sea Z = Y X. Entonces
Q(a) = E

Z
2

=
2
E

X
2

+E

Y
2

2E(XY ) 0.
es un polinomio de segundo grado en , no negativo y como tiene a lo sumo
una raz su discriminante es no positivo.
= 4E
2
(XY ) 4E

X
2

Y
2

= 4(E
2
(XY ) E

X
2

Y
2

) 0.
Luego
E
2
(XY ) E
2
(X) E
2
(Y ) 0,
de donde obtiene el resultado.
La igualdad se cumple si y slo si = 0. Esto ocurre si y slo si existe
un nico tal que Q() = 0. Esto es equivalente a que E((Y X)
2
) = 0,
y esto a que P(Y = X) = 1.
La desigualdad (7.58) se obtiene aplicando (7.57) a X

= X E(X) e
Y

= Y E(Y ). Luego resulta que la correspondiente igualdad se cumple


si y slo si existe tal que
P(Y E(Y ) = (X E(X)) = 1.
Poniendo = E(Y ) +E(X), esto es equivalente a (7.59). 2
166
Denicin 7.10 Dadas las variables aleatorias X e Y se dene el cuadrado
del coeciente de correlacin entre ellas, y se denota por
2
(X, Y ) a

2
(X, Y ) =
Cov
2
(X, Y )
Var (X) Var (Y )
.
Tambin denimos el coeciente de correlacin entre X e Y por
(X, Y ) =
Cov (X, Y )
[Var (X)]
1
2
[Var (Y )]
1
2
.
De la desigualdad de Cauchy-Schwarz se deduce la siguiente propiedad.
Propiedad 7.19 Se tiene que
0 (X, Y )
2
1
y por lo tanto
1 (X, Y ) 1.
Ademas (X, Y )
2
= 1 es equivalente a que para algn y se tenga P(Y =
X + ) = 1, es decir a que haya una relacin lineal perfecta entre las
variables X e Y.
7.9. Distribucin Normal Bivariada.
En esta seccin vamos a denir la distribucin normal con medias, vari-
anzas y covarianzas arbitrarias.
Queremos denir la distribucin conjunta de un vector aleatorio Y =
(Y
1
, Y
2
) a partir de jar la distribucin marginal de cada una de sus co-
ordenadas y establecer un valor para la covarianza entre sus coordenadas.
Es decir que queremos que la distribucin conjunta del vector Y sea tal
que Y
1
N

1
,
2
1

, Y
2
N

2
,
2
2

, y tal que Cov (Y


1
, Y
2
) =
12
, con las
constantes
1
,
2
,
1
,
2
y
12
prejadas arbitrariamente. Para que esto sea
posible se tendrn que cumplir ciertas restricciones sobre estas constantes.
Los valores
1
,
2
no tienen deben cumplir ningn requisito en particular,
pero
2
1
> 0,
2
2
> 0 y
12
debe cumplir la desigualdad de Cauchy-Schwarz
que se puede escribir como

2
12

2
1

2
2
.
Ahora bien si queremos una distribucin bivariada absolutamente con-
tinua, no podr cumplirse
2
12
=
2
1

2
2
, ya que en este caso (Y
1
, Y
2
) estara
sobre una recta que es un conjunto de supercie 0. Luego se deber cumplir

2
12
<
2
1

2
2
.
167
Sea la matriz denida por
=


2
1

12

12

2
2

. (7.60)
Luego det () =
2
1

2
2

2
12
> 0.
Denamos la matriz de covarianza del vector Y por

Y
=

Var(Y
1
) Cov(Y
1
, Y
2
)
Cov(Y
2
, Y
1
) Var(Y
2
)

.
Luego queremos que

Y
= .
Como det() =
2
1

2
2

2
12
> 0 y
2
1
> 0, resulta simtrica y denida
positiva. Luego tiene al menos una raz cuadrada. Es decir existe una
matriz (no nica)
A =

a
11
a
12
a
21
a
22

(7.61)
tal que
= AA
t
, (7.62)
donde A
t
designa su traspuesta.
Estamos ahora en condiciones de construir el vector aleatorio buscado.
Lo haremos en el siguiente teorema.
Teorema 7.25 Sea R
22
una matriz denida positiva dada por (7.60),
= (
1
,
2
) R
2
. Sea A R
22
dada por (7.61) que cumple (7.62).
Sea X = (X
1
, X
2
) un vector aleatorio tal que X
1
y X
2
variables aleato-
rias independientes con distribucin N(0, 1) . Se dene el vector aleatorio
Y = (Y
1
, Y
2
) por
Y = XA
t
+.
Entonces resulta que
(i) Y
1
tiene distribucin N

1
,
2
1

e Y
2
tiene distribucin N

2
,
2
2

.
(ii) Cov(Y
1
, Y
2
) =
12
.
(iii) La densidad del vector Y est dada por
f
Y
(y) =
1
2 det ()
1
2
exp

1
2
(y )
1
(y )
t

.
168
(iv) La forma cuadrtica Q(y) = (y )
1
(y )
t
es igual a
1
(1
2
)
"
(y
1

1
)
2

2
1
+
(y
2

2
)
2

2
2
2 (y
1

1
) (y
2

2
)
#
.
Demostracin.
(i) y (ii) Observemos que el vector Y satisface
Y
1
= a
11
X
1
+a
12
X
2
+
1
, (7.63)
Y
2
= a
21
X
1
+a
22
X
2
+
2
. (7.64)
Como E(X
1
) = E(X
2
) = 0, resulta
E(Y
1
) =
1
, E(Y
2
) =
2
.
Ademas como Cov (X
1
, X
2
) = 0, Var (X
1
) = Var (X
2
) = 1, resulta
Var (Y
1
) = a
2
11
Var (X
1
) +a
2
12
Var (X
2
) (7.65)
= a
2
11
+a
2
12
.
De modo anlogo,
Var (Y
2
) = a
2
21
+a
2
22
, (7.66)
y como E(X
1
X
2
) = 0, resulta
Cov (Y
1
, Y
2
) = E([a
11
X
1
+a
12
X
2
] [a
21
X
1
+a
22
X
2
])
= a
11
a
21
E(X
2
1
) +a
12
a
22
E(X
2
2
) + (a
12
a
21
+a
11
a
22
)E(X
1
X
2
)
= a
11
a
21
+a
12
a
22
. (7.67)
Luego

Y
=

a
2
11
+a
2
12
a
11
a
21
+a
12
a
22
a
11
a
21
+a
12
a
22
a
2
21
+a
2
22

= AA
t
=
=


2
1

12

12

2
2

. (7.68)
De acuerdo al Teorema 6.7, como Y
1
e Y
2
son combinaciones lineales
de normales independientes sern normales. Por (7.63), (7.65) y (7.68)
resulta que la distribucin de Y
1
es N

1
,
2
1

. Por (7.64), (7.66) y


(7.68) resulta que la distribucin de Y
2
es N

2
,
2
2

. Adems, de
(7.67) y (7.68) resulta que Cov(Y
1
, Y
2
) =
12
. Esto prueba (i) y (ii).
169
(iii) Vamos a calcular la distribucin conjunta del vector Y. Comencemos
escribiendo la distribucin conjunta del vector X. Como X
1
y X
2
son
independientes, la distribucin conjunta de X es el producto de las
marginales,
f
X
(x) =
1
2
exp

x
2
1
2

exp

x
2
2
2

=
1
2
exp

x
2
1
+x
2
2

2
!
=
1
2
exp

1
2
xx
t

,
donde xx
t
= ||x||
2
.
Teniendo en cuenta que X = (Y)

A
t

1
se obtiene que el Jaco-
biano de esta transformacin es J = 1/ det

A
t

. Adems, como =
AA
t
se obtiene que (det (A))
2
= det () o sea det (A) = det ()
1
2
y por
lo tanto J = 1/ det ()
1
2
. Entonces, a partir de la igualdad

A
t

1
A
1
=

1
usando la frmula para transformaciones de vectores aleatorios
dada en el teorema 6.4, resulta
f
Y
(y) =
1
2 det ()
1
2
exp

1
2
(y )

A
t

1
A
1
(y )
t

=
1
2 det ()
1
2
exp

1
2
(y )
1
(y )
t

.
(iv) Para hallar la forma cuadrtica, calculemos primero el determinante
de
det () =
2
1

2
2

2
12
=
2
1

2
2

1

2
12

2
1

2
2

=
2
1

2
2

1
2

.
Luego la inversa de viene dada por

1
=
1

2
1

2
2
(1
2
)


2
2

12

12

2
1

.
Entonces la forma cuadrtica se puede escribir como
(y )
1
(y )
t
= (y )
1

2
1

2
2
(1
2
)


2
2

12

12

2
1

(y )
t
=
1

2
1

2
2
(1
2
)
h
(y
1

1
)
2

2
2
+ (y
2

2
)
2

2
1

2 (y
1

1
) (y
2

2
)
12
] .
170
Luego se tiene
(y )
1
(y )
t
=
1
1
2

(y
1

1
)
2

2
1
+
(y
2

2
)
2

2
2
2

12

2
1

2
2
(y
1

1
) (y
2

2
)
!
=
1
1
2

(y
1

1
)
2

2
1
+
(y
2

2
)
2

2
2
2

2
(y
1

1
) (y
2

2
)
!
.2
Observacin. El teorema anterior se demostr para el caso de dos variables.
Sin embargo la densidad normal multivariada de cualquier dimensin que
se dene para vectores aleatorios Y R
k
tiene una expresin similar a la
escrita en el punto (iii).
Observacin. El mximo valor de f
Y
se logra cuando se hace mnimo el
exponente de la exponencial, esto es en y = . Por otro lado las curvas de
nivel f
Y
(y) = c (con c constante) son elipses cuyas direcciones principales
vienen dadas por los autovectores de
1
. Si la Cov (Y
1
, Y
2
) = 0 entonces, la
matriz es diagonal y las direcciones son paralelas a los ejes coordenados,
dando lugar a circunferencias como curvas de nivel en este caso.
Denicin 7.11 Se dice que el vector Y tiene distribucin normal bivaria-
da con media y matriz de covarianza denida positiva, que se denotar
por N
2
(,) si su funcin densidad es
f
Y
(y) =
1
2 det ()
1
2
exp

1
2
(y )
1
(y )
t

.
171
172
Captulo 8
Teora de la Prediccin.
8.1. Error cuadrtico medio y predictores pti-
mos.
En esta seccin veremos como utilizar ciertas variables conocidas para
predecir otras variables que no se pueden observar en un determinado mo-
mento. Por ejemplo se quiere predecir la cantidad de lluvia que maana
caer en determinada regin, utilizaremos otras variables que se puedan
medir hoy. Quisiramos encontrar el predictor que se aproxime ms a la
variable a predecir, entre todos los predictores pertenecientes a un conjunto
dado.
Sea P un conjunto de predictores para la variable aleatoria Y, que forman
un espacio vectorial. Cada elemento de P es una variables aleatoria observ-
able. Supongamos que se quiere predecir a Y a travs de
b
Y P. Cmo se
puede medir la bondad de un predictor
b
Y cualquiera? Se pueden considerar
las siguientes alternativas:
Denicin 8.1 El error cuadrtico medio del predictor
b
Y para predecir a
Y est dado por
ECM

b
Y , Y

= E

Y
b
Y

y el error absoluto medio


EAM

b
Y , Y

= E

Y
b
Y

.
Si usamos como criterio de bondad de un predictor el error cuadrtico
medio, diremos que
b
Y
0
P es es un predictor ptimo de Y en P , si dado
otro
b
Y P se tiene
ECM

b
Y
0
, Y

ECM

b
Y , Y

.
A continuacin damos un criterio suciente para obtener un predictor
ptimo usando el criterio del error cuadrtico medio.
173
Teorema 8.1 Una condicin suciente para que
b
Y
0
P sea un predictor
ptimo usando el criterio del error cuadrtico medio es que
E

Y
b
Y
0

b
Y

= 0 (8.1)
para todo
b
Y P. Adems, si
b
Y
0
satisface (8.1), es esencialmente el nico
predictor ptimo. Es decir si
b
Y P satisface ECM

b
Y
0
, Y

= ECM

b
Y , Y

entonces P

b
Y =
b
Y
0

= 1.
Observacin. La condicin (8.1) se puede interpretar como que el error de
prediccin

Y
b
Y
0

es ortogonal a todo elemento de P cuando el producto


escalar est denido por hY, Xi = E(Y X) en el espacio de Hilbert de las
variables aleatorias.
Demostracin. Sea
b
Y P. Entonces
ECM

b
Y , Y

= E

Y
b
Y

= E

h
Y
b
Y
0

b
Y
0

b
Y
i
2

= E

Y
b
Y
0

+E

b
Y
0

b
Y

+ 2E

b
Y
0

b
Y

Y
b
Y
0

.
Usando la condicin de ortogonalidad, como
b
Y
0

b
Y P se tiene
E

b
Y
0

b
Y

Y
b
Y
0

= 0,
y luego
ECM

b
Y , Y

= E

Y
b
Y
0

+E

b
Y
0

b
Y

Y
b
Y
0

= ECM

b
Y
0
, Y

,
y por lo tanto
b
Y
0
es ptimo.
Adems si
b
Y fuera tambin ptimo se tendra E

b
Y
0

b
Y

= 0 y
siendo

b
Y
0

b
Y

2
0 resultara P

b
Y =
b
Y
0

= 1, en virtud de la Propiedad
7.10. 2.
El siguiente Teorema simplica la vericacin de la condicin (8.1).
174
Teorema 8.2 Sea P un espacio vectorial de predictores de la variable aleato-
ria Y de dimensin nita y sea {
b
Y
1
, ...,
b
Y
k
} una base de P. La condicin
necesaria y suciente para que se cumpla (8.1) es que
E

Y
b
Y
0

b
Y
i

= 0, 1 i k. (8.2)
Demostracin. Claramente es una condicin necesaria. Veamos que es su-
ciente Sea
b
Y cualquier elemento de P, entonces existen escalares
1,
...,
k
tal que
b
Y =
P
k
i=1

i
b
Y
i
. Luego si para i = 1, 2, ..., k se cumple que
E

Y
b
Y
0

b
Y
i

= 0,
resulta tambin que
E

Y
b
Y
0

b
Y

= E

Y
b
Y
0

k
X
i=1

i
b
Y
i
!
=
k
X
i=1

i
E

Y
b
Y
0

b
Y
i

= 0. 2
8.2. Predictores constantes.
Se pueden considerar distintos conjuntos de predictores. Comenzaremos
con los predictores constantes.
Sea (, A, P) un espacio de probabilidad, Y una variable aleatoria a
predecir y consideremos
P
1
= {
b
Y :
b
Y es una variable aleatoria constante}.
El siguiente Teorema determina el predictor ptimo perteneciente a P
1
.
Teorema 8.3 El predictor
b
Y
0
= E(Y ) es el de menor error cuadrtico
medio en P
1
. Adems ECM(
b
Y
0
, Y ) = Var(Y ).
Demostracin. Una base de P
1
es {
b
Y
1
} donde
b
Y
1
= 1. Como
E

Y
b
Y
0

= E(Y E(Y )) = E(Y ) E(Y ) = 0,


resulta
b
Y
0
= E(Y ) el predictor de menor error cuadrtico medio.
Adems
ECM(
b
Y
0
, Y ) = E((Y
b
Y
0
)
2
)
= E((Y E(Y ))
2
)
= Var(Y ). 2
Designamos el predictor ptimo para Y en P
1
por
b
Y
0,C
. En la prctica
nicamente se usa un predictor constante si no se observan otras variables
vinculadas a Y.
175
8.3. Predictores lineales.
Sea ahora (, A, P) un espacio de probabilidad, Y una variable aleatoria
a predecir y X otra variable aleatoria observada. Consideremos el siguiente
conjunto de predictores
P
2
= {
b
Y :
b
Y = X +, , R}.
P
2
es el conjunto de variables aleatorias que se obtiene por una transfor-
macin lineal de la variable X . Claramente P
1
P
2
, y por lo tanto el error
cuadrtico medio del predictor ptimo en P
2
ser menor o igual que el del
predictor ptimo en P
1
. Por esta razn, si denotamos por
b
Y
0,L
el predictor
ptimo en P
2
,resulta claro que
ECM

Y,
b
Y
0,L

ECM

Y,
b
Y
0,C

.
El siguiente Teorema caracteriza el predictor ptimo en P
2
.
Teorema 8.4 (i) El predictor de menor error cuadrtico medio en P
2
est dado por
b
Y
0,L
= X + con
= E(Y ) E(X) (8.3)
y
=
Cov (X, Y )
Var (X)
. (8.4)
(ii) El error cuadrrico medio de
b
Y
0,L
est dado por
ECM

b
Y
0,L
.Y

= Var (Y )
Cov
2
(X, Y )
Var (X)
. (8.5)
Demostracin. Una base de P
2
es {
b
Y
1
,
b
Y
2
} donde
b
Y
1
= X e
b
Y
2
= 1. Luego el
predictor ptimo
b
Y
0,L
debe satisfacer
E((Y X ) X) = 0 (8.6)
y
E((Y X ) 1) = 0. (8.7)
De la condicin (8.6) se obtiene
E(Y ) E(X) = 0,
de donde resulta (8.3).
Ahora multiplicando (8.7) por E(X) resulta
E((Y X ) E(X)) = 0,
176
y restndola de (8.6) obtenemos
E((Y X ) (X E(X))) = 0.
Reemplazando por (8.3) obtenemos
E((Y X E(Y ) +E(X)) (X E(X))) = 0,
y por lo tanto
E((Y E(Y )) (X E(X)) (X E(X)) = 0.
Entonces distribuyendo la esperanza se obtiene
Cov (X, Y ) = E[(Y E(Y )) (X E(X))]
= E
h
(X E(X)
2
i
= Var (X) ,
y por lo tanto resulta (8.4).
Ahora calcularemos el error cuadrtico medio de
b
Y
0,L
. Usando (8.3)
obtenemos
ECM

b
Y
0,L
, Y

= E

[Y X ]
2

= E

[Y X E(Y ) +E(X)]
2

=
= E

[(Y E(Y )) (X E(X))]


2

=
= E

[Y E(Y )]
2

+
2
E

[X E(X)]
2

2E([Y E(Y )] [X E(X)]) .


Luego, usando (8.4) se obtiene
ECM

b
Y
0,L
, Y

= Var (Y ) +
2
Var (X) 2Cov (X, Y )
= Var (Y ) +
Cov
2
(X, Y )
Var (X)
2
Cov
2
(X, Y )
Var (X)
= Var (Y )
Cov
2
(X, Y )
Var (X)
. 2
Para evaluar cunto mejora el error cuadrtico medio cuando se usa
b
Y
0,L
177
en vez de
b
Y
0,C
, calculemos su decrecimiento relativo
ECM

b
Y
0,C
, Y

ECM

b
Y
0,L
, Y

ECM

b
Y
0,C
, Y

=
Var (Y )

Var (Y )
Cov
2
(X,Y )
Var(X)

ECM

b
Y
0,C
, Y

=
Cov
2
(X,Y )
Var(X)
Var (Y )
=
Cov
2
(X, Y )
Var (X) Var (Y )
=
2
(X, Y ) .
Esto permite interpretar el coeciente
2
(X, Y ) como el decrecimiento
relativo del error cuadrtico medio cuando se usa un predictor lineal basado
en X en vez de un predictor constante. Por lo tanto
2
(X, Y ) mide la utilidad
de la variable X para predecir a Y por una funcin lineal. Observemos que
a partir de esta igualdad puede obtenerse nuevamente la desigualdad de
Cauchy-Schwarz. En efecto, como 0 ECM

b
Y
0,C
, Y

ECM

b
Y
0,L
, Y

ECM

Y,
b
Y
0,C

, se obtiene 0
2
(X, Y ) 1.
Veremos ahora el signicado de los casos extremos
2
(X, Y ) = 1 y

2
(X, Y ) = 0.
2
(X, Y ) = 1 es equivalente a ECM

Y,
b
Y
0,L

= 0 y esto
es equivalente E

Y
b
Y
0,L

= 0, que a su vez es equivalente a


P

Y =
b
Y
0,L

= P (Y = X +) = 1,
en virtud de la Propiedad 7.10.
Es decir
2
(X, Y ) = 1 es equivalente a que hay una relacin lineal per-
fecta entre X e Y con probabilidad 1.
Existen dos posibilidades para
2
(X, Y ) = 1 : o bien (X, Y ) = 1 o
(X, Y ) = 1. El signo de (X, Y ) coincide con el de Cov(X, Y ) que es el
mismo que el de la pendiente del predictor linear ptimo. Luego (X, Y ) = 1
indica que la relacin entre la X y la Y es creciente y (X, Y ) = 1 que la
relacin es decreciente.
Veremos ahora como se interpreta
2
(X, Y ) = 0. En este caso
ECM

b
Y
0,L
, Y

= ECM

b
Y
0,C
, Y

y Cov(X, Y ) = 0. Por lo tanto = 0, y se puede concluir que la variable X


no tiene utilidad para predecir a Y cuando se utilizan predictores lineales.
Se deja como ejercicio probar que la recta Y = X+ pasa por el punto
(E(X) , E(Y )) , es decir que cuando la variable X toma el valor E(X) el
valor predicho para la variable Y es E(Y ).
178
Captulo 9
Esperanza y distribucin
condicional.
9.1. Caso discreto.
Sean dos variables aleatorias discretas X, Y denidas sobre un mismo
espacio de probabilidad (, A, P). Sea R
X
= {x : p
X
(x) > 0} y R
Y
= {y :
p
Y
(y) > 0}. Luego, para cada x R
X
denimos la funcin de probabilidad
de Y condicional a X = x como
p
Y |X
(y|x) =
p
XY
(x, y)
p
X
(x)
.
A veces se utiliza la notacin p
Y |X=x
(y) para la funcin de probabilidad
condicional.
Para cada x R
X
jo esta funcin es una funcin de densidad de pro-
babilidad ya que
X
yR
y
p
Y |X
(y|x) =
X
yR
y
p
XY
(x, y)
p
X
(x)
=
1
p
X
(x)
X
yR
y
p
XY
(x, y) =
p
X
(x)
p
X
(x)
= 1,
y representa la distribucin de Y una vez conocido que el valor de X = x.
Si se tienen dos vectores discretos X = (X
1
, ..., X
k
) , Y = (Y
1
, ..., Y
h
)
podemos denir una nocin anloga. Sea R
X
= {x R
k
: p
X
(x) > 0},
luego para todo x R
X
denimos
p
Y|X
(y|x) =
p
XY
(x, y)
p
X
(x)
, (9.1)
y tambin se tendr
X
yR
Y
p
Y|X
(y|x) = 1.
179
Esto permite calcular probabilidades que involucran a Ycuando sabemos
que el evento {X = x} ha ocurrido. En efecto, si B B
h
(borelianos de R
h
)
denimos
P (Y B | X = x) =
X
yR
Y
B
p
Y|X
(y|x).
Sea ahora Y una variable aleatoria y X un vector aleatorio de dimensin
k, ambos discretos. La esperanza condicional de la variable Y condicional
a X = x se dene como la esperanza de Y utilizando como distribucin de
esta variable la distribucin determinada por (9.1). Es decir, la esperanza
condicional se dene por
E(Y |X = x) =
X
yR
Y
yp
Y |X
(y|x). (9.2)
Este valor representa la esperanza de la variable Y cuando se sabe que
el vector X ha tomado el valor x.
Llamemos g(x) = E(Y |X = x), luego g : R
X
R. Vamos a denir
ahora una variable aleatoria que llamaremos esperanza de Y condicional a
X, y que notaremos por E(Y |X). Esta variable se dene por
E(Y |X) = g(X).
Vamos ahora a mostrar el siguiente teorema, que relaciona las esperanzas
de ambas variables aleatorias.
Teorema 9.1 Si Y tiene esperanza nita, entonces se tiene que
E(E(Y |X)) = E(Y ).
Demostracin. Tenemos que
E(E(Y |X)) = E(g(X)) =
X
xR
X
g(x)p
X
(x).
180
Utilizando que g(x) viene dado por (9.2), se tiene
E(E(Y |X)) =
X
xR
X
_
_
X
yR
Y
yp
Y |X
(y|x)
_
_
p
X
(x)
=
X
xR
X
_
_
X
yR
Y
y
p
XY
(x, y)
p
X
(x)
_
_
p
X
(x)
=
X
xR
X
_
_
X
yR
Y
yp
XY
(x, y)
_
_
=
X
yR
Y
y
_
_
X
xR
X
p
XY
(x, y)
_
_
=
X
yR
Y
yp
Y
(y)
= E(Y ).
El cambio en el orden de la suma se encuentra justicado pues la suma
converge. Luego el teorema queda demostrado. 2
Ejemplo 9.1 Supongamos que se hace una primera serie de n tiradas de
una moneda y sea X el nmero de caras obtenido. En base al resultado de
la primera serie de tiradas, se inicia una segunda serie de X tiradas. Sea Y
el nmero de caras obtenidas en esta segunda serie. Calcular la E(Y ).
Si X = x, la distribucin de Y condicional a X = x es binomial
Bi(0,50, x). Luego g(x) = E(Y |X = x) = 0,50x. Luego E(Y |X) = g(X) =
0,50X, y por lo tanto E(Y ) = E(E(Y |X)) = 0,50E(X). Como X es Bi(0,50, n),
entonces E(X) = 0,5n. Por lo tanto E(Y ) = 0,25n.
Teorema 9.2 (i) Si X e Y son dos vectores aleatorios independientes,
entonces se tiene
a) p
Y|X
(y|x) = p
Y
(y)
b) Si Y es una variable aleatoria y E(Y ) existe y es nita entonces
E(Y |X = x) = E(Y ).
(ii) Sean X e Y dos vectores aleatorios tales p
Y|X
(y|x) = p(y) para todo
x R
X
. Entonces p
Y
(y) = p(y), y X e Y son independientes.
Demostracin.
(i) a) se deduce del hecho de que p
Y|X
(y|x) = p
Y
(y) implica que
p
XY
(x, y) = p
X
(x)p
Y
(y).
181
b) es inmediata.
(ii) Para probar (ii) observemos que p
Y|X
(y|x) = p(y) implica que
p
XY
(x, y) = p
X
(x)p(y), (9.3)
y por lo tanto
p
Y
(y) =
X
xR
X
p
X
(x)p(y) = p(y)
X
xR
X
p
X
(x) = p(y).
Luego reemplazando en (9.3) se obtiene
p
XY
(x, y) = p
X
(x)p
Y
(y), (9.4)
y esto implica que X e Y son independientes. 2
Teorema 9.3 Si P(Y = c) = 1, entonces, cualquiera sea el vector X, se
tiene
(i) p
Y |X
(c|x) = 1.
(ii) E(Y |X = x) = c.
Demostracin. Tenemos que
{X = x} = ({X = x} {Y = c}) ({X = x} {Y 6= c}).
Como P({X = x} {Y 6= c}) = 0, se tiene
p
X
(x) = P(X = x) = P(X = x, Y = c)
= p
XY
(x, c).
Por lo tanto
p
Y |X
(c|x) =
p
XY
(x, c)
p
X
(x)
= 1.
Como en este caso R
Y
= {c}, se tiene
E(Y |X = x) =
X
yR
Y
yp
Y |X
(y|x)
= cp
Y |X
(c|x)
= c1
= c,
y el teorema queda demostrado. 2
Sean ahora dos vectores aleatorios discretos, X = (X
1
, ..., X
k
), Y =
(Y
1
, ..., Y
j
), y sea Z = h(X, Y), donde h : R
k+j
R es una funcin medible.
El siguiente Teorema muestra cmo se calcula E(Z|X = x).
182
Teorema 9.4 Sean X, Y dos vectores aleatorios discretos de dimensiones
k y j, y sea h : R
k+j
R una funcin medible. Denamos la variable
aleatoria discreta Z = h(X, Y), y supongamos que tiene esperanza nita.
Entonces para todo x R
X
se tiene
E(Z|X = x) =
X
yR
Y
h(x, y)p
Y|X
(y|x).
Demostracin. Comenzaremos calculando la funcin de probabilidad conjun-
ta de (X, Z). Sea R
x
Z
= {z : z = h(x, y) para y R
Y
}, y para todo z R
x
Z
denamos A
x
z
= {y : h(x, y) = z}. Es fcil ver que:
si z 6= z
0
entonces A
x
z
A
x
z
0
= , y que
[
zR
x
Z
A
x
z
= R
Y
. (9.5)
Es inmediato que
p
XZ
(x, z) =

P(X = x, Y A
x
z
) =
P
yA
x
z
p
XY
(x, y) si x R
X
, z R
x
Z
0 en otro caso,
y luego, para x R
X
se tiene
p
Z|X
(z|x) =
p
XZ
(x, z)
p
X
(x)
=
(
P
yA
x
z
p
XY
(x,y)
p
X
(x)
si z R
x
Z
0 en otro caso.
Por lo tanto se tiene
p
Z|X
(z|x) =
P
yA
x
z
p
Y|X
(y|x) si z R
x
Z
0 en otro caso.
(9.6)
Luego utilizando (9.6) se tiene
E(Z|X = x) =
X
zR
x
Z
z p
Z|X
(z|x)
=
X
zR
x
Z
z
X
yA
x
z
p
Y|X
(y|x)
=
X
zR
x
Z
X
yA
x
z
zp
Y|X
(y|x),
y como para y A
x
z
, se tiene h(x, y) = z, utilizando (9.5) obtenemos
E(Z|X = x) =
X
zR
x
Z
X
yA
x
z
h(x, y)p
Y|X
(y|x)
=
X
yR
Y
h(x, y)p
Y|X
(y|x),
183
probando por lo tanto el teorema. 2
El Teorema 9.4 se puede interpretar como que E(Z|X = x) se calcula
como la esperanza de h(Y, x) (variable aleatoria que depende nicamente del
vector aleatorio Y, ya que x es tratada como si fuera constante) utilizando
p
Y|X
(y|x) como funcin de probabilidad puntual de Y
Veamos qu propiedades de la esperanza condicional se deducen del Teo-
rema 9.4.
Propiedad 9.1 Sean X un vector aleatorio discreto de dimensin k e Y
un vector aleatorio discreto de dimensin j, y sean r : R
k
R y s : R
j
R
funciones medibles tales que las variables aleatorias r(X)s(Y), r(X) y s(Y)
tienen esperanza nita. Entonces se tiene
E(r(X)s(Y)|X = x) = r(x)E(s(Y)|X = x).
Demostracin. Utilizando el Teorema 9.4 con h(x, y) = r(x)s(y) que tiene
esperanza nita, se tiene
E(r(X)s(Y) | X = x) =
X
yR
Y
r(x)s(y)p
Y|X
(y|x)
= r(x)
X
yR
Y
s(y)p
Y|X
(y|x)
= r(x)E(s(Y)|X = x),
y luego la propiedad queda demostrada. 2
Propiedad 9.2 Sea X un vector aleatorio discreto de dimensin k, y sea
r : R
k
R una funcin medible tal que la variable r(X) tiene esperanza
nita. Luego
E(r(X)|X = x) = r(x).
Demostracin. La demostracin resulta de la Propiedad 9.1 tomando s(y) =
1, ya que entonces E(r(X)|X = x) = r(x)E(1|X = x). Luego por el Teorema
9.4 resulta la Propiedad 9.2. 2
Propiedad 9.3 (Linealidad de la esperanza condicional) Sean Y
1
e Y
2
variables aleatorias discretas con esperanza nita, y sea X un vector aleato-
rio discreto, entonces
E(c
1
Y +c
2
Y
2
|X = x) = c
1
E(Y
1
|X = x) +c
2
E(Y
2
|X = x).
184
Demostracin.
Sea Y = (Y
1
, Y
2
) y denamos h(x, y) = c
1
y
1
+ c
2
y
2
, h
1
(x, y) = y
1
y
h
2
(x, y) = y
2
. Entonces se tiene h(x, y) = c
1
h
1
(x, y) + c
2
h
2
(x, y). Luego
tenemos
E(c
1
Y
1
+c
2
Y
2
|X = x) = E(h(X, Y)|X = x)
=
X
yR
Y
h(x, y)p
Y|X
(y|x)
=
X
yR
Y
(c
1
h
1
(x, y) +c
2
h
2
(x, y))p
Y|X
(y|x)
= c
1
X
yR
Y
h
1
(x, y)p
Y|X
(y|x) +c
2
X
yR
Y
h
2
(x, y)p
Y|X
(y|x)
= c
1
E(h
1
(X, Y)|X = x) +c
2
E(h
2
(X, Y)|X = x)
= c
1
E(Y
1
|X = x) +c
2
E(Y
2
|X = x),
y la Propiedad 9.3 queda demostrada. 2
Propiedad 9.4 (i) Si P(Y 0) = 1, E(Y |X = x) 0.
(ii) E

Y
2
|X = x

E
2
(Y |X = x).
(iii) Si E(Y
2
) < , entonces E(E
2
(Y |X)) < .
Demostracin.
(i) Es inmediato de la denicin.
(ii) Para demostrar (ii), observemos que por (i)
0 E([Y E(Y |X = x)]
2
|X = x)
= E(

Y
2
2Y E(Y |X = x) +E
2
(Y |X = x)

|X = x)
= E(Y
2
|X = x)2E(Y |X = x)E(Y |X = x)+E
2
(Y |X = x)
= E(Y
2
|X = x)E
2
(Y |X = x),
En la penltima igualdad utilizamos la Propiedad 9.1 y la Propiedad
9.3. Luego (ii) queda demostrado.
(iii) Ahora demostraremos (iii). Observemos que por (ii)
E(Y
2
|X) E
2
(Y |X)
y luego, en virtud del Teorema 9.1 tenemos
> E(Y
2
) = E(E(Y
2
|X)) E(E
2
(Y |X)),
demostrando (iii).
185
Propiedad 9.5 Sea Y una variable aleatoria discreta con esperanza nita y
Xun vector aleatorio discreto de dimensin k. Luego si g(x) = E(Y |X = x),
entonces para toda t : R
k
R medible tal que Y t(X) tiene esperanza nita
resulta
E[(Y g(X))t(X)] = 0.
Demostracin. Sea Z = h(X, Y ) = (Y g(X))t(X). Luego bastar demostrar
que
E(Z) = 0.
Utilizando el Teorema 9.1 bastar demostrar que
E(Z|X) = 0. (9.7)
De acuerdo a la Propiedad 9.1, tenemos que
E(Z|X = x) = t(x)E((Y g(X))|X = x),
y por lo tanto
E(Z|X) = t(X)E((Y g(X))|X).
Luego para mostrar (9.7) bastar demostrar que
E(Y g(X)|X) = 0.
Pero esto es cierto ya que por Propiedades 9.3 y luego la Propiedad 9.2 se
tiene
E(Y g(X)|X) = E(Y |X) E(g(X)|X)
= E(Y |X) g(X)
= g(X) g(X)
= 0,
y por lo tanto queda demostrada esta propiedad. 2
Propiedad 9.6 Sea Y una variable aleatoria discreta con varianza nita y
X un vector aleatorio discreto de dimensin k. Luego
b
Y = g(X) = E(Y |X)
es el nico predictor con menor error cuadrtico medio en la clase de pre-
dictores
P =
n
b
Y = t(X) : t medible, Var(t(X)) <
o
.
Demostracin. Se deja como ejercicio ver que P es un espacio vectorial. Va-
mos a mostrar primero que g(X) P o sea que
Var

g
2
(X)

< . (9.8)
Pero esto resulta de Propiedad 9.4 (iii). Luego el resultado se obtiene del
Teorema 8.1 y de la Propiedad 9.5. 2
186
9.2. Caso general
Vamos ahora dar una denicin de E(Y |X) para el caso de una variable
Y cualesquiera , y un vector X cualquiera de dimensin k. Ambos, Y y X
no tienen porque ser discretos ni absolutamente continuos
Denicin 9.1 La variable aleatoria esperanza de Y condicional X se de-
ne por E(Y |X) = g(X), donde g : R
k
R es una funcin medible tal
que
E((Y g(X))t(X)) = 0 (9.9)
para toda t : R
k
R medible tal que Y t(X) tiene esperanza nita . Denire-
mos E(Y |X = x) = g(x).
La Propiedad 9.5 demostrada anteriormente muestra que en el caso de
Y y X discretos esta denicin coincide con la dada anteriormente, y por lo
tanto en este caso siempre existe.
El siguiente teorema muestra que siempre existe una nica variable
aleatoria g(X) = E(Y |X) satisfaciendo (9.9).
Teorema 9.5 Sea Y una variable aleatoria con esperanza nita y sea X un
vector aleatorio cualquiera de dimensin k. Luego
(i) Siempre existe una funcin medible g : R
k
R satisfaciendo (9.9).
(ii) Si g
1
y g
2
son dos funciones medibles satisfaciendo (9.9), entonces
P(g
1
(X) = g
2
(X)) = 1.
Demostracin.
(i) No lo demostraremos en general en este curso. Ms adelante haremos
una demostracin para el caso absolutamente continuo.
(ii) Sean g
1
y g
2
son dos funciones medibles satisfaciendo (9.9), entonces
E((Y g
1
(X))t(X)) = 0 (9.10)
y
E((Y g
2
(X))t(X)) = 0 (9.11)
para toda t(X) tal que Y t(X) tenga esperanza nita. Luego restando
(9.11) de (9.10) se obtiene
E((g
2
(X) g
1
(X)) t(X)) = 0,
187
y tomando t(X) = signo (g
2
(X) g
1
(X)) resulta que
E(|t(X)Y |) = E(|t(X)| |Y |) = E(|Y |) <
y por lo tanto t(X)Y tiene esperanza nita, y
0 = E((g
2
(X) g
1
(X)) t(X))
= E(signo (g
2
(X) g
1
(X)) (g
2
(X) g
1
(X)))
= E(|g
2
(X) g
1
(X)|) .
Esto implica que
P (|g
2
(X) g
1
(X)| = 0) = P (g
2
(X) = g
1
(X))
= 1. 2
Vamos ahora a demostrar que todas las propiedades de esperanza condi-
cional que valan para el caso discreto tambin valen para la denicin gen-
eral.
Teorema 9.6 Si Y tiene esperanza nita, entonces E(E(Y |X)) = E(Y ).
Demostracin. Apliquemos (9.9) con t(X) = 1. Luego se tiene
0 = E(Y g(X))
= E(Y ) E(g(X))
= E(Y ) E(E(Y |X)),
y por lo tanto se cumple el Teorema 9.6. 2
Teorema 9.7 Sean Y una variable aleatoria con esperanza nita y X un
vector aleatorio independientes. Entonces se tiene E(Y |X) = E(Y ).
Demostracin. Veamos que poniendo g(X) = E(Y ) se cumple (9.9). En efecto
dado que (Y E(Y )) y t(X) son independientes se tiene
E((Y E(Y ))t(X)) = E(Y E(Y ))E(t(X)).
Luego como E(Y E(Y )) = E(Y ) E(Y ) = 0, el Teorema 9.7 queda
demostrado. 2
Teorema 9.8 Si P(Y = c) = 1, entonces , cualquiera sea el vector X, se
tiene E(Y |X) = c.
188
Demostracin. Poniendo g(X) = c, resulta inmediatamente (9.9). 2
Vamos ahora a probar las propiedades 9.1-9.4 para la denicin general
de E(Y |X).
Propiedad 9.7 Sean X un vector aleatorio de dimensin k e Y un vector
aleatorio de dimensin j, y sea r : R
k
R y s : R
j
R. Entonces se tiene
E(r(X)s(Y)|X) = r(X)E(s(Y)|X).
Demostracin. Vamos a probar que si ponemos g(X) = r(X)E(s(Y)|X),
entonces (9.9) se cumple. En efecto
E((r(X)s(Y) g(X))t(X)) = E((r(X)s(Y) r(X)E(s(Y)|X))t(X))
= E((s(Y) E(s(Y)|X))m(X)),
con m(X) = r(X)t(X). Luego por la denicin de E(s(Y)|X) obtenemos
E((s(Y)E(s(Y)|X))m(X)) = 0. Por lo tanto la propiedad queda demostrada. 2
Propiedad 9.8 Sea X un vector aleatorio de dimensin k y sea r : R
k

R, una funcin medible. Luego E(r(X)|X) = r(X).


Demostracin. Se obtiene de la Propiedad 9.7 tomando s(Y) = 1. 2
Propiedad 9.9 Si Y
1
e Y
2
son variables aleatorias con esperanza nita, y
X es un vector aleatorio, entonces
E(c
1
Y
1+
c
2
Y
2
|X) = c
1
E(Y
1
|X) +c
2
E(Y
2
|X).
Demostracin. Vamos a ver que se cumple (9.9) poniendo
g(X) = c
1
E(Y
1
|X) +c
2
E(Y
2
|X).
En efecto si Z = c
1
Y
1
+ c
2
Y
2
usando la linealidad de la esperanza y la
denicin de esperanza condicional se tiene
E((Z g(X))t(X)) = E((c
1
(Y
1
E(Y
1
|X)) +c
2
(Y
2
E(Y
2
|X))t(X))
= c
1
E((Y
1
E(Y
1
|X))t(X)) +c
2
E(Y
2
E(Y
2
|X))t(X))
= c
1
0 +c
2
0
= 0,
y la propiedad queda demostrada. 2
La generalizacin de la Propiedad 9.5 usando la denicin general de
E(Y |X) es obvia a partir de la denicin.
189
Propiedad 9.10 Sea Y una variable aleatoria con varianza nita y X un
vector aleatorio de dimensin k. Luego
b
Y = g(X) = E(Y |X) es el nico
predictor con menor error cuadrtico medio en la clase de predictores P =
n
b
Y = t(X) : t medible, Var(t(X)) <
o
.
Demostracin. Es totalmente similar a la Propiedad 9.6. 2
De acuerdo a esta propiedad E(Y |X) es el predictor de Y ptimo basado
en cualquier funcin medible (lineal o no lineal) de X. Por esta razon lo
denotaremos con
b
Y
O,NL
.
9.3. Caso continuo
Supongamos ahora que tenemos dos vectores X = (X
1
, ...X
k
) e Y =
(Y
1
, ..., Y
j
) de dimensiones k y j respectivamente con distribucin conjunta
absolutamente continua y densidad f
X,Y
, y sea h : R
k+j
R una funcin
medible. Denamos la densidad de Y condicional X = x por
f
Y|X
(y|x) =
f
XY
(x, y)
f
X
(x)
.
Es fcil ver que para cada x jo con f
X
(x) > 0, la funcin f
Y|X
(y|x) es
una densidad para el vector Y. Es decir se tendr
Z

...
Z

f
Y|X
(y|x)dy
1
...dy
j
= 1.
El siguiente teorema es una versin para el caso continuo del Teorema
9.4.
Teorema 9.9 Sea Z = h(X, Y) una variable con esperanza nita, luego se
tiene que
E(Z|X = x) = g(x)
=
Z

...
Z

h(x, y)f
Y|X
(y|x)dy
1
...dy
j
.
Demostracin. Para facilitar la notacin en la demostracin, supondremos
que tanto X como Y son variables aleatorias en vez de vectores. Pero excepto
por la notacin ms complicada, la demostracin para vectores es similar,
ya que solamente se deben reemplazar las integrales simples por integrales
mltiples.
De acuerdo a (9.9) ser suciente probar que
E((h(X, Y ) g(X))t(X)) = 0,
190
o equivalentemente
E((h(X, Y )t(X)) = E(g(X)t(X)). (9.12)
Por un lado tenemos que
E((h(X, Y )t(X)) =
Z

h(x, y)t(x)f
XY
(x, y)dxdy. (9.13)
Adems se tiene que
E(g(X)t(X)) =
Z

g(x)t(x)f
X
(x)dx
=
Z

h(x, y)f
Y |X
(y|x)dy

t(x)f
X
(x)dx
=
Z

h(x, y)t(x)f
XY
(x, y)dxdy. (9.14)
Las ecuaciones (9.13) y (9.14) prueban (9.12). 2
Denicin 9.2 Sean dos vectores aleatorios X e Y de dimensiones k y
j respectivamente. Luego dado B
j
(conjunto Boreliano de dimensin
j), la probabilidad de que Y B, condicional X = x que se denotar con
P
Y|X
(B|X = x) est dado por
P
Y|X
(B|X = x) = E(I
B
(Y)|X = x),
donde I
B
es la funcin indicadora del conjunto B. La probabilidad de que
Y B, condicional X que se denotar por P
Y|X
(B|X) est dado por
P
Y|X
(B|X) = E(I
B
(Y)|X).
La justicacin de esta denicin est dada por el hecho que
P
Y
(B) = E(I
B
(Y)).
En efecto I
B
(Y) toma valor 1 con probabilidad P
Y
(B) y 0 con proba-
bilidad 1 P
Y
(B). Luego E(I
B
(Y)) = 1P
Y
(B) + 0(1 P
Y
(B)) = P
Y
(B).
En el caso discreto, de acuerdo al Teorema 9.4, se tendr
P
Y|X
(B|X = x) = E(I
B
(Y)|X = x)
=
X
yR
Y
I
B
(y)p
Y|X
(y|x)
=
X
yR
Y
B
p
Y|X
(y|x).
191
En el caso absolutamente continuo, de acuerdo al Teorema 9.9 se tiene
P
Y|X
(B|X = x) = E(I
B
(Y)|X = x)
=
Z

...
Z

I
B
(y)f
Y|X
(y|x)dy
=
Z
B
f
Y|X
(y|x)dy.
Obsevamos que f
Y|X
(y|x) actua como una verdadera densidad, en el
sentido de que para calcular la probabilidad condicional de un evento B hay
que integrar esta funcin sobre ese conjunto.
De acuerdo al Teorema 9.7 se tendr
E(P
Y|X
(B|X)) = P
Y
(B).
Para el caso discreto y continuo podemos denir la funcin de distribu-
cin de Y condicional X = x, la cual se denotar por F
Y|X
(y|x) y estarn
denidas respectivamente por
F
Y|X
(y|x) = P
Y|X
(
j
Y
i=1
(, y
i
]|X = x)
=
X
zR
Y
{z
1
y
1
}...{z
j
y
j
}
p
Y|X
(z|x).
F
Y|X
(y|x) = P
Y|X
(
j
Y
i=1
(, y
i
]|X = x)
=
Z
y
j

...
Z
y
1

f
Y|X
(z|x)dy.
Es fcil ver que para cada x jo F
Y|X
(y|x) es una verdadera funcin de
distribucin del vector Y, en el sentido que cumple con las propiedades que
caracterizan a una funcin de distribucin.
9.4. Varianza condicional
Denicin 9.3 Sea X = (X
1
, ..., X
k
) un vector aleatorio e Y una variable
aleatoria con varianza nita . Entonces la varianza de Y condicional X = x
se dene como
Var(Y |X = x) = E((Y E(Y |X = x))
2
|X = x),
y esta varianza puede considerarse como la varianza de variable X una vez
que se conoce que X = x. Denotemos por q(x) = Var(Y |X = x), luego
192
q : R
k
R. Llamaremos varianza condicional de Y condicional X a la
variable aleatoria
Var(Y |X) = q(X) = E((Y E(Y |X))
2
|X). (9.15)
Desarrollando el cuadrado en (9.15) y utilizando la Propiedad 9.10 se
obtiene
Var(Y |X) = E([Y
2
+E
2
(Y |X)2Y E(Y |X)]|X)
= E(Y
2
|X)+E
2
(Y |X) 2E(Y |X)E(Y |X)
= E(Y
2
|X)E
2
(Y |X).
El siguiente Teorema vincula la varianza condicional con el error cuadrti-
co medio del predictor ptimo no lineal
b
Y
O,NL
= E(Y |X).
Teorema 9.10 Supongamos que Y es una variable aleatoria con varianza
nita, X un vector aleatorio, y sea
b
Y
O,NL
= E(Y |X), el mejor predictor no
lineal de Y basado en X. Luego se tiene
(i) ECM(
b
Y
O,NL
, Y ) = E(Var(Y |X)).
(ii) E(Var(Y |X)) Var(Y ).
(iii) E(Var(Y |X)) = Var(Y ) si y slo si P(E(Y |X) = E(Y )) = 1.
Demostracin. Aplicando el Teorema 9.7 y utilizando la dnicin (9.15) se
tiene
ECM(
b
Y
O,NL
, Y ) = E((Y E(Y |X))
2
)
= E(E((Y E(Y |X))
2
|X))
= E(Var(Y |X)),
y por lo tanto queda demostrado parte (i) del Teorema.
Como
b
Y
O,NL
es el predictor con menor error cuadrtico medio en la clase
de predictores P = {
b
Y :
b
Y = t(X), Var(t(X)) < }, y como el predictor
optimo constante
b
Y
O,C
= E(Y ) P, se tiene
E(Var(Y |X)) = ECM(
b
Y
O,NL
, Y )
ECM(
b
Y
O,C
, Y )
= E((Y E(Y ))
2
)
= Var(Y )
y por un Teorema anterior la igualdad vale si y solo si P(
b
Y
O,NL
=
b
Y
O,C
) =
1. 2
193
194
Captulo 10
Convergencia de Variables
Aleatorias.
10.1. Convergencia de funciones.
Comenzaremos recordando algunos tipos de convergencia en espacios de
funciones.
Denicin 10.1 Sea {f
n
}
nN
una sucesin de funciones denidas sobre
un conjunto y que toman valores reales. Se dice que f
n
converge pun-
tualmente a otra funcin f : R si para todo y para todo
> 0, existe n
0
N dependiendo de y de tal que si n n
0
entonces
|f
n
() f () | < .
En general n
0
depende de y , es decir n
0
= n
0
(, ). Cuando la
eleccin de n
0
puede hacerse con independencia de , se tiene la siguiente
nocin de convergencia.
Denicin 10.2 Sea {f
n
}
nN
una sucesin de funciones denidas sobre un
conjunto y que toma valores reales. Se dice que f
n
converge uniforme-
mente en a otra funcin f si para todo > 0, existe n
0
N tal que si
n n
0
entonces |f
n
() f () | < para todo A.
Observacin. Es inmediato ver que si {f
n
}
nN
converge uniformemente
en entonces {f
n
}
nN
converge puntualmente. La recproca es falsa. Por
ejemplo, si denimos f
n
() =
n
para [0, 1] entonces la sucesin
converge puntualmente a la funcin
f() =

0 si 0 < 1
1 si = 1
para todo [0, 1] pero no converge uniformemente en [0, 1].
195
Veremos ahora algunos tipos de convergencia para variables aleatorias
que hacen uso de la estructura del espacio de probabilidades.
Existen varios tipos de convergencia, pero en este curso consideraremos
slo dos: la convergencia casi segura y la convergencia en probabilidad.
10.2. Convergencia casi segura y en probabilidad.
Consideremos un espacio de probabilidades (, A, P). Sea {X
n
}
nN
una
sucesin de variables aleatorias denidas sobre este espacio y X otra variable
aleatoria tambin denida sobre el mismo espacio.
Denicin 10.3 Diremos que una sucesin de variables aleatorias {X
n
}
nN
converge casi seguramente a otra variable aleatoria X (X
n
X c.s.) sii
P ({ : X
n
() X ()}) = 1. (10.1)
Observacin. En teora de la medida, este tipo de convergencia se denomina
convergencia en casi todo punto y se la nota X
n
X p.p. o bien X
n

X c.t.p.
Denicin 10.4 Diremos que una sucesin de variables aleatorias{X
n
}
nN
converge en probabilidad a otra variable aleatoria X sii para todo > 0 se
tiene
lm
n+
P ({ : |X
n
() X()| }) = 0. (10.2)
Notacin. Si la sucesin de variables aleatorias {X
n
}
nN
converge en prob-
abilidad a la variable aleatoria X escribiremos X
n
P
X.
Observaciones.
1. Equivalentemente, (10.2) puede reescribirse como
lm
n+
P ({ : |X
n
() X()| < }) = 1.
2. La convergencia en probabilidad signica que jado > 0 hay un
subconjunto de de probabilidad tan cercana a uno como se quiera
en el que la distancia entre X
n
y X se puede hacer menor que con
tal de tomar n sucientemente grande.
3. En teora de la medida la convergencia en probabilidad se denomina
convergencia en medida.
Teorema 10.1 Sea {X
n
}
nN
una sucesin de variables aleatorias denidas
sobre un espacio de probabilidad (, A, P) y X otra variable aleatoria deni-
da sobre el mismo espacio. Son equivalentes:
196
(i) X
n
P
X.
(ii) Para todo > 0 y todo > 0 existe n
0
N tal que si n n
0
entonces
P (|X
n
X| ) .
(iii) Para todo > 0, existe n
0
N tal que si n n
0
entonces
P (|X
n
X| ) .
Demostracin. (ii) es equivalente a (i) como consecuencia directa de la deni-
cin de convergencia en probabilidad. La equivalencia entre (ii) y (iii) se
deja como ejercicio. 2
El siguiente teorema establece que la convergencia casi segura (10.1)
implica la convergencia en probabilidad (10.2).
Teorema 10.2 Sea {X
n
}
nN
una sucesin de variables aleatorias denidas
sobre un espacio de probabilidad (, A, P) y X otra variable aleatoria deni-
da sobre el mismo espacio. Entonces
(i) La sucesin X
n
converge casi seguramente a X sii
lm
m
P(

[
n=m
{|X
n
X| }) = 0. (10.3)
(ii) Si X
n
converge casi seguramente a X entonces X
n
converge en prob-
abilidad a la variable aleatoria X.
Demostracin.
(i) Llamemos A al conjunto de los puntos de donde X
n
() X().
Luego
A = { : X
n
() X ()}.
Decir que A es equivalente a decir que para todo > 0 existe
m N tal que para todo n m se tiene |X
n
() X () | < , m
depender de . Entonces, si para cada > 0 denimos
B
n,
= { : |X
n
() X () | < }.
el conjunto A resulta
A =
\
>0
_
_

[
m=1
\
nm
B
n,
_
_
.
197
Sabemos que la convergencia casi segura se dene por P(A) = 1 o
equivalentemente por P(A
c
) = 0. Pero para poder usar propiedades
de probabilidad en el clculo de P (A) nos conviene tener escrito al
conjunto A como una numerable cantidad de uniones e intersecciones
de eventos. Por ello,.como basta elegir tan chico como se quiera, nos
podemos limitar a tomar = 1/k . Luego tambin tenemos
A =

\
k=1
_
_

[
m=1
\
nm
B
n,
1
k
_
_
.
Observemos que
A
c
=

[
k=1
_
_

\
m=1
[
nm
B
c
n,
1
k
_
_
.
Luego, como A
c
es una unin numerable, P (A
c
) = 0 si y slo si para
todo k N se tiene
P
_
_

\
m=1
[
nm
B
c
n
1
k
_
_
= 0.
En la notacin del Captulo 1 (Denicin 1.3, pgina 15), esto es el
lmite inferior de los conjuntos

B
c
n
1
k

nN
. Como B
c
n,
es cereciente
con , esto es equivalente a que para todo > 0
P
_
_

\
m=1
[
nm
B
c
n,
_
_
= 0. (10.4)
Denamos
C
m,
=
[
nm
B
c
n,
.
Claramente, para todo > 0 la sucesin {C
m,
}
m1
es creciente (no
necesariamente estrictamente creciente), de manera que
P
_
_

\
m=1
[
nm
B
c
n,
_
_
= P


\
m=1
C
m,
!
= lm
m
P (C
m,
) .
Luego se tendr que (10.4) es equivalente a
lm
m
P (C
m,
) = 0,
es decir,
lm
m
P
_
_
[
nm
B
c
n,
_
_
= 0.
198
Pero como
B
c
n,
= {|X
n
X| },
(i) queda demostrado.
(ii) Supongamos que X
n
X c.s. Luego se cumple (10.3) y como
{|X
m
X| }

[
n=m
{|X
n
X| },
por la monotona de la probabilidad resulta
lm
m
P({|X
m
X| }) = 0.
Por lo tanto X
n
P
0. 2
Observacin. Notemos que en esta demostracin hemos probado que
A = { : X
n
() X ()}
=

\
k=1
_
_

[
m=1
\
nm
B
n,
1
k
_
_
=

\
k=1
lm inf
n
B
n,
1
k
o, equivalentemente
A
c
= { : X
n
() 9X ()}
=

[
k=1
_
_

\
m=1
[
nm
B
c
n,
1
k
_
_
=

[
k=1
lm sup
n
B
n,
1
k
.
Veremos que la recproca de la parte (ii) de este teorema es falsa. Incluso
puede ocurrir que exista convergencia en probabilidad, pero que el conjunto
de los puntos donde haya convergencia puntual sea vaco.
10.3. Preservacin de la convergencia por funciones
continuas.
Los siguientes dos teoremas muestran que las funciones continuas preser-
van los dos tipos de convergencia que hemos denido: convergencia en prob-
abilidad y convergencia casi segura.
199
Teorema 10.3 Sea g : R
2
R continua y supongamos que las sucesiones
de variables aleatorias (X
n
)
n1
, (Y
n
)
n1
convergen casi seguramente a las
variables aleatorias X e Y. Entonces (g (X
n
, Y
n
))
n1
converge casi segura-
mente a la variable aleatoria g (X, Y ) .
Observacin. La propiedad vale en general para g : R
k
R continua. Si

X
(j)
n

n1
X
(j)
c.s. para j = 1, 2, ..., k entonces
g

X
(1)
n
, X
(2)
n
, ..., X
(k)
n

X
(1)
, X
(2)
, ..., X
(k)

c.s.
Demostracin. Sean A = { : X
n
() X ()} y B = { : Y
n
() Y ()}.
Como P (A) = P (B) = 1, tambin se tendr P (A B) = 1. En efecto
0 P ((A B)
c
) = P (A
c
B
c
) P (A
c
) +P (B
c
) = 0.
Ahora si A B entonces X
n
() X() e Y
n
() Y (). Luego, por
la continuidad de g se tiene
g (X
n
() , Y
n
()) g (X () , Y ()) .
Por lo tanto
A B { : g (X
n
() , Y
n
()) g (X () , Y ())},
y en consecuencia como
1 = P (A B) P ({ : g (X
n
() , Y
n
()) g (X () , Y ())}) 1,
el Teorema queda demostrado.2
Teorema 10.4 (i) Si Y
n
Y c.s. y X
n
X c.s. entonces X
n
+ Y
n

X +Y c.s.
(ii) Si Y
n
Y c.s. y X
n
X c.s. entonces X
n
Y
n
XY c.s.
(iii) Si Y
n
Y c.s. con P (Y = 0) = 0 y X
n
X c.s. entonces
X
n
Y
n

X
Y
c.s.
Demostracin.
(i) y (ii) resultan de que las funciones g(x, y) = x +y y g(x, y) = xy son
continuas y (iii) del hecho que g(x, y) = x/y es continua si y 6= 0. 2
Para demostrar una propiedad similar para la convergencia en proba-
bilidad necesitamos algunos resultados previos. Comenzamos probando que
toda variable aleatoria es acotada en probabilidad. Esto signica que X
est dentro de un compacto, con probabilidad tan cercana a uno como se
quiera.
200
Teorema 10.5 Sea X una variable aleatoria. Dado > 0 existe K tal que
P (|X| K) < .
Demostracin.
Consideremos la sucesin de conjuntos
A
n
= {|X| n}.
Esta sucesin es montona decreciente, es decir, A
n+1
A
n
y adems
T

n=1
A
n
= . Entonces
lm
n
P (A
n
) = 0.
Luego, dado > 0 existe n
0
N tal que P (A
n
0
) < , es decir
P (A
n
0
) = P ({|X| n
0
}) < .
Luego el Teorema es cierto tomando K = n
0
.2
Probaremos ahora un resultado ms fuerte: sucesiones de variables que
convergen en probabilidad estn acotadas en probabilidad uniformemente.
Teorema 10.6 Sea (X
n
)
n1
una sucesin de variables aleatorias que con-
verge en probabilidad a la variable aleatoria X. Entonces dado > 0 existe
K tal que P (|X| K) < y tal que para todo n
P (|X
n
| K) < .
Demostracin.
En primer lugar podemos hallar, de acuerdo al Teorema 10.5, K
0
de
forma tal que
P (|X| K
0
) <

2
.
Teniendo en cuenta que
|X
n
| |X
n
X| +|X| (10.5)
se prueba fcilmente que
{|X
n
| K
0
+ 1} {|X
n
X| 1} {|X| K
0
}. (10.6)
En efecto, supongamos que
/ {|X
n
X| 1} {|X| K
0
}.
Luego |X
n
()X () | < 1 y |X () | < K
0
y por lo tanto por (10.5) resulta
|X
n
()| < K
0
+ 1.
201
Debido a que X
n
P
X en probabilidad podemos encontrar n
0
tal que si
n n
0
P (|X
n
X| 1) <

2
.
Tomando probabilidades en ambos miembros de (10.6) obtenemos
P ({|X
n
| K
0
+ 1}) P ({|X
n
X| 1}) +P ({|X| K
0
})
<

2
+

2
=
para todo n n
0
. Adems por el Teorema 10.5, para cada i tal que 1 i
n
0
podemos encontrar K
i
tal que P(|X
i
| K
i
) . Luego tomando
K = m ax

max
1in
0
{K
i
}, K
0
+ 1

,
se obtiene la tesis. 2
Ahora estamos en condiciones de probar la propiedad de que las funciones
continuas conservan la convergencia en probabilidad.
Teorema 10.7 Sea g : R
2
R continua y supongamos que las sucesiones
(X
n
)
n1
e (Y
n
)
n1
convergen en probabilidad a las variables aleatorias X e
Y, respectivamente. Entonces (g (X
n
, Y
n
))
n1
converge en probabilidad a la
variable aleatoria g (X, Y ) .
Observacin. Vale la misma observacin hecha para el caso de la conver-
gencia casi segura en cuanto a que este teorema es vlido para funciones
continuas denidas en R
k
y vectores aleatorios k dimensionales.
Demostracin.
Queremos probar que dado > 0 existe n
0
N tal que si n n
0
P (|g (X
n
, Y
n
) g(X, Y )| ) < . (10.7)
pues por el Teorema 10.1 esto garantiza la convergencia en probabilidad.
De acuerdo al Teorema 10.5 podemos hallar un K tal que simultnea-
mente
P (|X
n
| K) <

6
n
P (|X| K) <

6
P (|Y
n
| K) <

6
n
P (|Y | K) <

6
.
202
Esto puede lograrse considerando primero un K
1
que cumpla con las dos
primeras desigualdades, despus un K
2
que cumpla con las siguientes dos y
tomando K = m ax{K
1
, K
2
}.
Sea
C = [K, K] [K, K] .
Como g es continua y C es compacto entonces g resulta uniformemente
continua en C. Luego existe > 0 tal que si |x x
0
| < , |y y
0
| <
y max {|x|, |x
0
|, |y|, |y
0
|} K entonces
|g (x, y) g

x
0
, y
0

| < . (10.8)
Por la convergencia en probabilidad existe n
0
N tal que si n n
0
entonces
P (|X
n
X| ) <

6
(10.9)
P (|Y
n
Y | ) <

6
. (10.10)
Esto se logra considerando un valor n
1
para la sucesin (X
n
)
n1
, un valor
n
2
para la sucesin (Y
n
)
n1
y luego tomando n
0
= m ax{n
1
, n
2
}.
Ahora denimos los conjuntos
A
1n
= {|X
n
X| }
A
2n
= {|Y
n
Y | }
A
3n
= {|X
n
| K}
A
4n
= {|Y
n
| K}
A
5n
= {|X| K}
A
6n
= {|Y | K}.
Si bien A
5n
, A
6n
no dependen de n, usamos la notacin por conveniencia.
Vamos a mostrar que si llamamos
B
n
=
6
[
i=1
A
in
,
entonces
{|g (X
n
, Y
n
) g(X, Y )| } B
n
.
Para esto debemos mostrar que para todo n n
0
en B
c
n
se tiene
|g (X
n
, Y
n
) g(X, Y )| < . (10.11)
En efecto, como
B
c
n
= (
6
[
i=1
A
in
)
c
=
6
\
i=1
A
c
in
,
203
resulta que cuando B
c
n
es cierto X
n
, X, Y
n
, Y estn en el compacto C y
adems |X
n
X| e |Y
n
Y | . Luego por (10.8) resulta (10.11). Luego
para todo n n
0
P ({|g (X
n
, Y
n
) g (X
n
, Y
n
) | }) P(B
n
)
6
X
i=1
P (A
in
) < 6

6
= ,
y el Teorema queda demostrado.2
Anlogamente a lo observado para la convergencia casi segura se tienen
los siguientes corolarios.
Teorema 10.8 (i) Si Y
n
P
Y y X
n
P
X entonces X
n
+Y
n
P
X +Y.
(ii) Si Y
n
P
Y y X
n
P
X c.s entonces X
n
Y
n
P
XY .
(iii) Si Y
n
P
Y con P (Y = 0) = 0 y X
n
P
X entonces
X
n
Y
n
P

X
Y
.
Demostracin.
Similar a la demostracin del Teorema 10.4. 2
10.4. Ley dbil de los grandes nmeros.
Teorema 10.9 (Desigualdad de Markov) Sea X una variable aleato-
ria y g una funcin par, no negativa y no decreciente en el mdulo, esto
es si |x| > |y| entonces g (x) g (y) . Supongamos adems que g (X) tiene
esperanza nita, es decir que E(g (X)) < . Entonces si > 0 es tal que
g () > 0, vale que
P (|X| )
E(g (X))
g ()
.
Demostracin.
Consideremos el conjunto A = { : |X()| } . Entoces {A, A
c
} es
una particin del espacio muestral . Luego I
A
(x) + I
A
c (x) = 1, y como
todas las variables son no negativas y g(x) es nodecreciente en |x|, tenemos
g (X) = g (X) I
A
(X) +g (X) I
A
c (X)
g (X) I
A
(X)
g()I
A
(X) .
Luego tomando esperanza obtenemos
E(g (X)) g () E(I
A
) = g () P ({|X| }) .
204
De esta desigualdad se obtiene inmediatamente el resultado buscado. 2
En particular tomando g (x) = x
2
se obtiene la siguiente versin de la
Desigualdad de Tchebichev
P ({|X| })
E

X
2

2
.
Por otro lado si consideramos la variable aleatoria XE(X) obtenemos
la versin (clsica) de la desigualdad de Tchebichev
P ({|X E(X)| })
E

[X E(X)]
2

2
=
Var (X)

2
.
Tomando complementos esta desigualdad puede escribirse como
P ({|X E(X)| < }) 1
Var (X)

2
.
Luego si la Var (X) es pequea (o sea hay poca dispersin), la probabilidad
de que la variable X tome valores en el intervalo (E(X) , E(X) +) ser
grande.
Ahora estamos en condiciones de estudiar la ley de los grandes nmeros
en sus dos versiones: dbil y fuerte. La importancia de estas leyes, es que
permite dar fundamento matemtico a la argumentacin heurstica que in-
terpreta la esperanza de una variable aleatoria como el valor al cual tiende el
promedio de varias realizaciones de la variable correspondientes a la repeti-
cin de experimentos independientes. Tambin permite fundamentar la no-
cin heurstica de la probabilidad de un evento como el valor lmite de las
frecuencias relativas con que ocurre el evento cuando se repiten muchos ex-
perimentos independientes. La ley dbil expresa estos resultados en trminos
de convergencia en probabilidad y la ley fuerte en trminos de convergencia
casi segura.
Teorema 10.10 (Ley dbil de los grandes nmeros) Sea (X
n
)
n1
una
sucesin de variables aleatorias no correlacionadas, es decir Cov (X
i
, X
j
) =
0 si i 6= j, tal que E(X
i
) =
i
y Var (X
i
) =
2
i
para cada i = 1, 2, ....
Consideramos la sucesin de variables aleatorias

X
n

n1
donde X
n
es el
promedio de las primeras n variables. Luego
X
n
=
1
n
n
X
i=1
X
i
,
y sea
n
= E(X
n
) dada por

n
=
1
n
n
X
i=1

i
.
205
Entonces si
lm
n

1
n
2
n
X
i=1

2
i
!
= 0, (10.12)
se tiene
X
n

n
P
0.
Demostracin.
Se tiene que
Var(X
n
) =
1
n
2
n
X
i=1

2
i
,
y por Tchebichev
P(

X
n

)
Var(X
n
)

2
=
1

2
n
2
n
X
i=1

2
i
.
Tomando lmite resulta que
lm
n
P(

X
n

)
1

2
lm
n
1
n
2
n
X
i=1

2
i
= 0
y luego el Teorema queda demostrado. 2
Observaciones.
1. Si (X
n
)
n1
es una sucesin de variables aleatorias independientes, en-
tonces las variables X
n
son no correlacionadas y el Teorema puede
aplicarse.
2. Una condicin suciente para que se cumpla (10.12) es que {
2
i
} sea
una sucesin acotada. En efecto, si
2
i
K para todo i, se obtiene
1
n
2
n
X
i=1

2
i

Kn
n
2
=
K
n
0.
En particular, esta condicin se cumple si todas las variables tienen
igual varianza.
3. Si todas las variables tienen igual media, digamos
i
= , se tiene que

n
= , y entonces X
n

P
0 o, lo que es equivalente,
X
n
P
.
4. En particular si (X
n
)
n1
es una sucesin de variables no correla-
cionadas igualmente distribuidas con E(X
n
) = y Var(X
n
) =
2
,
se tendr X
n
P
.
206
5. Veremos ahora como esta ley debil permite fundamentar el concepto
de probabilidad de un evento. Sea (, A, P) un espacio de probabilidad
y A un evento. Supongamos que realizamos n experimentos indepen-
dientes y denimos
X
i
() =

1 si en el experimento i, A
0 si en el experimento i, / A.
Denamos
X
n
=
1
n
n
X
i=1
X
i
.
Se tiene
E(X
i
) = 1.P (A) + 0P (A
c
) = P (A) ,
y como X
2
i
= X
i
Var (X
i
) = E(X
2
i
) E(X
i
)
2
= E(X
i
) E(X
i
)
2
= P(A) P(A)
2
= P (A) (1 P (A)) .
Luego, como adems las variables X
i
son independientes, de acuerdo
a la ley dbil de los grandes nmeros se tendr
X
n
P
E(X
i
) = P (A) . (10.13)
Obsrvese que X
n
es la frecuencia relativa de ocurrencia del evento
A en n repeticiones independientes del experimento. Entonces (10.13)
puede interpretarse como que la frecuencia relativa de ocurrencia del
evento A tiende (en probabilidad) a su probabilidad.
10.5. Ley fuerte de los grandes nmeros.
Para probar la ley fuerte de los grandes nmeros necesitaremos algunos
teoremas previos.
Teorema 10.11 (Desigualdad de Kolmogorov) Sean X
1
, ..., X
n
variables
independientes con E(X
i
) = 0. Supongamos que
2
i
= Var (X
i
) < y con-
sideremos las sumas parciales S
i
=
P
i
j=1
X
j
. Entonces
P

max
1in
|S
i
|

2
n
X
i=1

2
i
. (10.14)
207
Observacin. Vamos a mostrar que la desigualdad de Kolmogorov es un
renamiento de la desigualdad de Tchebichev. Para ver esto, apliquemos la
desigualdad de Tchebichev a la variable aleatoria S
n
. Obtenemos
P (|S
n
| )
1

2
Var (S
n
) =
1

2
n
X
i=1

2
i
. (10.15)
Observemos que |S
n
| max
1in
|S
i
| de manera que
{|S
n
| }

max
1in
|S
i
|

,
y por lo tanto
P ({|S
n
| }) P

m ax
1in
|S
i
|

.
Luego resulta que (10.14) implica (10.15).
Demostracin. Sea
A =

max
1in
|S
i
|

,
y consideremos para cada i los conjuntos
A
i
= {|S
1
| < , |S
2
| < , . . . , |S
i1
| < , |S
i
| }.
Estos eventos son disjuntos dos a dos y forman una particin de A. Luego
A =
n
[
i=1
A
i
,
y por lo tanto se deduce que
I
A
=
n
X
i=1
I
A
i
.
Luego como S
2
n
I
A
c 0 se deduce que
S
2
n
= S
2
n
I
A
+S
2
n
I
A
c S
2
n
I
A
= S
2
n
n
X
i=1
I
A
i
.
Tomando esperanza en ambos miembros resulta
E

S
2
n

n
X
i=1
E

S
2
n
I
A
i

. (10.16)
Para cada trmino S
2
n
I
A
i
resulta
S
2
n
I
A
i
= (S
i
+T
i
)
2
I
A
i
= S
2
i
I
A
i
+T
2
i
I
A
i
+ 2S
i
T
i
I
A
i
, (10.17)
208
donde
T
i
=
n
X
j=i+1
X
j
.
Ahora probaremos que E(S
i
T
i
I
A
i
) = 0. Por un lado observamos que S
i
depende slo de X
1
, ...X
i
y lo mismo ocurre con I
A
i
. Como T
i
depende
slo de X
i+1
, . . . , X
n
, resulta que S
i
I
A
i
es independiente de T
i
. Luego como
E(T
i
) = 0 se obtiene
E(S
i
T
i
I
A
i
) = E([S
i
I
A
i
] T
i
) = E(S
i
I
A
i
) E(T
i
) = 0. (10.18)
Tomando esperanza en (10.17) y teniendo en cuenta (10.18) y el hecho de
que en A
i
se tiene |S
i
|
E

S
2
n
I
A
i

= E(S
2
i
I
A
i
) +E(T
2
i
I
A
i
)
E(S
2
i
I
A
i
)
E(I
A
i
)
= P(A
i
).
Luego por (10.16) resulta
E

S
2
n

n
X
i=1
E

S
2
n
I
A
i


2
n
X
i=1
P (A
i
)
=
2
P (A) ,
o sea
P (A)
E

S
2
n

2
=
1

2
n
X
i=1

2
i
. 2
Para probar la ley fuerte de los grandes nmeros necesitamos tambin el
siguiente teorema.
Teorema 10.12 Sea (X
n
)
n1
una sucesin de variables aleatorias. Una
condicin suciente para que
X
n
X c.s.
es que para todo > 0 exista una sucesin creciente de enteros positivos
r
1
< r
2
< < r
n
que puede depender de tal que

X
i=1
P
_
_
r
i+1
1
[
n=r
i
B
c
n
_
_
< , (10.19)
donde B
n
= {|X
n
X| < }.
209
Demostracin. Recordemos el resultado ya probado en el Teorema 10.2 que
establece que
X
n
X c.s.
si y slo si
lm
m
P


[
n=m
B
c
n
!
= 0. (10.20)
Supongamos que se cumple (10.19). Veremos que entonces se cumple (10.20).
Sea > 0, entonces (10.19) implica que existe i
0
tal que

X
i=i
0
P
_
_
r
i+1
1
[
n=r
i
B
c
n
_
_
< .
Pero entonces
P
_
_

[
n=r
i
0
B
c
n
_
_
= P
_
_

[
i=i
0
r
i+1
1
[
n=r
i
B
c
n
_
_


X
i=i
0
P
_
_
r
i+1
1
[
n=r
i
B
c
n
_
_
< .
Esto implica que (10.20) se cumple. 2
Teorema 10.13 (Ley fuerte de los grandes nmeros) Sea (X
n
)
n1
una
sucesin de variables aleatorias independientes tal que E(X
i
) =
i
y Var(X
i
) =

2
i
para cada i N. Consideremos la sucesin de variables aleatorias

X
n

n1
denida por
X
n
=
1
n
n
X
i=1
X
i
y sus respectivas medias

n
= E(X
n
) =
1
n
n
X
i=1

i
.
Entonces si

X
i=1

2
i
i
2
< , (10.21)
se tiene
X
n

n
0 c.s.
Demostracin. Basta probar el teorema suponiendo que para todo i,
i
= 0.
Para ver esto, supongamos que el teorema fuera vlido cuando para todo
i,
i
= 0 y deduzcamos de esto el caso general, esto es, cuando para cada
i la E(X
i
) =
i
arbitraria. Para ello, consideremos nuevas variables Y
i
=
X
i

i
. Entonces E(Y
i
) = 0 y Var (Y
i
) = Var(X
i
) =
2
i
. Las variables Y
i
210
son independientes y luego se cumple Y
n
0 c.s. Pero como Y
n
= X
n

n
,
resulta tambin X
n

n
0 c.s. Luego para demostrar el teorema podemos
suponer que
i
= 0 para todo i.
Usaremos el Teorema 10.12, tomando r
i
= 2
i1
. Luego si llamamos

i
= P
_
_
2
i
1
[
n=2
i1
B
c
n
_
_
,
bastar demostrar que

X
i=1

i
< .
Si llamamos S
n
=
P
n
i=1
X
i
tenemos que X
n
= S
n
/n. Luego

i
= P
_
_
2
i
1
[
n=2
i1
B
c
n
_
_
= P
_
_
2
i
1
[
n=2
i1

|X
n
|

_
_
= P
_
_
2
i
1
[
n=2
i1
{|S
n
| n}
_
_
P
_
_
2
i
1
[
n=2
i1
{|S
n
| 2
i1
}
_
_
P
_
_
2
i
1
[
n=1
{|S
n
| 2
i1
}
_
_
. (10.22)
Usando la Desigualdad de Kolmogorov (Teorema 10.11) resulta
P
_
_
2
i
1
[
n=1
{|S
n
| 2
i1
}
_
_
= P

max
1n2
i
1
|S
n
| 2
i1

1
4
i1

2
2
i
1
X
j=1
Var (X
j
)

1
4
i1

2
2
i
1
X
j=1

2
j
. (10.23)
Entonces de (10.22) y (10.23) obtenemos para cada i

i

1
4
i1

2
2
i
1
X
j=1

2
j
,
211
y cambiando el orden de sumacin resulta

X
i=1

i


X
i=1
1
4
i1

2
2
i
1
X
j=1

2
j
=
1

X
j=1

2
j
X
i: 2
i
1j
1
4
i1
. (10.24)
La desigualdad 2
i
1 j es equivalente a
i
ln(j + 1)
ln(2)
= i
0
(j) ,
y entonces podemos escribir
X
i: 2
i
1j
1
4
i1
= 4
X
ii
0
(j)
1
4
i
= 4a
0

1
1
1
4
!
=
16
3
a
0
, (10.25)
donde a
0
es el primer trmino de la serie geomtrica.
X
ii
0
(j)
1
4
i
. (10.26)
Por otro lado 2
i
1 j implica que 4
i
j
2
, es decir para todos los trminos
de la serie geomtrica (10.26) obtenemos
1
4
i

1
j
2
,
y en particular se tendr
a
0

1
j
2
. (10.27)
Entonces por (10.25 y (10.27) se tiene
X
2
i
1j
1
4
i1
=
16
3
a
0

16
3
1
j
2
=
16
3
1
j
2
,
y de acuerdo a (10.24) se tiene

X
i=1

i

16
3
2

X
j=1

2
j
j
2
< .
212
Esto prueba la Ley Fuerte de los Grandes Nmeros. 2
Observacin. La condicin (10.21) se cumple si todas las varianzas estn
acotadas. En efecto, si existe una constante K tal que para todo i,
2
i
K
entonces como se tiene

X
i=1
1
i
2
< ,
resulta

X
i=1

2
i
i
2
K

X
i=1
1
i
2
< .
Para el caso en que para todo i,
i
= ,
2
i
=
2
se cumple efectivamente
que

2
X
1
i
2
< ,
y por lo tanto
X
n
0 c.s.,
o equivalentemente
X
n
c.s.
Todas las consideraciones posteriores a la ley dbil que discuten como s-
ta fundamenta las nociones heursticas de esperanza de un variable aleatoria
y de probabilidad de un evento siguen valiendo, reemplazando la convergen-
cia en probabilidad por convergencia casi segura.
10.6. Teorema de la Convergencia Dominada
Ahora daremos una demostracin del Teorema de la Convergencia Dom-
inada (Lebesgue). Antes necesitamos el siguiente caso particular.
Teorema 10.14 Sean (X
n
)
n1
una sucesin de variables aletorias no neg-
ativas y Z una variable aleatoria no negativa con E(Z) < que domina
todos los trminos de la sucesin, es decir 0 X
n
Z. Entonces si X
n
P
0
se tiene
E(X
n
) 0.
Demostracin. Recordemos que si Z 0 la condicin de E(Z) < es
equivalente a
R

0
zdF
Z
< y esto es equivalente a lm
k
R
k
k
zdF
Z
= 0.
Vamos a demostrar que dado > 0 existe n
0
tal que si n n
0
entonces
E(X
n
) < .
Dado K > 0 (arbitrario) particionamos al espacio de la siguiente manera
=
n
X
n


3
o

3
< X
n
K
o
{X
n
> K}.
213
Entonces
0 X
n
= X
n
I
{X
n
/3}
+X
n
I
{/3<X
n
K}
+X
n
I
{X
n
>K}


3
+KI
{X
n
>/3}
+ZI
{Z>K}
. (10.28)
Tomando esperanza en ambos miembros se tiene
E(X
n
)

3
+KP

X
n
>

3

+E

ZI
{Z>K}

. (10.29)
Sea Y
K
= ZI
{Z>K}
, luego
F
Y
K
(y) =
_
_
_
0 si y < 0
F
Z
(K) si 0 y K
F
Z
(y) si y > K,
y entonces
E(ZI
{Z>K}
) = E(Y
K
)
=
Z
+
K
zdF
Z
.
Dado que E(Z) < existe K
0
tal que
E

ZI
{Z>K
0
}

<

3
. (10.30)
Una vez elegido K
0
, usando que X
n
P
0, podemos encontrar n
0
tal que
para todo n n
0
se tiene
P

X
n
>

3

<

3K
0
. (10.31)
Luego de (10.29), (10.30) y (10.31) resulta que para todo n n
0
0 E(X
n
)

3
+K
0

3K
0
+

3
= ,
y el Teorema queda demostrado. 2
Ahora probaremos el Teorema de la Convergencia Dominada en el caso
general.
Teorema 10.15 (Teorema de la Convergencia Dominada) Sea (X
n
)
n1
una sucesin de variables aleatorias tal que existe un variable Z 0 con
E(Z) < y |X
n
| Z para todo n. Entonces si X
n
P
X se tendr
E(X
n
) E(X) .
214
Demostracin. Debemos probar que
lm
n
|E(X
n
) E(X)| = 0.
Ahora bien, por una propiedad de la esperanza
|E(X
n
) E(X)| = |E(X
n
X)| E(|X
n
X|) ,
de manera que bastar con probar que
lm
n
E(|X
n
X|) = 0. (10.32)
Sea
Y
n
= |X
n
X| 0,
luego como X
n
P
X resulta Y
n
P
0.
Como
{|X| > Z + 1} {|X
n
| > Z} {|X
n
X| > 1},
y dado P(|X
n
| > Z) = 0 se tendr para todo > 0,
P(|X| > Z + 1) P(|X
n
X| > 1)
y por lo tanto como X
n
P
X
P(|X| > Z + 1) lm
n
P(|X
n
X| > 1) = 0.
Esto muestra que para todo > 0 se tiene P(|X| Z + 1) = 0.
Luego con probabilidad 1 se tiene Y
n
|X
n
|+|X| 2Z+1, y estamos en
la situacin del Teorema 10.14. Por lo tanto podemos concluir que E(Y
n
)
0. Luego (10.32) se cumple y el teorema queda demostrado. 2
215
216
Captulo 11
Convergencia en
Distribucin.
11.1. Denicin de convergencia en distribucin.
Tanto la convergencia casi segura como la convergencia en probabilidad
se basan en el concepto de proximidad entre variables aleatorias. Vere-
mos ahora un tipo de convergencia que se basa en la proximidad entre las
respectivas funciones de distribucin.
Denicin 11.1 Sea (F
n
)
n1
una sucesin de funciones de distribucin
denidas sobre R y F otra funcin de distribucin. Diremos que la suce-
sin F
n
converge dbilmente a F si para todo punto x de continuidad de F,
las F
n
convergen puntualmente a F. Es decir, si para todo x tal que F es
continua en x se tiene que
lm
n
F
n
(x) = F (x) .
Notacin. Si {F
n
}
n1
converge dbilmente en distribucin a F escribiremos
F
n
D
F.
Observacin. Recordemos que una funcin de distribucin denida sobre
R se caracteriza por las propiedades P1, P2, P3 y P4 del teorema 2.5 y que
el conjunto de puntos donde es discontinua es a lo sumo numerable.
Denicin 11.2 Sea (X
n
)
n1
una sucesin de variables aleatorias y F una
funcin de distribucin. Diremos que la sucesin X
n
converge en distribucin a
F sii (F
X
n
)
n1
converge dbilmente a F.
Notacin. Si (X
n
)
n1
converge en distribucin a F escribiremos
X
n
D
F.
217
Observacin. Por extensin tambin diremos que (X
n
)
n1
converge en
distribucin a X sii F
X
n
D
F
X
.
Al decir que (X
n
)
n1
converge en distribucin a X hay un abuso de
lenguaje puesto que las variables X
n
no se aproximan a X, sino que son las
funciones de distribucin de las X
n
las que se aproximan a la funcin de
distribucin de X.
Consideremos el caso donde X e Y son dos variables independientes
con distribucin N (0, 1) . Denamos para todo n, X
n
= X entonces X
n
D

Y y sin embargo como las variables X e Y son independientes, X no se


aproxima a Y .
Veamos ahora la relacin que existe entre la convergencia en probabilidad
y la convergencia en distribucin.
Teorema 11.1 Sea (X
n
)
n1
una sucesin de variables aleatorias y X otra
variable aleatoria. Entonces
X
n
P
X
implica que
X
n
D
X.
Demostracin. Sea F
X
la funcin de distribucin de X y x un punto de
continuidad.de F
X
. Probemos primero que
{X
n
x} {X x +} {|X
n
X| }. (11.1)
Para esto basta demostrar que si no est en ninguno de los dos conjunto
que forman la unin en el miembro derecho, entonces no est en {X
n
x}.
Sea tal que X() > x + y |X
n
() X()| < . Luego
X
n
() = X() + (X
n
() X())
X() |X
n
() X()|
> x +
= x,
probando (11.1). Tomado probabilidades en ambos miembros se obtiene
F
Xn
(x) F
X
(x +) +P (|X
n
X| ) .
Tomando lmite superior en ambos miembros y teniendo en cuenta que
lm
n
P (|X
n
X| ) = 0 (11.2)
se obtiene
lm
n
F
Xn
(x) F
X
(x +) ,
218
y haciendo que 0, en virtud de que las funciones de distribucin son
continuas a derecha se tiene que
lm
n
F
Xn
(x) F
X
(x) . (11.3)
Ahora hacemos un razonamiento similar a izquierda de x. Consideramos la
inclusin
{X x } {X
n
x} {|X
n
X| }.
Tomado probabilidades en ambos miembros se obtiene
F
X
(x ) F
X
n
(x) +P(|X
n
X| ).
Tomando lmite inferior en ambos miembros y usando (11.2) se obtiene
F (x ) lm
n
F
Xn
(x) ,
y haciendo que 0, en virtud de la continuidad de F
X
en x
F (x) lm
n
F
X
n
(x) . (11.4)
De (11.3) y (11.4) resulta
lm
n
F
X
n
(x) F
X
(x) lm
n
F
X
n
(x) ,
y como
lm
n
F
X
n
(x) lm
n
F
X
n
(x) ,
debe ser
lm
n
F
X
n
(x) = lm
n
F
X
n
(x) = F
X
(x) .
Luego existe el lmite de (F
X
n
) en el punto x y adems
lm
n
F
X
n
(x) = F (x) . 2
Observacin. La recproca no vale en general. Pero s es cierta en el caso en
que P(X = C) = 1, donde C es una constante. Luego tenemos el siguiente
teorema cuya demostracin queda como ejercicio.
Teorema 11.2 Supongamos que X
n
D
X y P(X = C) = 1. Entonces
X
n
P
X.
219
11.2. Funciones caractersticas.
Una herramienta muy importante para la demostracin del Teorema
Central del Lmite es la funcin caracterstica asociada a una distribucin.
Para denirla necesitaremos presentar el concepto de variable aleatoria com-
pleja.
11.2.1. Variables aleatorias complejas.
Denicin 11.3 Sea (, A, P) un espacio de probabilidad. Se dice que X
es una variable aleatoria compleja si X : C (C indica el conjunto de
nmeros complejos) es de la forma X = X
1
+ iX
2
con X
1
y X
2
variables
aleatorias reales.
Denicin 11.4 Sea la variable aleatoria compleja X = X
1
+ iX
2
, donde
X
1
y X
2
tienen esperanza nita. Denimos la esperanza de X como E(X) =
E(X
1
) +iE(X
2
) .
Observacin. E(X) C. La parte real e imaginaria de la esperanza son
respectivamente Re (E(X)) = E(X
1
) e ImE(X) = E(X
2
) .
Denicin 11.5 Diremos que dos variables aleatorias complejas X = X
1
+
iX
2
e Y = Y
1
+ iY
2
son independientes si el vector aleatorio X =(X
1
, X
2
)
es independiente del vector aleatorio Y =(Y
1
, Y
2
) .
Algunas propiedades
Veamos ahora algunas propiedades que cumplen las variables complejas,
en analoga con las que ya probamos para variables aleatorias reales.
Propiedad 11.1 Sean X = X
1
+iX
2
e Y = Y
1
+iY
2
dos variables aleatorias
complejas independientes. Entonces
E(XY ) = E(X) E(Y ) .
Demostracin. La demostracin se basa en el clculo directo usando la deni-
cin y la propiedad anloga para variables aleatorias reales independientes
E(XY ) = E[(X
1
+iX
2
) (Y
1
+iY
2
)]
= E[(X
1
Y
1
X
2
Y
2
) +i (X
2
Y
1
+Y
2
X
1
)]
= E(X
1
Y
1
X
2
Y
2
) +iE(X
2
Y
1
+Y
2
X
1
) =
= E(X
1
Y
1
) E(X
2
Y
2
) +iE(X
2
Y
1
) +iE(Y
2
X
1
) =
= E(X
1
) E(Y
1
) E(X
2
) E(Y
2
) +iE(X
2
) E(Y
1
) +iE(Y
2
) E(X
1
)
= (E(X
1
) +iE(X
2
))(E(Y
1
) +iE(Y
2
))
= E(X) E(Y ) . 2
220
Propiedad 11.2 Sea una variable compleja X = X
1
+iX
2
. Entonces
|E(X)| E(|X|) .
Demostracin. Podemos suponer que E(X) 6= 0 pues en tal caso la desigual-
dad se cumple. Como E(X) = E(X
1
) +iE(X
2
) C podemos escribir
E(X) = re
i
para cierto r > 0, 0 < 2. Consideremos la variable aleatoria compleja
Y = e
i
X y veriquemos que su esperanza es real
E(Y ) = E

e
i
X

= e
i
E(X)
= r > 0.
Hemos probado con anterioridad que la propiedad se cumple para esperanzas
de variables aleatorias reales. Luego
|E(Y )| E(|Y |) .
A partir de esto se deduce la tesis, pues
|E(X)| = r = E(Y ) = |E(Y )| E(|Y |) = E(|X|) . 2
11.2.2. Denicin de funcin caracterstica y propiedades.
Denicin 11.6 Sea X una variable aleatoria y F
X
su funcin de distribu-
cin. Denimos a la funcin carcterstica de X por la funcin
X
: R C
asociada a F
X
de la siguiente manera

X
(t) = E(exp(itX))
= E(cos (tX)) +iE(sen(tX)) .
Observacin. Como las variables cos (tX) , sen(tX) son acotadas, las es-
peranzas de estas variables existen y son nitas.
El motivo de la introduccin de la funcin caracterstica es poder estudiar
ms facilmente la distribucin de la suma de variables aleatorias independi-
entes. Mientras que la funcin de distribucin de esta suma (que se obtiene
por convoluciones) puede ser muy complicada, su funcin caracterstica es
muy simple, como se desprende de la Propiedad 11.3 que damos a contin-
uacin. Por otro lado, como veremos ms adelante, hay una correspondencia
biunvoca entre funciones de distribucin y funciones caractersticas. Luego,
conociendo la funcin caracterstica de una variable aleatoria, tambin cono-
cemos su funcin de distribucin.
221
Propiedad 11.3 Sean X e Y dos variables aleatorias independientes. En-
tonces para todo t R

X+Y
(t) =
X
(t)
Y
(t) .
Demostracin. Observando que exp(itX) , exp(itY ) son variables aleatorias
independientes se tiene

X+Y
(t) = E(exp(it (X +Y )))
= E(exp(itX) exp(itY ))
= E(exp(itX)) E(exp(itY ))
=
X
(t)
Y
(t) . 2
Propiedad 11.4 Sea X una variable aleatoria. Entonces para todo t R
|
X
(t)| 1.
Demostracin.
|
X
| = |E(exp(itX))| E(|exp(itX)|) = E(1) = 1. 2
Propiedad 11.5
X
(0) = E(1) = 1.
Demostracin.
X
(0) = E(1) = 1. 2
Ahora enunciamos dos teoremas muy importantes. Las demostraciones
de estos teoremas se pueden encontrar en el libro de Barry R. James, Prob-
abilidade: um curso em nivel intermedirio.
Teorema 11.3 Sean X e Y dos variables aleatorias. Entonces si

X
=
Y
,
tambin se tiene
F
X
= F
Y
.
Teorema 11.4 (Teorema de Continuidad de Paul Levy) Sea (X
n
)
n1
una sucesin de variables aleatorias, (F
X
n
)
n1
la correspondiente sucesin
de funciones de distribucin y (
X
n
)
n1
la correspondiente sucesin de fun-
ciones caractersticas asociadas. Entonces
X
n
D
X
si y slo si para todo t R

X
n
(t)
X
(t) .
222
Teorema 11.5 Sea X una variable aleatoria. Entonces
X
es continua en
todo punto.
Demostracin. Sea t R y consideremos una sucesin (h
n
)
n1
R tal que
h
n
0. Queremos probar que
lm
n

X
(t +h
n
) =
X
(t) .
Teniendo en cuenta que

X
(t +h
n
) = E(cos ((t +h
n
) X)) +iE(sen((t +h
n
) X)) ,
bastar con probar que si n + entonces
E(cos ((t +h
n
) X)) E(cos (tX)) ,
y
E(sen((t +h
n
) X)) E(sen(tX)) .
Probaremos que E(cos ((t +h
n
) X)) E(cos (tX)) cuando n +, la
otra propiedad es anloga.
Consideremos la sucesin de variables aleatorias
Y
n
= cos ((t +h
n
) X) .
Se comprueba fcilmente que Y
n
est dominada por la variable aleatoria
Z = 1, es decir para todo n
|Y
n
| = |cos ((t +h
n
) X)| 1.
Adems si Y = cos (tX), por la continuidad de la funcin coseno, se tiene
convergencia puntual de Y
n
a Y , es decir para todo
Y
n
() Y ().
Luego, por el Teorema de Convergencia Dominada se obtiene
E(Y
n
) E(Y ) . 2
Observacin. Se puede probar algo ms fuerte:
X
es uniformemente con-
tinua (ver el libro de Barry R. James).
Veamos como opera una funcin caracterstica sobre una transformacin
afn de la variable aleatoria.
223
Propiedad 11.6 Sea X una variable aleatoria e Y = aX+b, con a, b R.
Entonces para todo t R

aX+b
(t) = exp(ibt)
X
(at) .
Demostracin.
Para todo t R se tiene

Y
(t) =
aX+b
(t)
= E(exp(it (aX +b)))
= E(exp(it (aX)) exp(itb))
= exp(ibt) E(exp(i (ta) X))
= exp(ibt)
X
(at) . 2
Ahora queremos caracterizar a las funciones caractersticas a valores
reales. Para esto recordemos el concepto de variable aleatoria simtrica re-
specto del origen. La denicin ms general de simetra respecto de arbi-
trario est dada en la pgina 155.
Decimos que una variable aleatoria X es simtrica respecto del origen si
y slo si para todo x 0 se tiene que
P (X x) = P (X x) . (11.5)
El siguiente teorema permite dar una denicin equivalente.
Teorema 11.6
X
es real sii X es simtrica respecto del origen. En este
caso
X
es par.
Demostracin. Supongamos primero que X sea simtrica respecto del origen.
Como para todo t R

X
(t) = E(cos (tX)) +iE(sen(tX)) ,
para mostrar que
X
es real bastar ver que E(sen(tX)) = 0.
Teniendo en cuenta que si X es simtrica se tiene que F
X
= F
X
, de
manera que E(g (X)) = E(g (X)) para cualquier g medible, entonces si
para cada t R se toma g (x) = sen(tx) se obtiene
E(sen(tX)) = E(sen(tX)) = E(sen(tX)) ,
y por lo tanto E(sen(tX)) = 0.
224
Adems,

X
(t) = E(cos(X(t)))
= E(cos(Xt))
=
X
(t).
Luego
X
es par.
Supongamos ahora que
X
es real, esto es E(sen(tX)) = 0. Entonces
teniendo en cuenta que la funcin coseno es par y la funcin seno impar
tendremos para todo t R

X
(t) = E(cos (tX)) +iE(sen(tX))
= E(cos(tX) ,
y

X
(t) = E(cos (t(X))) +iE(sen(t(X)))
= E(cos(tX)) iE(sen(tX))
= E(cos(tX))
Luego
X
(t) =
X
(t) y entonces por el Teorema 11.3, se obtiene que
F
X
= F
X
y por el Teorema 7.17 que X es simtrica respecto del origen. 2
Denicin 11.7 (Momentos de orden k) Sea X una variable aleatoria.
Denimos el momento de orden k > 0 de X como el nmero

k
= E

X
k

,
cuando este valor existe y el momento absoluto de orden k > 0 de X como
el nmero

k
= E

|X|
k

.
Observacin. Si k es par entonces
k
=

k
. Adems siempre se tiene que

k
< sii

k
< , es decir la integrabilidad absoluta de |X|
k
equivale a la
de X
k
. En particular E(X) =
1
y Var(X) =
2

2
1
.
Teorema 11.7 Si

k
< entonces para todo i < k se tiene

i
< .
Demostracin. Sea i < k. Se tiene
|X|
i
= I
{|X|1}
|X|
i
+I
{|X|>1}
|X|
i
.
225
Como
I
{|X|
i
1}
|X|
i
I
{|X|1}
y
I
{|X|>1}
|X|
i
I
{|X|>1}
|X|
k
|X|
k
obtenemos
|X|
i
I
{|X|1}
+|X|
k
.
Tomando esperanza en ambos miembros resulta

i
P ({|X| 1}) +

k
< ,
y esto demuestra el teorema. 2
11.3. Momentos y funcin caracterstica.
11.3.1. Derivacin dentro del signo esperanza.
Para hacer un desarrollo de Taylor de la funcin caracterstica, nece-
sitaremos hallar sus derivadas. Como la funcin caracterstica est denida
como una esperanza, ser conveniente encontrar condiciones bajo las cuales
se pueda intercambiar el orden en el que se deriva y se toma esperanza.
Sea g(x, t) una funcin de dos variables a valores reales, medible respecto
de la primera variable y derivable respecto de la segunda variable. Sea g
2
denida por
g
2
(x, t) =
g (x, t)
t
.
Sea X una variable aleatoria, entonces para cada t, Y
t
= g (X, t) es
tambin una variable aleatoria. Supongamos que E(|Y
t
|) < y consider-
emos la funcin h(t) = E(Y
t
) = E(g (X, t)) . El siguiente teorema nos da
condiciones sucientes para que h
0
(t) = E(g
2
(X, t)) .
Teorema 11.8 Supongamos que en t = t
0
se cumplen las siguientes condi-
ciones:
(i) existe > 0 y Z variable aleatoria con E(Z) < , tal que
sup
|tt
0
|
{|g
2
(X, t) |} Z,
(ii) para todo x la funcin g
2
(x, t) es continua respecto a la segunda vari-
able en t = t
0
.
Luego h
0
(t
0
) = E(g
2
(X, t
0
)) .
226
Demostracin.
Sea (r
n
)
n1
una sucesin de nmeros reales no creciente que converge a
0 y tal que |r
n
| . Bastar demostrar que
lm
n+
h(t
0
+r
n
) h(t
0
)
r
n
= E(g
2
(X, t
0
)) .
Utilizando el teorema del valor medio existe r

n
= r

n
(X) tal que |r

n
(X)|
r
n
y tal que
g (X, t
0
+r
n
) g (X, t
0
)
r
n
= g
2
(X, t
0
+r

n
(X)) .
Luego
lm
n
h(t
0
+r
n
) h(t
0
)
r
n
= lm
n
E

g (X, t
0
+r
n
) g (X, t
0
)
r
n

= lm
n
E(g
2
(X, t
0
+r

n
(X))) .
Por lo tanto bastar con mostrar que
lm
n
E(g
2
(X, t
0
+r

n
(X))) = E(g
2
(X, t
0
)) . (11.6)
Ahora bien r

n
(X) 0 y por la continuidad de g
2
en t = t
0
,
(g
2
(X, t
0
+r

n
(X)))
n1
converge puntualmente a la funcin g
2
(X, t
0
) . Adems
se cumple que
sup
nN
|g
2
(X, t
0
+r

n
(X))| Z,
con E(Z) < . Luego aplicando el teorema de la convergencia dominada
se obtiene (11.6). 2
11.3.2. Derivadas de la funcin caracterstica y momentos.
Dada una variable aleatoria X, sabemos que
X
(t) = E(exp(itX)) .
Procedamos de manera ingenua, sin preocuparnos por la justicacin, y
derivemos sucesivamente dentro del signo esperanza

(1)
X
(t) = E(iX exp(itX)) = iE(X exp(itX))

(2)
X
(t) = E

i
2
X
2
exp(itX)

= i
2
E

X
2
exp(itX)

.
.
.

(n)
X
(t) = E(i
n
X
n
exp(itX)) = i
n
E(X
n
exp(itX)) .
El siguiente teorema permite justicar estas expresiones.
227
Teorema 11.9 Supongamos que

n
< . Luego se cumple que

(n)
X
(t) = i
n
E(X
n
exp(itX)) . (11.7)
Demostracin. Demostraremos el teorema por induccin en n. Para n = 0
es cierto ya que
X
(t) = Eexp(itX) por denicin. Supongamos que el
teorema es cierto para n. Vamos a demostrar que es cierto para n + 1.
Supongamos que

n+1
< , por el Teorema 11.7 resulta

n
< y luego la
frmula (11.7) es cierta para n. Entonces, tenemos que

(n)
X
(t) = i
n
E(X
n
exp(itX))
= i
n
(E(X
n
cos(tX)) +iE(X
n
sen(tX)). (11.8)
Sea g(x, t) = x
n
cos(tx). Luego g
2
(x, t) = x
n+1
sen(tx) es continua y |g
2
(X, t)|
|X|
n+1
. Como E(|X
n+1
|) < , por el Teorema 11.8 se tendr que si
h(t) = E(X
n
cos(tx)), entonces
h
0
(t) = E(g
2
(X, t))
= E(X
n+1
sen(tX)). (11.9)
Similarmente si h

(t) = E(X
n
sen(tx)), luego
h
0
(t) = E(X
n+1
cos(tX)). (11.10)
Luego por (11.9), (11.10), derivando (11.8) se tendr

(n+1)
X
(t) = i
n
(h
0
(t) +h
0
(t)) (11.11)
= i
n

E(X
n+1
sen(tX)) +iE(X
n+1
cos(tX))

. (11.12)
Multiplicando por i y dividiendo por i se obtiene

(n+1)
X
(t) = i
n+1

(1/i)E(X
n+1
sen(tX)) +E(X
n+1
cos(tX))

,
y usando que 1/i = i

(n+1)
X
(t) = i
n+1

iE(X
n+1
sen(tX)) +E(X
n+1
cos(tX))

= i
n+1
E(X
n+1
exp(itX))
y por lo tanto el teorema queda demostrado. 2.
Corolario 11.1 Supongamos

n
< . Entonces resulta que

(n)
X
(0) = i
n
E(X
n
) .
228
Observemos entonces que de acuerdo al Teorema 11.9 si

n
< resulta

(n)
X
(0) = i
n
E(X
n
)
= i
n

n
.
En particular

0
X
(0) = i
1
(11.13)
y

00
X
(0) =
2
. (11.14)
Ahora estamos en condiciones de probar que la funcin caracterstica de
la distribucin X N(0, 1) es su densidad, salvo una constante.
11.4. Funcin caracterstica de una distribucin
normal.
Para la prueba del Teorema Central de Lmite, necesitamos calcular la
funcin caracterstica de una distribucin normal. Dado que si X N

,
2

se puede escribir como X = Y + , donde Y N(0, 1) de acuerdo a la


Propiedad 11.6, slo se necesitar calcular
X
para el caso = 0 y
2
= 1.
Teorema 11.10 Sea X N(0, 1) . La funcin caracterstica de X es

(t) = exp

1
2
t
2

.
Demostracin. Como X es simtrica respecto del origen,

es real y par.
Consideremos dos variables aleatorias independientes X
1
N(0, 1) , X
2

N(0, 1) y denamos Y = u
1
X
1
+ u
2
X
2
con u
1
0, u
2
0 . Entonces
Y N

0, u
2
1
+u
2
2

.
Podemos expresar a Y como un mltiplo de una variable N(0, 1). En
efecto
Y =
q
u
2
1
+u
2
2
Y
p
u
2
1
+u
2
2
=
q
u
2
1
+u
2
2
Z,
donde
Z =
Y
p
u
2
1
+u
2
2
tiene distribucin N(0, 1).
229
Demostracin. Calcularemos
Y
de dos manera distintas. Por un lado, usando
la Propiedad 11.6

Y
(t) =

u
2
1
+u
2
2
Z
(t) (11.15)
=

q
u
2
1
+u
2
2
t

. (11.16)
Por otro lado siendo Y suma de variables aleatorias independientes, usando
la Propiedad ?? y recordando que u
1
0 y u
2
0, se tiene que

Y
(t) =
u
1
X
1
+u
2
X
2
(t)
=
u
1
X
1
(t)
u
2
X
2
(t) (11.17)
=

(u
1
t)

(u
2
t)
=

q
u
2
1
t

q
u
2
2
t

. (11.18)
De (11.15) y (11.18) se obtiene

q
u
2
1
+u
2
2
t

q
u
2
1
t

q
u
2
2
t

, (11.19)
y haciento t = 1

q
u
2
1
+u
2
2

q
u
2
1

q
u
2
2

. (11.20)
Denamos g

como la composicin de

con la raz cuadrada, es decir


g

(u) =

.
Luego por (11.20) se tiene
g

u
2
1
+u
2
2

= g

u
2
1

u
2
2

.
Luego, si ponemos v
1
= u
2
1
y v
2
= u
2
2
entonces para todo v
1
, v
2
0 obtenemos
g

(v
1
+v
2
) = g

(v
1
) g

(v
2
) . (11.21)
Entonces para todo v 0 se tiene
g

(v) = g

v
2
+
v
2

=

g

v
2

2
0.
Observacin. La Ecuacin (11.21) recuerda la caracterizacin de la dis-
tribucin exponencial como una distrubucin con falta de memoria. Luego
para caracterizar a g

procederemos de igual manera.


230
Por induccin se puede probar que dados v
1
0, v
2
0, . . . , v
n
0
entonces
g

n
X
i=1
v
i
!
=
n
Y
i=1
g

(v
i
) . (11.22)
Luego usando (11.22) se obiene que para todo n natural
g

(n) = g

_
_
1 + 1 + +... + 1
| {z }
n veces
_
_
= [g

(1)]
n
. (11.23)
Usando (11.22) y (11.23) se obtiene que para todo m y n naturales
[g

(1)]
n
= g

(n)
= g

m
n
m

= g

_
_
_
n
m
+
n
m
+... +
n
m
| {z }
m veces
_
_
_
=
h
g

n
m
i
m
,
y entonces
g

n
m

= [g

(1)]
n
m
.
Luego para todo r Q positivo se tiene
g

(r) = [g

(1)]
r
.
Por la continuidad de g

y la densidad de Q en R,se concluye que para todo


x R
0
g

(x) = [g

(1)]
x
.
Ahora veamos que
0 < g

(1) < 1. (11.24)


Como g

(1) es real con 0 g

(1) 1 para demostrar (11.24) se deber


mostrar que g

(1) 6= 0 y que g

(1) 6= 1.
Supongamos que g

(1) = 0. Entonces para todo t R


0

= g

(t) = [g

(1)]
t
= 0.
Esto es absurdo, pues si t = 0 se tendra

(0) = 0 y segn la Propiedad


11.5 resulta que

(0) = 1.
231
Supongamos que g

(1) = 1 entonces

(1) =

= g

(1) = 1.
Ahora como

es real,

(1) = E(cos (X)) . Entonces g

(1) = 1 se puede
escribir como
E(1) = E(cos (X))
luego
E(1 cos (X)) = 0
Pero siendo la variable aleatoria 1 cos (X) no negativa se concluye que
P (cos (X) = 1) = 1.
Esto no puede ser cierto puesto que {x R : cos (x) = 1} es un conjunto
de puntos numerable, de manera que su probabilidad es cero puesto que la
ditribucin normal es absolutamente continua.
Finalmente si ponemos c = log (g

(1)) entonces, c > 0 y g

(1) =
exp(c) . Luego
g

(t) = [g

(1)]
t
= exp(ct) , t 0.
Adems

(t) = g

t
2

= exp

ct
2

, t 0.
Como la funcin

(t) es par se tendr

(t) = exp

ct
2

, t.
Derivando dos veces

)
(1)
(t) = 2ct exp

ct
2

,
(

)
(2)
(t) = 2c exp

ct
2

+ 4c
2
t
2
exp

ct
2

= 2c exp

ct
2

2ct
2
1

,
y evaluando en 0, de acuerdo a (11.14) se tendr
2c = (

)
(2)
(0)
=
2
=

Var (X) +E

X
2

= 1.
Por lo tanto obtenemos que c =
1
2
y el Teorema queda demostrado. 2
232
11.5. Teorema Central del Lmite.
El siguiente lema da el desarrollo de Taylor de la funcin caracterstica
de una variable aleatoria X con E(X) = 0 y Var(X) = 1.
Lema 11.1 Sea X una variable aleatoria con E(X) = 0 y Var(X) = 1.
Entonces

X
(t) = 1
t
2
2
+o
2

t
2

,
donde o
2

t
2

es una funcin tal que


lm
t0
o
2

t
2

t
2
= 0. (11.25)
Demostracin. Sabemos que (0) = 1 y por (11.13) y (11.14) se tiene
0
X
(0) =
0 y
00
X
(0) = 1. Luego usando un desarrollo de Taylor de grado 2 en t = 0
para
X
se tiene

X
(t) =
X
(0) +
0
X
(0)t +
00
X
(0)
t
2
2
+o
2
(t
2
)
= 1
t
2
2
+o
2

t
2

.
donde o
2

t
2

satisface (11.25). Esto demuestra el lema. 2


11.5.1. Caso de variables independientes idnticamente dis-
tribuidas
Teorema 11.11 (Teorema Central del Lmite) Sea (X
n
)
n1
una suce-
sin de variables aleatorias independientes idnticamente distribuidas (i.i.d.)
con varianza nita. Llamemos = E(X
i
) y
2
= Var (X
i
) > 0 . Sean las
sumas parciales
S
n
=
n
X
i=1
X
i
y
Z
n
=
S
n
E(S
n
)
p
Var (S
n
)
. (11.26)
Entonces
Z
n
D
N(0, 1) . (11.27)
Observacin. La expresin (11.26) puede reformularse escribiendo
Z
n
=
X
n
E

X
n

q
Var

X
n

,
233
donde
X
n
=
1
n
n
X
i=1
X
i
es la variable aleatoria promedio aritmtico.
Demostracin. En primer lugar veamos que basta con probar el teorema
suponiendo que = 0 y
2
= 1. Teniendo en cuenta la independencia de las
X
i
y la denicin de S
n
se tiene que
E(S
n
) = n,
Var (S
n
) = n
2
.
Luego (11.26) se puede escribir como
Z
n
=
P
n
i=1
X
i
n

n
=
1

n
n
X
i=1

X
i

=
P
n
i=1
X

n
,
donde
X

i
=
X
i

Claramente las variables X

i
son i.i.d. con E(X

i
) = 0 y Var(X

i
) = 1. Luego
si probamos que el teorema vale para = 0 y
2
= 1 resulta vlido para
y
2
arbitrarios.
Supondremos entonces que = 0 y
2
= 1. De acuerdo al teorema de
continuidad de Levy y al Teorema 11.10, bastar probar que para todo t R
lm
n+

Z
n
(t) = exp

t
2
2

. (11.28)
Sabemos que como = 0 y
2
= 1, por el lema anterior para todo i N se
tiene

X
i
(t) =
X
(t) = 1
t
2
2
+o
2

t
2

,
donde o
2

t
2

es una funcin tal que


lm
t0
o
2

t
2

t
2
= 0. (11.29)
Como las variables X
i
son independientes, podemos aplicar la Propiedad
11.3 de las funciones caractersticas y se tiene que para todo n

Sn
(t) =
n
Y
i=1

X
i
(t) =

1
t
2
2
+o
2

t
2

n
.
234
Finalmente teniendo en cuenta que = 0 y
2
= 1, resulta Z
n
= S
n
/

n.
Luego por la Propiedad 11.6 de las funciones caractersticas se obtiene

Zn
(t) =
Sn

=

1
t
2
2n
+o
2

t
2
n

n
.
De acuerdo a (11.28), bastar ver que la sucesin de funciones
Zn
satisface
lm
n

1
t
2
2n
+o
2

t
2
n

n
= exp

t
2
2

. (11.30)
Para ello escribamos la sucesin de caractersticas del siguiente modo

Z
n
(t) =

1
1
n

t
2
2
o
2

t
2
n

n
,
y luego si llamamos
a
n
=

t
2
2
o
2

t
2
n

,
entonces resulta

Z
n
(t) =

1
a
n
n

n
.
Se conoce del clculo elemental que si a
n
L entonces

1
a
n
n

n
exp(L) .
Por lo tanto, para mostrar (11.30) bastar mostrar que en nuestro caso
L = t
2
/2. Equivalentemente bastar con mostrar que
lm
n
o
2

t
2
n

n 0.
Pero esto resulta de escribir
o
2

t
2
n

n =
o
2

t
2
n

t
2
n
t
2
y de observar que como t
2
/n 0 cuando n , de acuerdo a (11.29) se
tiene
lm
n+
o

t
2
n

t
2
n
= 0.
235
Esto prueba el teorema. 2
Observacin. Teniendo en cuenta que
E

X
n

=
1
n
n =
y
Var

X
n

= n

2
n
=

2
n
,
podemos escribir las variables Z
n
de la siguiente manera
Z
n
=
X
n
E

X
n

q
Var

X
n

n
(X
n
)

.
Luego, de acuerdo a (11.27) tenemos
n
1
2
(X
n
)

D
N(0, 1) . (11.31)
De acuerdo a la Ley Fuerte de los Grandes Nmeros X
n
0 c.s., y por
lo tanto tambin
W
n
= (X
n
)/ 0 c.s.
Adems, recordemos que convergencia casi segura implica convergencia en
distribucin. Al multiplicar W
n
por el factor n
1
2
, de acuerdo a (11.31) deja
de tender a 0 y tampoco tiende innito. Por eso se dice que la velocidad
de convergencia de X
n
a es n
1
2
. Se deja como ejercicio probar que si
multiplicamos a W
n
por n
1
2
+
la sucesin converge a en probabilidad.
Es decir que dado cualquier K > 0, tendremos
lm
n
P(n
1
2
+
|W
n
| > K) = 1
Tambin se deja como ejercicio probar que si multiplicamos a W
n
por n
1
2

con > 0 la sucesin n


1
2
+
W
n
converge en probabilidad a 0. El exponente
1
2
es el la potencia exacta de n por la que hay que multiplicar a W
n
para que
la sucesin n
k
W
n
no converja ni a 0 ni a .
11.5.2. Teorema Central del Lmite para variables no idn-
ticamente distribuidas.
El Teorema Central del Lmite sigue valiendo bajo condiciones menos
restrictivas. Se puede suprimir la hiptesis de que las distribuciones sean
idnticas y an debilitar la hiptesis de la independencia.
236
El Teorema de Lindeberg o Teorema Central del Lmite Fuerte da una
condicin suciente para que una sucesin de variables aleatorias indepen-
dientes no necesariamente idnticamente distribuidas converja en distribu-
cin a la normal estandarizada. Enunciamos este importante teorema sin
demostracin.
Teorema 11.12 (Teorema Central de Lindeberg) Sea (X
n
)
n1
una suce-
sin de variables aleatorias independientes con E(X
i
) =
i
y Var (X
i
) =
2
i
para todo i N, donde
2
i
< y existe al menos un i
0
tal que
2
i
0
> 0. Sea
como antes S
n
=
P
n
i=1
X
i
y llamemos
s
2
n
=
n
X
i=1

2
i
= Var (S
n
) .
Denamos las variable aleatorias centradas
Y
i
= X
i

i
.
Una condicin suciente para que
Z
n
=
S
n
E(S
n
)
p
Var (S
n
)
D
N(0, 1)
es que para todo > 0
lm
n+
P
n
i=1
R
{|y|s
n
}
y
2
dF
Y
i
s
2
n
= 0. (11.32)
Demostracin. Ver el libro citado de Barry R. James.
Observacin. La condicin (11.32) se llama condicin de Lindeberg. Note-
mos que como E(Y
i
) = 0 y Var (Y
i
) = Var (X
i
) =
2
i
, se tiene
s
2
n
=
n
X
i=1

2
i
(11.33)
=
n
X
i=1
Var(Y
i
)
=
n
X
i=1
Z
+

y
2
dF
Y
i
=
n
X
i=1
Z
{|y|<sn}
y
2
dF
Y
i
+
n
X
i=1
Z
{|y|sn}
y
2
dF
Y
i
. (11.34)
Luego, la condicin (11.32) es equivalente a que para todo > 0
237
lm
n
P
n
i=1
R
{|y|<s
n
}
y
2
dF
Y
i
P
n
i=1
R

y
2
dF
Y
i
= 1, (11.35)
lo cual se puede interpretar como que la condicin de Lindeberg implica
que la contribucin de Y
i
a la varianza de S
n
proviene esencialmente de los
valores donde |Y
i
|
2

2
s
2
n
. Si llamamos S

n
=
P
n
i=1
Y
i
como s
2
n
= Var(S
n
) =
Var(S

n
) resulta que la contribucin de Y
2
i
a la Var(S

n
) corresponde bsica-
mente a los puntos donde Y
2
i
< s
2
n
, es decir donde Y
2
i
es pequea respecto
a E(S
2
n
). Esto est diciendo que con alta probabilidad Y
2
i
es pequeo con
respecto a S
2
n
. En particular de (11.32) se deduce que para todo
2
> 0,
existe n
0
() tal que para todo n n
0
Z
{|y|sn}
y
2
dF
Y
i
< s
2
n

2
para todo 1 i n. Por otro lado para todo 1 i n,
Z
{|y|<s
n
}
y
2
dF
Y
i
s
2
n

2
.
Luego para todo 1 i n y n n
0
se tiene

2
i
=
Z
{|y|s
n
}
y
2
dF
Y
i
+
Z
{|y|<s
n
}
y
2
dF
Y
i
< 2s
2
n

2
,
y por lo tanto, para todo n n
0
resulta
max
1in

2
i
P
n
i=1

2
i
< 2
2
.
Luego
lm
n
max
1in

2
i
P
n
i=1

2
i
= 0.
Es decir que la varianza de cada variable, sobre la suma de las varianzas
tiende a 0.
Del teorema central del lmite de Lindeberg se deduce la siguiente versin
del Teorema Central del Lmite.
Teorema 11.13 (Teorema Central del Lmite de Liapunov) Sea (X
n
)
n1
una sucesin de variables aleatorias independientes con E(X
i
) =
i
y var-
ianza Var (X
i
) =
2
i
< tal que para algn i
0
,
2
i
0
> 0. Llamemos Y
i
=
X
i

i
a las variable aleatoria centradas. Una condicin suciente para que
Z
n
=
S
n
E(S
n
)
p
Var (S
n
)
D
N(0, 1)
238
es que exista > 0 tal que
lm
n+
P
n
i=1
E

|Y
i
|
2+

s
2+
n
= 0. (11.36)
Demostracin. Tenemos que
Z
{|y|s
n
}
y
2
dF
Y
i
=
Z
{|y|s
n
}
|y|
2+
|y|

dF
Y
i

n
Z
{|y|s
n
}
|y|
2+
dF
Y
i

E(|Y
i
|
2+
)

n
y luego
n
X
i=1
Z
{|y|sn}
y
2
dF
Y
i

1

n
n
X
i=1
E

|Y
i
|
2+

.
Dividiendo por s
2
n
se tiene
P
n
i=1
R
{|y|sn}
y
2
dF
Y
i
s
2
n

1

s
2+
n
n
X
i=1
E(|Y
i
|
2+
),
y por lo tanto por la condicin (11.36)
lm
n
P
n
i=1
R
{|y|sn}
y
2
dF
Y
i
s
2
n
= 0. (11.37)
que es la condicin de Lindeberg. 2
Esta condicin es til cuando las variables tienen momentos nitos de
orden mayor que dos. La condicin (11.36) se denomina la Condicin de
Liapunov.
Ejemplo. Consideremos ahora una sucesin de variables aleatorias (Y
n
)
n1
,
donde Y
n
tiene distribucin Bi (n, p) . Podemos pensar a Y
n
como el nmero
de xitos en n experimentos independientes realizados bajo las mismas condi-
ciones, donde la probabilidad de xito es p. Luego podemos escribir
Y
n
=
n
X
i=1
X
i
,
donde
X
i
=

1 si el i-simo experimento resulta xito
0 si el i-simo experimento resulta fracaso.
239
Claramente las variables X
i
son independientes e idnticamente distribuidas.
Sabemos que P (X
i
= 1) = p y P (X
i
= 0) = 1 p, E(X
i
) = p y Var (Y
i
) =
p (1 p) . Luego, estamos en condiciones de aplicar el Teorema Central del
Lmite para variables i.i.d. Entonces
Y
n
E(Y
n
)
p
Var (Y
n
)
=
Y
n
np
p
np (1 p)
D
N(0, 1) .
Se puede probar que para n = 20 la distribucin normal es una buena aprox-
imacin de la binomial, de manera que a nes prcticos se pueden usar tablas
normales para calcular probabilidades binomiales, si n es sucientemente
grande.
11.5.3. Una Aplicacin a la Binomial.
Se realiza una encuesta para determinar el porcentaje p de votantes que
va a votar a un partido C determinado. Se toma una muestra al azar de
n votantes y se los encuesta acerca de su intencin de voto. Designemos
mediante X
i
a la variable que toma el valor 1, si la intencin declarada del
encuestado i es votar al partido C y X
i
= 0 en caso contrario. Claramente
P(X
i
= 1) = p.
La variable
S
n
=
n
X
i=1
X
i
da la cantidad de encuestados que dicen votar al partido C. La variable Y
n
tiene distribucin Bi(n, p).
Como desconocemos el parmetro p, podemos estimarlo a partir del
promedio
b p
n
= X
n
=
P
n
i=1
X
i
n
.
Como E(X
i
) = p, por la ley de los grandes nmeros tendremos X
n
p
c.s. Lo que queremos saber es cuan grande tiene que ser n para lograr una
precisin determinada en nuestra estimacin de p con cierta probabilidad.
Ms precisamente jemos una cota e para el error de estimacin E
n
= X
n
p
(por ejemplo e = 0,05) y supongamos que queremos conocer aproximada-
mente la probabilidad de que |E
n
| e, es decir P(|E
n
| e).
Sabemos que
Z
n
=
S
n
np
p
np (1 p)
=
P
n
i=1
X
i
np
p
np (1 p)
=

n
X
n
p
p
p (1 p)
D
N(0, 1) .
240
Llamemos
a
n
=

ne
p
p (1 p)
, (11.38)
y a la funcin de distribucin de una variable N(0, 1). Luego, como la
distribucin de Z
n
se comporta aproximadamente como la de una N(0, 1)
para n grande, tenemos
P(|E
n
| e) = P(|X
n
p| e)
= P

n
|X
n
p|
p
p (1 p)


ne
p
p (1 p)
!
= P(|Z
n
| a
n
)

= (a
n
) (a
n
)
= (a
n
) (1 (a
n
))
= 2(a
n
) 1,
donde el signo

= indica aproximadamente. Supongamos ahora que quere-
mos saber qu tamao de muestra se requiere para que P(|E
n
| e) sea
aproximadamente 1 , donde es un nmero pequeo, por ejemplo 0,05.
Entonces se requerir un valor n tal que
2(a
n
) 1 = 1 ,
o equivalentemente
a
n
=
1

1

2

.
Reemplazando a
n
de acuerdo a (11.38) tendremos

ne
p
p (1 p)
=
1

1

2

,
o equivalentemente
n =
p(1 p)

1

2

2
e
2
.
Como p es desconocido podemos acotar la expresin de la derecha utilizando
el valor de p ms desfavorable. Hallemos dicho valor. Como n depende en
forma creciente de g(p) = p(1 p) deberamos elegir el mximo de est
funcin para 0 p 1. Observemos que g
0
(p) = 1 2p, de modo que el
nico punto crtico es p = 1/2 , y como g
00
(p) = 2 < 0 corresponde a un
mximo relativo. Como en los extremos g(0) = g(1) = 0 y g(1/2) = 1/4,
resulta que el mximo absoluto de g se alcanza en p = 1/2 y vale 1/4. Luego
bast tomar n igual a
n =

1

2

2
4e
2
.
241
Por ejemplo si e = 0,05 y = 0,05, buscando en la tabla normal se
tendr que
1
(1 /2) =
1
(0,975) = 1,96, y luego
n =

1

2

2
4e
2
= 384,16.
Luego, como n tiene que ser entero, bastar tomar n = 385.
El valor n calculado nos asegura la probabilidad deseada, pero dado
que se reemplaz p(1 p) por una cota superior, este valor de n hallado
puede ser ms grande que el estrictamente necesario. En la Seccin siguiente
veremos un teorema que nos permitir reemplazar a p(1p) por la estimacin
X
n
(1 X
n
).
11.6. Teorema de Slutsky.
El siguiente teorema tiene numerosas aplicaciones en Estadstica.
Teorema 11.14 (Teorema de Slutsky) Sean (X
n
)
n1
e (Y
n
)
n1
dos suce-
siones de variables aleatorias tales que X
n
D
X e Y
n
P
c, donde X es una
variable aleatoria y c una constante. Entonces se tiene
(i) X
n
+Y
n
D
X +c,
(ii) X
n
Y
n
D
cX,
(iii) Si c 6= 0 entonces,
X
n
Y
n
D

X
c
.
Para probar el el Teorema 11.14 necesitaremos probar previamente los
Teoremas 11.15-11.20.
Teorema 11.15 Sea (X
n
)
n1
una sucesin de variables aleatorias tales que
X
n
D
X donde X es otra variable aleatoria. Entonces para toda constante
a R, se tiene aX
n
D
aX.
Demostracin. La demostracin la haremos distinguiendo tres casos: (i) a =
0, (ii) a > 0 y (iii) a < 0.
(i) Si a = 0, entonces es claro que aX = aX
n
= 0 y por lo tanto el
teorema se cumple.
242
(ii) Sea a > 0. Queremos probar que para todo punto x de continuidad de
F
aX
vale que
lm
n+
F
aX
n
(x) = F
aX
(x) .
Calculamos la funcin de distribucin de aX
n
F
aXn
(x) = P (aX
n
x)
= P

X
n

x
a

= F
X
n

x
a

,
y de manera anloga, la funcin de distribucin de aX
F
aX
(x) = F
X

x
a

.
Entonces x es un punto de continuidad de F
aX
si y slo si
x
a
lo es
de F
X
. Ahora bien, como X
n
D
X vale que para todo x punto de
continuidad de F
X
lm
n
F
X
n
(x) = F
X
(x) .
En particular eso vale para
x
a
. Esto demuestra el caso (ii) a > 0.
(iii) Sea a < 0. Este caso resulta ms complicado de probar. Probaremos
en primer lugar que vale para a = 1 y despus pasaremos al caso
general. Queremos probar que si X
n
D
X entonces X
n
D
X.
En primer lugar es fcil ver que en general si X es una variable aleatoria
P (X < a) = F
X
(a

) , donde F
X
(a

) es el lmite de F
X
(x), cuando x
tiende a a por la izquierda. Para eso basta con observar que
{X < a} =

[
n=1
{X a
1
n
}.
La sucesin de conjuntos C
n
= {X a
1
n
} es montona creciente y
por lo tanto
P (X < a) = lm
n
P

X a
1
n

= lm
n+
F
X

a
1
n

= F
X

a

.
243
Calcularemos ahora F
X
y F
X
n
Por un lado
F
X
(x) = P (X x)
= P (X x)
= 1 P (X < x)
= 1 F
X

(x)

.
Por otro lado y de manera anloga
F
X
n
(x) = 1 F
X
n

(x)

.
Entonces tenemos que probar que si x es un punto de continuidad de
F
X
entonces
lm
n

1 F
X
n

(x)

= 1 F
X

(x)

,
o equivalentemente tenemos que probar que si x es un punto de con-
tinuidad de F
X
entonces
lm
n
F
X
n

(x)

= F
X

(x)

. (11.39)
ComoF
X
est denida como
F
X
(x) = 1 F
X

(x)

,
resulta que x es un punto de de continuidad de F
X
si y slo si x lo
es de F
X
. Por lo tanto en los puntos donde F
X
es continua vale que
F
X

(x)

= F
X
(x) . Por lo tanto (11.39) es equivalente a que
lm
n
F
Xn

(x)

= F
X
(x) , (11.40)
en los puntos x para los cuales x es un punto de continuidad de F
X
.
Como x puede ser cualquiera, esto es equivalente a que
lm
n
F
X
n

= F
X
(x) , (11.41)
para todo punto x que sea de continuidad de F
X
.
Por la monotona de F
X
n
se tiene que F
X
n
(x

) F
X
n
(x) . Entonces
tomando lmite superior en ambos miembros y recordando que la
hiptesis de convergencia en distribucin implica que lm
n
F
Xn
(x) =
F
X
(x) se obtiene
lmF
X
n

lmF
X
n
(x)
= lm
n
F
X
n
(x)
= F
X
(x) . (11.42)
244
Observemos que como F
X
es continua en x entonces dado > 0 existe
> 0 tal que F
X
(x) < F
X
(x ) . Como el conjunto de puntos
de discontinuidad de F
X
es a lo sumo numerable, podemos elegir x
de forma tal que F
X
sea continua en x . Por la monotona de F
Xn
resulta
F
X
n

F
X
n
(x ) .
Tomando lmite inferior y recordando que x es un punto de con-
tinudad de F
X
se obtiene
lmF
X
n

lmF
X
n
(x )
= lm
n
F
Xn
(x )
= F
X
(x )
> F
X
(x) .
Ahora haciendo que 0 se tiene
lmF
Xn

F
X
(x) . (11.43)
Por lo tanto de (11.42) y (11.43) resulta
lmF
Xn

F
X
(x) lmF
Xn

.
Pero como siempre ocurre que lmF
X
n
(x

) lmF
X
n
(x

) , resulta
que
lmF
X
n

= F
X
(x) = lmF
X
n

,
y entonces necesariamente existe lmF
X
n
(x

) y adems
lmF
Xn

= F
X
(x) .
Esto demuestra (11.41).
Ahora probaremos el Teorema para cualquier a < 0. Para eso escribi-
mos
aX
n
= (a) (X
n
) .
Entonces por un lado como X
n
D
X se tiene que X
n
D
X
. Por otro lado si a < 0 entonces a > 0 y por el caso (i) aX
n
=
(a) (X
n
)
D
(a) (X) = aX. 2
Denicin 11.8 Sea (X
n
)
n1
una sucesin de variables aleatorias. Dec-
imos que la sucesin est acotada uniformemtne en probabilidad si dado
> 0 existe K > 0 tal que
P (|X
n
| K) 1 .
245
Observacin. Recordemos que hemos probado, en el Teorema 10.6 en la
pgina 201 que si X
n
P
X entonces dado > 0 existe K > 0 tal que para
todo n N
P (|X
n
| K) 1
y
P (|X| K) 1 .
Esto signica que si una sucesin (X
n
)
n1
converge en probabilidad est
acotada uniformemente en probabilidad.
Para la convergencia en distribucin se tiene un resultado anlogo.
Teorema 11.16 Sea (X
n
)
n1
una sucesin de variables aleatorias y X otra
variable aleatoria tal que X
n
D
X. Entonces dado > 0 existe K
0
> 0 tal
que para todo n N
P (|X
n
| K
0
) 1
y
P (|X| K
0
) 1 .
Demostracin. Por el Teorema 10.5 sabemos que dado > 0 existe K > 0
tal que
P (|X| K) 1

2
.
Observemos que si para cierto K > 0 vale la desigualdad, entonces tambin
vale para cualquier K
1
> K. En efecto, como
{|X| K} {|X| K
1
},
tomando probabilidades se tiene
1 P (|X| K) P (|X| K
1
) .
Luego, como el conjunto de puntos de discontinuidad de F
X
es a lo sumo
numerable, podemos elegir K de forma tal que F
X
sea continua en K y en
K. Entonces
P (|X| K) = P (K X K)
= P (K < X K)
= F
X
(K) F
X
(K) (11.44)
1

2
. (11.45)
Teniendo en cuenta la convergencia en distribucin de X
n
a X, resulta
lm
n
F
Xn
(K) = F
X
(K) ,
246
y
lm
n
F
X
n
(K) = F
X
(K) .
Por denicin de lmite existe n
1
N tal que si n n
1
entonces
F
X
n
(K) > F
X
(K)

4
(11.46)
y tambin n
2
N tal que si n n
2
entonces
F
Xn
(K) < F
X
(K) +

4
(11.47)
Luego tenemos
P (|X
n
| K) = P (K X
n
K)
P (K < X
n
K)
= F
Xn
(K) F
Xn
(K) . (11.48)
Sea n
0
= m ax{n
1
, n
2
}. Luego de (11.44), (11.46), (11.47) y (11.48) resulta
que si n n
0
se tiene
P (|X
n
| K) F
Xn
(K) F
Xn
(K)
> F
X
(K)

4

F
X
(K) +

4

F
X
(K) F
X
(K)

2
1

2


2
= 1 .
Luego hemos conseguido la acotacin requerida para X y X
n
con n n
0
.
Finalmente para cada 1 j n
0
1, podemos encontrar un nmero K
j
> 0
tal que P (|X
j
| K
j
) 1 . Entonces si ponemos
K
0
= m ax{K, K
1
, K
2
, ..., K
n
0
1
}
se cumple
P (|X
n
| K
0
) 1 , n
y
P (|X| K
0
) 1 . 2
Teorema 11.17 Sea (X
n
)
n1
una sucesin de variables aleatorias uniforme-
mente acotada en probabilidad y supongamos que Y
n
P
0, entonces
X
n
Y
n
P
0.
247
Demostracin. Utilizado las dos hiptesis dado > 0 existe K > 0 tal que
P (|X
n
| K) 1

2
y n
0
N tal que para todo n n
0
se tiene
P

|Y
n
|

2K

<

2
.
Ahora observemos que
{|X
n
Y
n
| > } {|X
n
| > K} {|Y
n
|

K
},
ya que si |X
n
| K y |Y
n
| < /K entonces |X
n
Y
n
| .
Tomando probabilidades tenemos que para todo n n
0
resulta
P ({|X
n
Y
n
| > }) P ({|X
n
| > K}) +P

{|Y
n
|

K
}

<

2
+

2
= .
Esto prueba el teorema. 2
Teorema 11.18 Sean (X
n
)
n1
e (Y
n
)
n1
dos sucesiones de variables aleato-
rias y X otra variable aleatoria tal que X
n
D
X e Y
n
P
0. Entonces
X
n
+Y
n
D
X.
Demostracin.
Queremos probar que si x es un punto de continuidad de F
X
entonces
lm
n+
F
X
n
+Y
n
(x) = F
X
(x) .
Sea > 0. Dado que el nmero de puntos de discontinuidad de F
X
es a lo
sumo numerable, siempre podemos elegir 0 <
1
< tal que x+
1
sea punto
de continuidad de F
X
. Luego tenemos
{X
n
+Y
n
x} {X
n
x +
1
} {|Y
n
| >
1
}
pues si X
n
> x +
1
y |Y
n
|
1
entonces X
n
+Y
n
> x.
Tomando probabilidades en ambos miembros obtenemos
F
X
n
+Y
n
(x) F
X
n
(x +
1
) +P (|Y
n
| >
1
) . (11.49)
Como
lm
n
F
Xn
(x +
1
) = F
X
(x +
1
),
248
y
lm
n
P (|Y
n
| >
1
) = 0,
tomando lmite superior en (11.49) se obtiene
lmF
X
n
+Y
n
(x) lm[F
X
n
(x +
1
) +P (|Y
n
| >
1
)]
= lm
n
F
Xn
(x +
1
) + lm
n
P (|Y
n
| >
1
)
= F
X
(x +
1
)
F
X
(x +).
Haciendo 0 resulta
lmF
Xn+Yn
(x) F
X
(x) . (11.50)
Tomemos ahora 0 <
1
< y tal que x
1
sea un punto de continuidad de
F
X
. Observemos que tambin vale
{X
n
x
1
} {X
n
+Y
n
x} {|Y
n
| >
1
},
ya que X
n
+Y
n
> x y |Y
n
| equivale a X
n
+Y
n
> x y Y
n
de
manera que sumando obtenemos X
n
> x .
Tomando probabilidades resulta
F
X
n
(x
1
) F
X
n
+Y
n
(x) +P(|Y
n
| >
1
),
y pasando al lmite inferior, como x
1
es un punto de continuidad de F
X
se obtiene
F
X
(x
1
) lmF
X
n
+Y
n
(x).
Adems, como
F
X
(x ) F
X
(x
1
),
resulta
F
X
(x ) lmF
X
n
+Y
n
(x) .
Luego tomando lmite cuando 0, y dado que F
X
es continua en x,
tenemos
F
X
(x) lmF
Xn+Yn
(x) . (11.51)
De (11.50) y (11.51) se obtiene
lmF
X
n
+Y
n
(x) F
X
(x) lmF
X
n
+Y
n
(x) ,
y esto implica que
lm
n
F
X
n
+Y
n
(x) = F
X
(x) . 2
249
Teorema 11.19 Sea (X
n
)
n1
una sucesin de variables aleatorias y X otra
variable aleatoria tal que X
n
D
X. Si a es constante, entonces
X
n
+a
D
X +a.
Demostracin. Tenemos
F
X
n
+a
(x) = P (X
n
+a x)
= P (X
n
x a)
= F
X
n
(x a) ,
y
F
X+a
(x) = P (X +a x)
= P (X x a)
= F
X
(x a) .
Por lo tanto si x es un punto de continuidad de F
X+a
entonces x a es
un punto de continuidad de F
X
de manera que aplicando la hiptesis y lo
anterior resulta
lm
n+
F
Xn+a
(x) = lm
n+
F
Xn
(x a)
= F
X
(x a)
= F
X+a
(x) . 2
Teorema 11.20 Sea (X
n
)
n1
una sucesin de variables aleatorias tal que
X
n
P
c, donde c es una constante. Luego si g es una funcin medible
continua en c, se tiene
Y
n
= g(X
n
)
P
g(c).
Demostracin. Dado > 0 existe > 0 tal que |x c| implica |g(x)
g(c)| . Luego
{|g(x) g(c)| > } {|x c| > }.
En particular
{|g(X
n
) g(c)| > } {|X
n
c| > }.
y tomando probabilidades y lmites obtenemos
lm
n
P(|g(X
n
) g(c)| > ) lm
n
P(|X
n
c| > ) = 0.
250
Luego
lm
n
P(|g(X
n
) g(c)| > ) = 0,
y el teorema queda probado. 2
Ahora estamos en condiciones de probar el Teorema de Slutzky, enunci-
ado en la pgina 242.
Demostracin.
(i) Podemos escribir
X
n
+Y
n
= (X
n
+c) + (Y
n
c) .
Sabemos por el Teorema 11.19 que
X
n
+c
D
X +c,
e
Y
n
c
P
0.
y aplicando el Teorema 11.18
X
n
+Y
n
D
X +c.
(ii) Escribimos el producto de la siguiente manera
X
n
Y
n
= cX
n
+ (Y
n
c) X
n
.
Sean
Z
n
= (Y
n
c) X
n
,
y
U
n
= cX
n
.
Por un lado sabemos que (Y
n
c)
P
0 y que la sucesin (X
n
)
n1
est uniformemente acotada en probabilidad, entonces aplicando el
Teorema 11.17 se tiene que
Z
n
P
0,
y aplicando el Teorema 11.15
U
n
D
cX.
Finalmente, aplicando el Teorema 11.18
X
n
Y
n
= U
n
+Z
n
D
cX.
251
(iii) Como c 6= 0 y la funcin g(y) = 1/y es continua en y = c, resulta por
el Teorema 11.20 que
1
Y
n
P

1
c
.
Luego como
X
n
Y
n
=

1
Y
n

X
n
.
(iii) resulta aplicando (ii). 2
Para ver cmo se usa el Teorema de Slutsky en casos particulares, re-
tomemos la aplicacin del Teorema Central del Lmite a la binomial, pre-
sentada en la seccin 11.5.3.
Sea
X
i
=

1 si el isimo encuestado declara votar al partido C
0 si el isimo encuestado declara no votar al partido C
y sea P(X
i
= 1) = p, siendo p el parmetro de inters que es desconocido.
Luego habamos demostrado que
Z
n
=
Y
n
np
p
np (1 p)
=

n
X
n
p
p
p (1 p)
D
N(0, 1) ,
donde
Y
n
=
n
X
i=1
, X
n
=
Y
n
n
Por la Ley Dbil de los Grandes Nmeros sabemos que
X
n
P
p.
Como la funcin g (p) = p (1 p) es continua, por el Teorema 10.7 resulta
que
X
n
(1 X
n
)
P
p (1 p) .
Luego resulta que

n
X
n
p
q
X
n
(1 X
n
)
D
N(0, 1) .
Ahora daremos una aplicacin de estos conceptos resolviendo el siguiente
problema de Estadstica.
252
11.7. Aplicacin a intervalos de conanza.
Problema: Sea X una variable aleatoria cuya funcin de distribucin F
desconocemos. Por ejemplo, puede tratarse del peso de una lata de arvejas
que es una variable aleatoria que vara de lata en lata. La distribucin de
X no tiene por qu ser normal. Sean = E(X) y
2
= Var (X) parmet-
ros que dependen de F y que supondremos desconocidos. En estadstica se
los denomina parmetros poblacionales. Se toma una muestra aleatoria de
tamao n y se obtienen las variables aleatorias X
1
, X
2
, ..., X
n
. Estas vari-
ables sern independientes e identicamente distribuidas con distribucin F.
El problema consiste en estimar el parmetro desconocido a partir de las
variables observadas y precisar la magnitud del error que se puede estar
cometiendo.
Como por la ley fuerte de los grandes nmeros se tiene que X
n
c.s.,
podemos tomar como estimacin del parmetro el promedio aritmtico de
la muestra, es decir, X
n
b
n
= X
n
.
Para n grande este valor estar prximo a la media verdadera , y el
error cometido en esta aproximacin ser
E
n
= X
n
.
As, el error resulta una variable aleatoria. Un problema natural es tratar
de encontrar, para un valor de n determinado, una cota para el mdulo del
error, con una alta probabilidad.
Teniendo en cuenta que la varianza se dene
2
= E

X
2

[E(X)]
2
podemos estimar la varianza de la siguiente manera
b
2
n
=
P
n
i=1
X
2
i
n

(
P
n
i=1
X
i
)
2
n
.
Usando la ley de los grandes nmeros se tendr que
P
n
i=1
X
2
i
n
E(X
2
) c.s.,
y
X
n
=
P
n
i=1
X
i
n
E(X) c.s.
Luego como el cuadrado es una funcin continua se tendr
b
2
n
E(X
2
) E
2
(X) =
2
c.s.,
y por lo tanto,
b
n
c.s.
253
y
b
n
P
.
Por el Teorema Central del Lmite

n
X
n

D
N(0, 1) . (11.52)
Como sabemos que b
n
P
, se tendr

b
n
P
1. (11.53)
Luego teniendo en cuenta (11.52) y (11.53), y aplicando el teorema de
Slutzky resulta
Z
n
=

n
X
n

b
n
=

n
X
n


b
n
D
N(0, 1) .
Es decir, si se reemplaza a por su estimador b
n
en (11.52), la convergencia
en distribucin no cambia.
Ahora consideremos un valor , 0 < < 1 que en estadstica recibe
el nombre de nivel de signicacin, generalmente se toma = 0, 01 o bien
= 0, 05. Buscamos en la tabla de la distribucin normal un valor z
/2
tal
que P(Z > /2) = /2 donde Z es una variable N(0, 1). Luego por simetra
tambin se tendr P

Z < z
/2

=

2
.
Ahora bien si Z
n
D
Z con Z N(0, 1) entonces tambin Z
n
D
Z.
Como Z tambin es N(0, 1) tenemos que para n grande
P

z
/2
Z
n
z
/2

1 ,
donde indica aproximadamente es decir
P

z
/2

n
X
n
b
n
z
/2

1 ,
y despejando
P

X
n

z
/2
b
n

n
X
n
+
z
/2
b
n

1 . (11.54)
Luego jando se puede garantizar que la probabilidad de que se
encuentre en el intervalo de extremos aleatorios

X
n

z
/2
b
n

n
; X
n
+
z
/2
b
n

.
es aproximadamente 1 . Este intervalo se llama intervalo de conanza
para . Obsrvese que hay dos parmetros que pueden variar, el nivel de
254
signicacin y el tamao de la muestra n. Cuando decrece z
/2
aumen-
ta y consecuentemente aumenta la longitud intervalo de conanza. Como
contrapartida tambin aumenta la probabilidad que contenga a . En cam-
bio cuando n crece y se mantiene el constante, la longitud del intervalo
decrece, tendiendo a 0 cuando n tiende a innito.
Obsrvese que otra manera de escribir (11.54) es la siguiente
P

|E
n
|
z
/2
b
n

1 .
Es decir, tenemos acotado el error |E
n
| por z
/2
b
n
/

n con probabilidad
aproximada 1 .
11.8. Un teorema til de Convergencia en Dis-
tribucin
En primer lugar recordemos que si (X
n
)
n1
es una sucesin de variables
aleatorias i.i.d entonces

n
X
n

D
N(0, 1) ,
o equivalentemente por el Teorema 11.15

X
n

D
N

0,
2

.
Sea g una funcin continua en . Parece natural preguntarse si

n(g(X
n
)
g()) converge en distribucin y en caso de que as sea a qu distribucin
converge. El siguiente teorema responde esta pregunta.
Teorema 11.21 Sea (Y
n
)
n1
una sucesin de variables aleatorias y (a
n
)
n1
una sucesin de nmeros reales tal que a
n
. Supongamos que la sucesin
de variables aleatorias a
n
(Y
n
)
D
X. Sea g : R R una funcin con
derivada continua en un entorno de .
(i) Entonces
W
n
= a
n
(g (Y
n
) g ())
D
g
0
() X.
(ii) Si X N

0,
2

entonces g
0
() X N

0, [g
0
(u)]
2

. Este resulta-
do vale an cuando g
0
() = 0 si la distribucin N(0, 0) se interpreta
como la distribucin de la variable constantemente igual a cero.
255
Demostracin.
(i) Por el Teorema 11.16, la sucesin a
n
(Y
n
) est uniformemente aco-
tada en probabilidad. Si consideramos la sucesin (a
n
)
n1
de nmeros
reales como una sucesin de variables aleatorias constantes, es claro
que
1
a
n
P
0.
Luego de acuerdo al Teorema 11.17 resulta
(Y
n
) =
1
a
n
(a
n
(Y
n
))
P
0,
o equivalentemente
Y
n
P
.
Como g es continua y derivable en un entorno de podemos aplicar
el Teorema del Valor Medio y encontrar un punto intermedio
n
entre
Y
n
y tal que
W
n
= a
n
g
0
(
n
) (Y
n
) .
Adems como Y
n
P
resulta que la sucesin de variables aleatorias
(
n
)
n1
tambin satisface
n
P
. Por la continuidad de g
0
y el Teore-
ma 11.20 se tiene
g
0
(
n
)
P
g
0
() .
Aplicando la parte (ii) del Teorema de Slutzky se obtiene
W
n
= g
0
(
n
) Z
n
g
0
() X.
(ii) Se deduce de (i) pues si X N

0,
2

, entonces g
0
() X N

0, [g
0
()]
2

. 2
256
Captulo 12
Procesos de Poisson.
12.1. Procesos de punto.
Supongamos que se observan sucesos que ocurren a lo largo del tiempo
en forma aleatoria. Por ejemplo, los sucesos pueden ser la llegada de clientes
a un negocio, las llamadas telfonicas que llegan a una central, la emisin
de partculas que realiza un cierto material radioactivo, etc.
Ms formalmente, para cada valor t 0, denominemos X (t) la cantidad
de sucesos que ocurrieron desde un instante inicial 0 hasta t. Luego, supon-
dremos que para cada t, X (t) es una variable aleatoria que toma valores
enteros no negativos. Adems tendremos naturalmente que X(0) = 0, y que
si t
1
< t
2
, entonces X(t
1
) X(t
2
). Todas las variables aleatorias X(t), t 0
estarn denidas sobre un mismo espacio de probabilidad (, A, P), pero
como la construccin de este espacio es sumamente complicada no daremos
detalles sobre el mismo. Digamos solamente que un posible espacio muestral
puede estar dado por
= { : R
0
N
0
: es no decreciente y continua a derecha}.
Luego X puede pensarse entonces dependiendo de t R
0
y
, X(t) |

= X (t, ) = (t)
Los procesos X (t) que miden la candidad de sucesos que ocurren hasta
el tiempo t, se denominan procesos de punto.
12.2. Axiomtica de los Procesos de Poisson
Los procesos de Poisson, son procesos de punto particulares que satis-
facen los siguientes cuatro axiomas.
A1. Homogeneidad.
257
Supongamos que 0 t
1
< t
2
, 0 t
3
< t
4
y adems t
4
t
3
= t
2
t
1
.
Entonces las variables aleatorias
X (t
2
) X (t
1
) y X (t
4
) X (t
3
)
tienen la misma distribucin. Observando que X (t
2
) X (t
1
) es el
nmero de sucesos que ocurrieron entre t
1
y t
2
, este axioma signica
que la distribucin del nmero de sucesos ocurridos en un perodo de
tiempo, depende slo de la longitud de ese perodo.
A2. Independencia.
Consideremos dos periodos de tiempo esencialmente disjuntos (a lo
sumo pueden tener en comn un punto) [t
1
, t
2
] , [t
3
, t
4
], t
1
< t
2
t
3
<
t
4
. Entonces las variables aleatorias
X (t
2
) X (t
1
) y X (t
4
) X (t
3
)
son independientes. Esto signica que el nmero de sucesos que ocurre
en un perodo de tiempo de tiempo [t
1
, t
2
] es independiente del nmero
de sucesos que ocurre en el perodo [t
3
, t
4
], donde t
3
t
2
. Luego el
hecho de tener informacin sobre el nmero de sucesos del perodo
[t
1
, t
2
] no aporta datos que ayuden a predecir el nmero de sucesos
del perodo [t
3
, t
4
]. Los perodos considerados no tienen por qu ser de
igual longitud.
Los axiomas A3 y A4 son de carcter ms tcnico que los anteriores.
A3. Sea
g
1
(t) = P (X (t) = 1) ,
entonces
g
0
1
(0) = > 0,
es decir
lm
t0
P (X (t) = 1)
t
= > 0.
Esto es equivalente a que
P (X (t) = 1) = t +o
1
(t) , (12.1)
donde
lm
t0
o
1
(t)
t
= 0. (12.2)
A4.
lm
t0
P (X (t) > 1)
t
= 0,
258
o equivalentemente existe o
2
(t) tal que
P (X (t) > 1) = o
2
(t) , (12.3)
donde o
2
satisface
lm
t0
o
2
(t)
t
= 0. (12.4)
Para modelar un proceso real como un proceso de Poisson se requiere
de la vericacin de este conjunto de axiomas. Existen muchos procesos
concretos que no responden a este modelo.
12.3. Distribucin de un proceso de Poisson.
El siguiente teorema caracteriza la distribucin de los procesos de Pois-
son.
Teorema 12.1 Si X (t) es un proceso de punto que satisface A1, A2, A3 y
A4 entonces X (t) tiene distribucin de Poisson con parmetro t, es decir
X (t) P (t) .
Demostracin. Para cada n dividimos el intervalo [0, t] en n subintervalos de
igual longitud que denominaremos I
n
i
, 1 i n. Ms precisamente consid-
eramos la particin regular del interval [0, t] con n + 1 puntos

n
=

0,
t
n
,
2t
n
, ...,
(n 1) t
n
, t

.
Esta particin determina n subintervalos
I
n
i
=

(i 1) t
n
,
it
n

, 1 i n.
El nmero de sucesos que ocurre en I
n
i
es
V
n
i
= X

it
n

(i 1) t
n

.
Por A1, las variables V
n
i
, 1 i n, tienen la misma distribucin que
X(t/n) = V
n
1
y por el axioma A2 son independientes.
Para cada i denimos el vector aleatorio
Z
n
i
= (Z
n
i1
, Z
n
i2
, Z
n
i3
)
donde
Z
n
i1
=

1 si V
n
i
= 0
0 si V
n
i
6= 0,
259
Z
n
i2
=

1 si V
n
i
= 1
0 si V
n
i
6= 1,
Z
n
i3
=

1 si V
n
i
> 1
0 si V
n
i
1.
El evento Z
n
i1
= 1 indica que en el intervalo I
n
i
no ocurri ningn suceso,
Z
n
i2
= 1 que ocurri slo uno, y Z
n
i3
= 1 que ocurri ms de uno. Es claro
que siempre ocurre una y slo una de esas tres posibilidades y por lo tanto
Z
n
i1
+Z
n
i1
+Z
n
i1
= 1.
Por otro lado, la distribucin del vector Z
n
i
es multinomial, digamos con
parmetros de probabilidad p
1n
, p
2n
, p
3n
y para una nica repeticin. Luego
Z
n
i
M (p
1n
, p
2n
, p
3n
, 1) ,
donde
p
1n
= P

X

t
n

= 0

,
p
2n
= P

X

t
n

= 1

,
p
3n
= P

X

t
n

> 1

.
Usando (12.2) y (12.3) resulta
p
2n
=
t
n
+o
1

t
n

, (12.5)
y
p
3n
= o
2

t
n

. (12.6)
Finalmente
p
1n
= 1 p
2n
p
3n
(12.7)
= 1
t
n
o
1

t
n

o
2

t
n

= 1
t
n
o
3

t
n

, (12.8)
donde
o
3
(t ) = o
1
(t ) +o
2
( t) .
Claramente, de (12.2) y (12.3) resulta
lm
t0
o
3
(t)
t
= 0. (12.9)
260
Como las variables V
n
i
, 1 i n son independientes, y como el vector Z
n
i
depende solo de V
n
i
, los vectores Z
n
i
, 1 i n tambin son independientes.
Ahora denimos las variables
Y
n
1
=
n
X
i=1
Z
n
i1
,
Y
n
2
=
n
X
i=1
Z
n
i2
,
Y
n
3
=
n
X
i=1
Z
n
i3
.
Claramente Y
n
1
es el nmero de intervalos en los que no ocurre ningn suceso,
Y
n
2
es el nmero de intervalos en los que ocurre exactamente uno e Y
n
3
es
la cantidad de intervalos en los que ocurre ms de un suceso. Luego, la
distribucin del vector Y
n
= (Y
n
1
, Y
n
2
, Y
n
3
) es multinomial con parmetros
de probabilidad p
1n
, p
2n
, p
3n
y n repeticiones. Por lo tanto podemos escribir
Y
n
= (Y
n
1
, Y
n
2
, Y
n
3
) M (p
1n
, p
2n
, p
3n
, n) .
Sea A
n
el evento en ningn intervalo ocurre ms de un suceso. Es decir
A
n
= {Y
n
3
= 0}.
Veremos que
lm
n
P (A
n
) = 1.
o equivamentemente
lm
n
P (A
c
n
) = 0.
Observemos que
A
c
n
=
n
[
i=1
{Z
n
i3
= 1},
pues si en algn intervalo ocurre el suceso ms de una vez entonces existe
algn i tal que la variable Z
n
i3
= 1 y recprocamente.
Luego, como P(Z
n
i3
= 1) = p
3n
, usando (12.6) resulta
P (A
c
n
) = P

n
[
i=1
{Z
n
i3
= 1}
!

n
X
i=1
P (Z
n
i3
= 1) = np
3n
= no
2

t
n

.
Como t/n 0 cuando n , por (12.4) resulta
lm
n
P (A
c
n
) lm
n

o
2

t
n

t
n
t
!
= t lm
n

o
2

t
n

t
n
!
= 0. (12.10)
261
Calculemos ahora la probabilidad de que hasta el momento t hayan ocurrido
k sucesos. Tenemos
P (X (t) = k) = P ({X (t) = k} A
n
) +P ({X (t) = k} A
c
n
) .
Pasando al lmite y teniendo en cuenta (12.10) resulta
lm
n+
P ({X (t) = k} A
c
n
) = 0,
y entonces
P (X (t) = k) = lm
n+
P ({X (t) = k} A
n
) .
Pero es claro que el evento {X (t) = k} A
n
se caracteriza por
{X (t) = k} A
n
= {Y
n
1
= n k, Y
n
2
= k, Y
n
3
= 0},
y luego
P (X (t) = k) = lm
n+
P (Y
n
1
= n k, Y
n
2
= k, Y
n
3
= 0) .
Teniendo en cuenta que la ditribucin del vector Y
n
es M(p
1n
, p
2n
, p
3n
, n) ,
obtenemos
P (X (t) = k) = lm
n+
n!
(n k)!k!
p
nk
1n
p
k
2n
p
0
3n
=
1
k!
lm
n+

k
Y
i=1
(n i + 1)
!
.

1
t
n
+o
3

t
n

nk

t
n
+o
1

t
n

k
Como

t
n
+o
1

t
n

k
=
1
n
k

t +no
1

t
n

k
,
tenemos
P (X (t) = k) =
1
k!
lm
n+

k
Y
i=1
(n i + 1)
n
!
.

1
t
n
+o
3

t
n

nk

t +no
1

t
n

k
,
o bien
P (X (t) = k) =
1
k!
lm
n
B
n
C
n
D
n
E
n
, (12.11)
262
donde
B
n
=
k
Y
i=1
n i + 1
n
C
n
=

1
t
n
+o
3

t
n

n
D
n
=

1
t
n
+o
3

t
n

k
E
n
=

t +no
1

t
n

k
.
Comencemos calculando el lmite de B
n
lm
n+
B
n
= lm
n+
k
Y
i=1
n i + 1
n
=
k
Y
i=1

lm
n+
n i + 1
n

=
k
Y
i=1

1 lm
n+

i 1
n

= 1
k
= 1. (12.12)
El lmite de C
n
se puede calcular de la siguiente manera
lm
n+
C
n
= lm
n+

1
t
n
+o
3

t
n

n
= lm
n+

1
1
n

t no
3

t
n

n
= lm
n+

1
a
n
n

n
.
donde
a
n
= t no
3

t
n

.
Como en (12.10) se puede demostrar que
lm
n
no
3

t
n

= 0,
y entonces resulta
lm
n+
a
n
= t.
263
Por lo tanto
lm
n+
C
n
= lm
n+

1
a
n
n

n
= exp

lm
n
a
n

= exp(t) . (12.13)
Por otro lado, como t/n 0 cuando n , y o
1
(t/n) 0, resulta
lm
n+
D
n
= lm
n+

1
t
n
+o
3

t
n

k
= 1
k
= 1. (12.14)
Finalmente, como lm
n+
no
1
(t/n) = 0, resulta
lm
n+
E
n
= lm
n+

t +no
1

t
n

k
= (t)
k
. (12.15)
Usando (12.11), (12.12), (12.13), (12.14) y (12.15) obtenemos
P ({X (t) = k}) = exp(t)
(t)
k
k!
.
Esto prueba que X (t) P (t) . 2
12.4. Tiempos de espera
Sea T
1
la variable aleatoria denida como el tiempo necesario hasta que
ocurra el primer suceso . Calcularemos ahora su distribucin.
Teorema 12.2 T
1
tiene distribucin exponencial con parmetro , es decir,
E().
Demostracin.
F
T
1
(t) = P (T
1
t)
= P (X (t) > 0)
= 1 P (X (t) = 0)
= 1 exp(t) .
Luego T
1
E () .2
Otro problema de inters es la distribucin de los tiempos sucesivos de
ocurrencia de los sucesos. Denamos T
2
como el tiempo de espera hasta que
264
ocurra el segundo suceso entonces T
2
T
1
tiene la misma distribucin que
T
1
. No daremos una demostracin formal de este hecho. Heursticamente,
este resultado puede justicarse de la siguiente manera. T
2
T
1
es el tiempo
de espera para el primer suceso luego del instante T
1
. Como por A1 el proceso
es homogneo, este tiempo de espera debera tener la misma distribucin que
T
1
. Adems como T
1
est determinado por X(t) con t t
1
y T
2
T
1
por
X(t) con t > T
1
, por A2, resulta que T
1
es independiente de T
2
T
1
.
Denamos ahora T
i
como el tiempo de espera hasta que ocurran i suce-
sos. Luego, un argumento similir puede aplicarse, y tendremos el siguiente
teorema que enunciaremos sin demostracin.
Teorema 12.3 Las variables aleatorias T
1
, T
2
T
1
, T
3
T
2
, ..., T
i
T
i1
, ...
son i. i. d. con distribucin E().
Corolario 12.1 El tiempo de espera T
i
tiene distribucin (i, ).
Demostracin. Podemos escribir a la variable T
i
como una suma telescpica
T
i
= T
1
+ (T
2
T
1
) + (T
3
T
2
) +... + (T
i
T
i1
) .
Recordando que E() = (1, ) y teniendo en cuenta que T
i
una suma
de variables independientes todas con distribucin (1, ) resulta que T
i

(i, ) . 2
12.5. Procesos de Poisson en el plano.
Los procesos de Poisson se pueden generalizar al plano. No vamos a de-
scribir estos procesos con detalle, pero daremos una breve presentacin. Un
ejemplo de este tipo de procesos podra ser los que representan la ubicacin
de los rboles en un bosque.
Consideramos ahora el plano en vez de la recta. Supongamos que en cier-
tos puntos del plano ocurren sucesos en forma aleatoria, como por ejemplo
la presencia de un rbol. Luego para cada boreliano B del plano tendremos
la variable aleatoria X(B) que representa la cantidad de sucesos que han
ocurrido en B (por ejemplo, la cantidad de rboles que se encuentran en
la regin B). Los axiomas de un proceso de Poisson en el plano son los
siguientes:
AP1. Homogeneidad.
Dado un boreliano, notemos con A su rea. Supongamos que B
1
B
2

B
2
son boreleanos del plano tal que A(B
1
) = A(B
2
) entonces las
variables aleatorias
X (B
1
) y X (B
2
)
265
tienen la misma distribucin. Esto dice que la distribucin del nmero
de sucesos que ocurren en una regin del plano slo depende de su
rea.
AP2. Independencia.
Consideremos dos borelianos del plano esencialmente disjuntos B
1
,
B
2
B
2
, es decir tal que A(B
1
B
2
) = 0. Entonces las variables
aleatorias X (B
1
) y X (B
2
) son independientes. Esto signica que
cuando las regiones B
1
y B
2
tienen rea en comn igual a 0, entonces
la informacin de lo que ocurre en una regin B
1
no aporta ninguna
informacin respecto de lo que ocurre en la regin B
2
.
AP3.
lm
A(B)0
P (X (B) = 1)
A(B)
= > 0,
o bien
P (X (B) = 1) = A(B) +o
1
(A(B)) .
AP4.
lm
A(B)0
P ({X (B) > 1})
A(B)
= 0,
o equivalentemente existe o
2
(t) tal que
P ({X (B) > 1}) = o
2
(A(B)) .
El siguiente teorema se demuestra de manera totalmente anloga al cor-
respondiente para procesos de Poisson en la recta.
Teorema 12.4 Si X (B) es un proceso que satisface AP1, AP2, AP3 y
AP4 entonces la distribucin de X (B) es Poisson con parmetro A(B) ,
es decir X (B) P (A(B)) .
Supongamos que se elija un punto cualquiera del plano (x
0
, y
0
), y sea
D
1
la distancia de este punto (x
0
, y
0
) al punto ms cercano donde ocurre
un suceso (en el ejemplo, D
1
sera la distancia al rbol ms prximo), D
2
la
distancia de (x
0
, y
0
) al punto donde ocurre el segundo suceso ms prximo,
..., D
i
la distancia de (x
0
, y
0
) al punto donde ocurre el i-simo suceso ms
prximo. El siguiente teorema nos da la distribucin de D
2
1
.
Teorema 12.5 La distribucin de D
2
1
es E().
266
Demostracin. Sea d > 0 y sea C el crculo con centro en (x
0
, y
0
) y radio
d
1/2
. Decir que D
1
d
1/2
es lo mismo que decir que en C ocurri algn
suceso. Luego
{D
2
1
d} = {D
1
d
1/2
}
= {X(C) > 0}
= {X(C) = 0}
c
.
Luego tomando probabilidades y teniendo en cuenta que A(C) = d
P(D
2
1
d) = 1 P(X(C) = 0)
= 1 exp(A(C))
= 1 exp(d)
y por lo tanto D
2
1
tiene distribucin E(). 2
El siguiente teorema, del cual no se dar la demostracin, es nlogo al
correspondiente teorema para Procesos de Poisson en la recta.
Teorema 12.6 Las variables aleatorias D
2
1
, D
2
2
D
2
1
, D
2
3
D
2
2
, ..., D
2
i
D
2
i1
, ...
son i. i. d. con distribucin E().
Como corolario tendremos
Corolario 12.2 La variable aleatoria D
2
i
tiene distribucin (i, ).
267

You might also like