Professional Documents
Culture Documents
AGRADECIMIENTOS
PROBABILIDAD Y ESTADISTICA
TEORIA Y APLICACIONES
PERSPECTIVA HISTORICA
Si somos tan afortunados como para disponer de un modelo teorico perfecto que
vincula los valores de ciertas variables con los de otras (por ejemplo en la Mecanica
de Newton, es posible predecir exactamente la trayectoria de un objeto, una vez es-
pecificadas la posicion inicial, la velocidad inicial y todas las fuerzas que actuan sobre
el), su aplicacion se ve trabada por la imposibilidad de conocer estos valores con ab-
soluta precision, es decir cuando hay errores de medicion. Los Modelos probabilsticos
constituyen una alternativa a los modelos determinsticos en situaciones de este tipo.
AGRADECIMIENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i
PERSPECTIVA HISTORICA . . . . . . . . . . . . . . . . . . . . . . . . . ii
1. Teora de Probabilidades 1
1.1. Teora de Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Teora de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1. Fundamento axiomatico . . . . . . . . . . . . . . . . . . . . . 10
1.2.2. El calculo de probabilidad . . . . . . . . . . . . . . . . . . . . 13
1.2.3. Tecnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.4. Resultados Igualmente probables . . . . . . . . . . . . . . . . 19
1.3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.1. Probabilidades compuestas e independencia . . . . . . . . . . 20
1.3.2. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . 21
1.4. EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2. Variables aleatorias 35
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2. Funciones de Distribucion . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.1. Densidad y Funciones de masa . . . . . . . . . . . . . . . . . . 43
2.3. Transformaciones y Esperanzas . . . . . . . . . . . . . . . . . . . . . 49
2.3.1. Distribuciones de funciones de una Variable Aleatoria . . . . . 49
2.4. Valores Esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
iii
Probabilidad y Estadstica
4. Modelos Multivariados 97
4.1. Distribuciones conjuntas y marginales . . . . . . . . . . . . . . . . . . 97
Teora de Probabilidades
La teora de probabilidades posee una larga y rica historia, sus comienzos datan
del siglo XVII cuando, a pedido de sus amigos, el Chevalier de Mere, Pascal y Fermat
desarrollaron una formulacion matematica de juegos basadas en desigualdades.
1
Probabilidad y Estadstica
S = {C, S}
Otro experimento podra consistir en lanzar una tachuela al aire y observar si cae con
la punta hacia arriba o hacia abajo, el espacio muestral sera S = {U, D}, finalmente
otro de este estilo (o sea de experimentos de los mas sencillos que existen: dos resul-
tados posibles) consistira en observar el sexo del siguiente nino nacido en el hospital
local, con S = {M, F }.
A B x A = x B inclusion
A = B A B B A igualdad
A B = {x : x A x B}.
A B = {x : x A x B}.
Ac = {x : x
/ A}.
A = {E, F E, F F E}
B = {E, F F E, F F F F E}
C = {F E, F F F E, F F F F F E, . . .}
entonces
A B = {E, F E, F F E, F F F F E}
A B = {S, F F S}
Ac = {F F F E, F F F F E, F F F F F E, . . .}
1. Conmutatividad AB = BA
AB = BA
2. Asociatividad A (B C) = (A B) C
A (B C) = (A B) C
3. Leyes Distributivas A (B C) = (A B) (A C)
A (B C) = (A B) (A C)
(A B)c = Ac B c
A (B C) = {x S : x A x (B C)};
(A B) (A C) = {x S : x (A B) x (A C)}.
Funciones definidas sobre el espacio muestral, son con frecuencia mas importantes
que los eventos en s mismos. Ahora discutiremos la forma como un conjunto es
identificado con una funcion {0, 1}-valuada.
IAB = mn {IA , IB } = IA IB
IAc = 1 IA .
Si, por ejemplo, tomamos como = {todos los reales positivos} y A = (0, a],
S
entonces A = (0, ) la cual es una union no-numerable. Mientras uniones e
intersecciones no- numerables no juegan un rol importante en estadstica, ellas a
veces proveen mecanismos muy usados para obtener algunas respuestas.
Finalmente discutiremos la idea de una particion de un espacio muestral.
Ai = [i, i + 1), i = 0, 1, 2, . . .
S
Definicion 1.1.5. Si A1 , A2 , . . . son disjuntos tomados de a pares y i=1 Ai = S,
entonces los conjuntos A1 , A2 , . . . forman una particion de S
1. B
{1}; {1, 2}; {1, 2, 3}; {2}; {1, 3}; {3}; {2, 3};
para todos los numeros reales a y b. Tambien de las propiedades de B se sigue que
esta contiene todos los conjuntos que pueden ser formados tomando (posiblemente
infinitos numerables) uniones e intersecciones de conjuntos de la forma dada arriba
en este ejemplo
1. P (A) 0 A B
2. P (S) = 1
S P
3. Si A1 , A2 , . . . B son dos a dos disjuntos, entonces P ( i=1 Ai ) = i=1 P (Ai ).
sobre el. Debera ser observada, seguramente, el experimento particular para asignar
la funcion P adecuada.
Note que hemos dado una interpretacion simetrica de probabilidad (o hemos ocupa-
do la intuicion) para imponer el requerimiento que tanto las caras como las secas sean
igualmente probables. Como = {C} {S}, se tiene del ax. 2, P ({C} {S}) = 1.
Tambien, los eventos {C} y {S} son disjuntos, as P ({C}{S}) = P ({C})+P ({S}) =
1y
P ({C}) + P ({S}) = 1. (1.2)
Ejercicio 1.2.1.
b. P (A) 1;
c. P (Ac ) = 1 P (A);
d. P (B Ac ) = P (B) P (A B);
g. P (A B) P (A) + P (B) 1
Ejemplo 1.2.4. La ultima desigualdad del teorema ultimo anterior es muy usada
cuando es difcil (o casi imposible) calcular la probabilidad de la interseccion de dos
eventos, pero alguna de la medida de esa probabilidad se desea conocer. Supongase
que A y B son dos eventos, cada uno con probabilidad 0.95. Entonces la probabilidad
que ambos ocurrieran esta acotada inferiormente por
Cerramos esta seccion con un teorema que da algunos resultados utiles para tratar
con una coleccion de eventos.
A menudo los metodos de conteo son ocupados en orden para construir asigna-
ciones de probabilidad sobre espacios muestrales finitos, aunque pueden ser usados
para responder tambien otras cuestiones.
Si se tira un dado de seis caras 5 veces sucesivamente, entonces cada posible resul-
tado es un conjunto ordenado de cinco numeros tales como (1, 3, 1, 2, 4) o (6, 5, 2, 2, 2).
A un conjunto ordenado de k objetos le daremos el nombre de k upla. Cada resulta-
do del experimento de lanzar el dado es entonces una 5 upla. Quisieramos responder
a la siguiente pregunta: cuantos son los resultados posibles totales del experimento?.
Sabemos que son muchos, no queremos enumerarlos uno a uno, sino, simplemente de-
terminar cuantos son. El siguiente teorema es el primer paso para resolver tal proceso,
y muchas veces se lo conoce como Teorema Fundamental de Conteo.
Teorema 1.2.3. Supongamos que un conjunto esta formado por grupos ordenados de
k elementos (k upla) y que hay n1 posibles opciones para el primer elemento; por
cada opcion del primer elemento hay n2 posibles opciones para el segundo elemento;
. . .; por cada posible opcion de los primeros k 1 elementos hay nk opciones del
k-esimo elemento. Entonces hay n1 n2 . . . nk posibles k uplas.
Ejemplo 1.2.5. El propietario de una casa desea hacer una serie de remodelaciones
y requiere los servicios de un contratista plomero y de un contratista electricista.
Supongamos que este trabajo implica compar primero varios utensillos para la cocina.
Se compraran todos al mismo distribuidor. Hay cinco distribuidores en la zona; 12
contratistas plomeros y 9 contratistas electricistas. De cuantas maneras se pueden
seleccionar los distribuidores y los contratistas para hacer el trabajo?. Denotemos a
los distribuidores por d1 , d2 , . . . , d5 ; los plomeros por p1 , p2 , . . . , p12 y los electricistas
por e1 , e2 , . . . , e9 , entonces querremos contar el no de ternas de la forma (di , pj , ek ).
Con n1 = 5; n2 = 12; n3 = 9, el producto N = n1 n2 n3 = 5 12 9 = 540 formas
Ejemplo 1.2.6. Supongamos que una persona decide jugar al Quini seis. Entre los
numeros 1, 2, . . . , 36 una persona puede elegir 6 cualesquiera para completar su boleta.
El numero ganador entonces, se selecciona en forma aleatoria, tomando seis numeros
entre los 36. Para calcular la probabilidad de ganar, primero debemos contar cuantos
grupos diferentes de seis numeros pueden se elegidos de entre los 36.
La distincion hecha en el ejemplo esta entre contar con reemplazo y sin reemplazo.
Hay otro elemento crucial en todo problema de conteo, si es o no importante el orden
en que se eligen los elementos. Para ejemplificarlo, supongamos que el numero ganador
para el Quini es seleccionado con el siguiente orden: 12,36,35,9,13,22. Aquella persona
que selecciono: 9,12,13,22,35,36; se lo califica como un ganador?. En otras palabras
importa el orden en que se eligieron los numeros para conformar el carton?. Tomado
todas esas consideraciones dentro del conteo, es posible construir una tabla de 2 2
que incluya todas las posibilidades:
Antes de comenzar a contar, las siguientes definiciones nos daran algunas preci-
siones.
Definicion 1.2.3. Para cualquier entero positivo n, n! (se lee n factorial) es el pro-
ducto de todos los enteros positivos menores o iguales que n. Esto es,
n! = n (n 1) (n 2) 3 2 1.
Ademas de define 0! = 1.
Consideremos ahora todos los posibles cartones de Quini bajo cada uno de los
cuatro casos dados en la tabla
35!
36 35 34 33 32 31 = = 1,402,410,240
30!
posibles cartones.
posibles cartones.
36 35 34 33 32 31 36!
= = 1,947,792
654321 6!30!
En nuestro ejemplo de los cartones de Quini, el numero posible de estos (sin orden, sin
reemplazo) es 36
6
. Cuando nos referimos ese numero se lo suele denominar coeficiente
binomial, las razones seran explicadas mas adelante.
4. Sin orden, con reemplazo Este es el caso mas difcil de conteo. Para
contar en este caso resulta mas facil pensar en ubicar seis marcas
sobre los 36 numeros. En efecto, podemos pensar a los 36 numeros
definiendo celdas, en las cuales podemos ubicar seis marcas, M, como
se muestra en la figura siguiente
M MM M M M
1 2 3 4 5 33 34 35 36
ordenados en 41! formas. Sin embargo, para eliminar los ordenamientos redundantes
debemos dividir por 6! y 35!, as el numero total de arreglos es:
41!
= 4,496,388.
6!35!
Aunque todas las derivaciones anteriores fueron hechas a partir de un ejemplo, es facil
ver que se mantienen en general, para completar, es posible resumir las situaciones a
traves de la siguiente tabla:
Las tecnicas de conteo vistas en la seccion ultima anterior son muy usadas cuando
el espacio muestral es un conjunto finito y todos los resultados en son igual-
mente probables. Entonces probabilidades de eventos pueden ser calculadas por sim-
ple conteo del numero de resultados en el evento. Para ver esto, supongamos que
= {1 , 2 , . . . , N } es un espacio muestral finito. Afirmar que todos los resultados
son igualmente probables, significa que P ({i }) = 1/N para cada resultado i . En-
tonces, usando (3) de la definicion de una funcion de probabilidad, se tiene para cada
evento A,
X X 1 numero de elementos en A
P (A) = P ({i }) = = .
i A A
N numero de elementos en
i
Para muestras grandes, las tecnicas de conteo podran ser usadas para determinar
tanto el numerador como el denominador de esta expresion.
Sabemos que los casos posibles son 6 6 = 36, pues en el dado rojo puede salir
cualquier numero del 1 al 6 y, para el caso del blanco tambien. De entre estos 36 casos
posibles, unicamente hay un caso favorable, y por lo tanto la probabilidad buscada
en 1/36. Se tiene as que, mientras que en la probabilidad de que un dado rojo salga
2 es 1/6 y la que en el dado blanco salga 5 es tambien 1/6, la probabilidad de que
ocurran a la vez los dos sucesos es tambien el producto (1/6) (1/6).
el suceso menor que 4, resulta P (A) = 1/2 y P (B) = 3/6 = 1/2. El unico caso
favorable es el 2, y por lo tanto P (A B) = 1/6, mientras que P (A) P (B) = 1/4.
Esto nos informa que los sucesos par menor que 4no son independientes: si se
2
supiese de antemano que el resultado es par es menos probable que sea menor que 4
que si no se supiera.
P (A B)
P (B/A) = . (1.4)
P (A)
Definicion 1.3.2. Se dice que dos sucesos son independientes si se verifica que
Esto nos dice que la independencia es una propiedad simetrica, que puede definirse
por cualquiera de las igualdades (1.7) o (1.9).
probabilidades compuestas).
P (A B) = P (A) P (B),
P (A C) = P (A) P (B),
P (B C) = P (B) P (C),
Observe que la ultima relacion no puede deducirse de las dos primeras, es decir las
cuatro condiciones son necesarias.
Ejemplo 1.3.1. Problema de las coincidencias Se tienen dos urnas con n bolil-
las cada una, numeradas de 1 a n. Se va sacando simultaneamente una bolilla de cada
urna, y se quiere hallar la probabilidad de que , al terminar la extraccion de todas las
bolillas, se haya extrado, por lo menos una vez, el mismo numero de cada urna.
Solucion:
El espacio muestral puede ser visualizado como todas las matrices de la forma
i1 i2 . . . in
j1 j2 . . . jn
(a) Probabilidad P (Ai ). El numero de elementos del espacio muestral en que coinci-
den los numeros i, lo calculamos de la siguiente forma. Fijado el lugar en que
ocurre la coincidencia, los restantes n1 numeros de la primera y de la segunda
fila pueden ser cualesquiera, y por lo tanto se tienen ((n 1)!)2 casos. Como el
lugar de la coincidencia puede ser tambien cualquiera, se tienen en cada caso,
n posibilidades mas. De donde Ai esta compuesto de n ((n 1)!)2 elementos
del muestral, en consecuencia
n ((n 1)!)2 1 X n
P (Ai ) = 2
= , P (Ai ) = = 1.
(n!) n i
n
(b) Probabilidad P (Ai Aj ). Fijamos los lugares en que ocurren las coincidencias
de los lugares i y j, los restantes n 2 numeros de la primera y de la segunda
fila pueden ser cualesquiera, y por lo tanto se tienen ((n 2)!)2 casos. Como los
lugares de las coincidencias pueden ser tambien cualquiera de los n, se tienen
en cada caso, n(n 1) posibilidades mas. De donde Ai Aj esta compuesto de
n(n 1) ((n 2)!)2 elementos del muestral, en consecuencia
(c) Analogamente,
y por lo tanto
X
n 1 1
P (Ai Aj Ak ) = = .
i,j,k
3 n(n 1)(n 2) 3!
1 1 1 1
P =1 + + . . . + (1)n . (1.11)
2 3! 4! n!
y para valores mayores de 7, quedan invariables las cuatro primeras cifras deci-
males.
Este numero no es facil de calcular directamente. Los siguientes valores dan una idea
de su comportamiento:
No de personas r 5 10 20 23 30 40 60
Probabilidad Pr 0.027 0.117 0.411 0.507 0.706 0.89 0.99
Se ha tenido en cuenta el numero r = 23, pues all la probabilidad es practicamente
1/2. Observe que si las personas son 60 o mas, la probabilidad es superior a 0.99, es
decir hay casi certeza de que por lo menos dos personas cumplan anos el mismo da,
lo cual es un resultado sorprendente a primera vista.
Entonces
n
X
P (A) = P (A/Bi )P (Bi ). (1.12)
i=1
Esta se llama ley de la probabilidad total, para probarla basta con aplicar el Teorema
1.2.2 parte a) y (1.5).
P (A/Bk )P (Bk )
P (Bk /A) = Pn . (1.13)
i=1 P (A/Bi )P (Bi )
Este resultado se conoce como formula de Bayes, se prueba usando (1.12) y la (1.5).
Solucion:
D = (D A) (D B)
Esto nos dice que de cada 12 artculos fabricados 1 sera defectuoso y 11 seran buenos
11
(P (S) = 12
). Entonces
11 5500
= , o sea x = 6000 artculos
12 x
Solucion:
E = la persona es enferma
p P (E/R+ )
1/1000 0.083
1/500 0.153
1/200 0.311
1/100 0.476
1/10 0.909
1.4. EJERCICIOS
1.1 Para cada uno de los siguientes experimentos, describir el espacio muestral.
1.5 Con la misma tecnica ocupada en clase, muestre que las siguientes igualdades se
cumplen: IAB = max {IA , IB } , IAc = 1 IA
a. Probar que S B.
1.8 Si Ai se define como en la demostracion del Teorema 1.2.2 (b), demuestre que
Ak Al = , k 6= l
1.9 Demuestre que si B es una -algebra, entonces tambien es cerrada para la difer-
encia entre conjuntos.
1.11 Consideremos una caja que contiene 9 lamparas de las cuales 4 estan quemadas.
Se extraen al azar tres lamparas sin reposicion y se cuenta la cantidad de que-
madas. Cual es la probabilidad de obtener i) ninguna lampara quemada, ii)
exactamente una lampara quemada, iii) exactamente dos lamparas quemadas,
iv) tres lamparas quemadas. Resumir los cuatro resultados obtenidos en una
tabla de doble entrada. Cuanto da la suma de todas estas probabilidades?.
1.12 Consideremos la misma situacion del [1.11], pero ahora la muestra es con reposi-
cion. Cuanto da la suma de todas estas probabilidades?.
1.13 Suponga ahora una caja que contiene N lamparas de las cuales n estan que-
madas (n N ) . Se extraen al azar r lamparas y se cuenta la cantidad de
quemadas. Cual es la probabilidad de obtener exactamente k lamparas que-
madas (k r) si la muestra que se toma es:
a) sin reposicion, b) con reposicion.
a) A1 A2 b) Ac1 Ac2
c) A1 A2 A3 d) Ac1 Ac2 Ac3
e) Ac1 Ac2 A3 f) (Ac1 Ac2 ) A3
1.16 Una tienda de video vende dos marcas diferentes de videograbadoras (VCR),
cada una de las cuales viene con dos o cuatro cabezas. La tabla siguiente indica
los porcentajes de compradores recientes de cada tipo de VCR:
Numero de Cabezas
Marca 2 4
M 25 % 16 %
Q 32 % 27 %
1.17 Pruebe que si dos eventos A y B son independientes, entonces tambien lo son
A y B c ; Ac y B; Ac y B c ; A y ; A y .
1.20 1
Variables aleatorias
2.1. Introduccion
En muchos experimentos resulta mas facil manejarse con una variable resumen que
con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinion,
podramos decidir entrevistar a 50 personas y preguntarles si les agrada o no cierta
cosa. Si usaramos un 1 para el que contesta me agrada un o para el que contesta
2
me desagrada, el espacio muestral para este experimento tiene 250 elementos. Cada
uno de estos elementos es un arreglo de dimension 50, donde cada componente es un 1
o es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de
alguna manera razonable. Esto podra hacerse si, por ejemplo, nos interesa solamente
el numero de personas a quienes les agrada (o equivalentemente, les desagrada) de
entre los 50 entrevistados. Nos podra interesar calcular, por ejemplo, la probabilidad
de que les agrade a la mitad, o a la tercera parte; y as definir la cantidad X =
numeros de 1s encontrados entre los 50, de esta manera tendramos capturada la
esencia del problema.
35
Probabilidad y Estadstica
mucho mas facil de manejar que el original. Para definir esta cantidad X es necesario
definir una funcion del espacio muestral original, , a un nuevo espacio, usualmente
el conjunto de los numeros reales. En general se tiene la siguiente
Definicion 2.1.1. Una variable aleatoria es una funcion del espacio muestral en
los numeros reales.
En la definicion de v.a. tenemos definido un nuevo espacio muestral (el rango o recorrido
de la va). Ahora se debe chequear formalmente que nuestra funcion de probabilidad, la cual
esta definida sobre el espacio muestral original, puede ser usada para la v.a.
Supongamos que se tiene el siguiente espacio muestral:
= {1 , 2 , . . . , n }
con una funcion de probabilidad P , y definimos una v.a. X con un rango en X = {x1 , x2 , . . . , xn }.
Definiremos una funcion de probabilidad PX sobre X del siguiente modo:
Note que la funcion PX a la izquierda del igual en (2.1) es una funcion de probabilidad
inducida por X , definida en terminos de la probabilidad original P . La igualdad (2.1) for-
malmente define una funcion de probabilidad, PX , para la v.a. X. Por supuesto que se
debera verificar que PX satisface los axiomas de Kolmogorov, lo cual se deja como ejerci-
cio. Como son equivalentes, simplemente (2.1) se escribira como P (X = xi ) en lugar de
PX (X = xi )
Notacion Variables aleatorias siempre seran denotadas por letras imprenta mayusculas
tales como, X, Y , Z, X1 , X2, Y1 , etc; y los valores de su realizacion (o su rango) con su
correspondiente letra minuscula. As, la v.a. X diremos que puede tomar el valor x.
Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Definimos
la v.a. X = no de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro:
X()
CCC 3
CCS 2
CSC 2
SCC 2
CSS 1
SCS 1
SSC 1
SSS 0
0 1/8
1 3/8
2 3/8
3 1/8
Ejemplo 2.1.3. Sea formado por los 250 arreglos de tamano 50 formado por 1s y 0s.
Definimos X = cantidad de 1s obtenidos. Se tiene entonces que X = {0, 1, 2, . . . , 50}.
Supongamos que los 250 arreglos son igualmente probables. La P (X = 27) puede ser obteni-
da contando todas las cadenas que contienen exactamente 27 1s en el espacio muestral
original. Como cada cadena es igualmente probable, tenemos que
50
Nro. de cadenas con 27 1s
P (X = 27) = = 27 .
Nro. total de cadenas 250
En general 50
i
PX (X = i) =
250
Estos ejemplos anteriores tienen un y un X finito. Tambien X podra ser numerable.
Si X no es numerable, tambien es posible definir la funcion de probabilidad inducida PX de
forma similar a la anterior:
Para A X ,
PX (X A) = P ({ / X() A}).
Esta tambien define legtimamente una funcion de probabilidad que cumple con los
axiomas de Kolmogorov.
Definicion 2.2.1. La f.d.a. de una v.a. X, denotada por FX (x), se define por:
FX (x) = PX (X x) x R
Ejemplo 2.2.1. Consideremos el caso de la moneda que se arroja tres veces y se observa
la cantidad de caras obtenidas. Determinemos FX (x)
x<0 = FX (x) = PX (X x) = 0
0x<1 = FX (x) = PX (X x) = P (X = 0) = 1/8
1x<2 = FX (x) = PX (X x) = P (X = 0) + P (X = 1) = 1/2
2x<3 = FX (x) = PX (X x) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8
x3 = FX (x) = 1
Finalmente, la funcion de distribucion asociada a X es,
0 si x < 0
1/8 si 0 x < 1
FX (x) = 1/2 si 1 x < 2
7/8 si 2 x < 3
1 si x 3
Le proponga al lector que grafique esta funcion, obtendra un grafico en R2 con las siguientes
caractersticas:
(c) Es nula para todos los valores de x < 0; y vale 1 para todos los x 3.
(d) A pesar de presentar saltos en los puntos mencionados en (b), o sea discontinuidades, la
funcion alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad
a la derecha. Simbolicamente se tiene:
lm FX (x) = FX (xi ) si xi X
xx+
i
Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se
piensa que estan definidas en terminos de probabilidad.
Teorema 2.2.1. La funcion F(x) es una f.d.a. s y solo s las siguientes tres condiciones
se cumplen:
(a)
lm F (x) = 0 lm F (x) = 1
x x
lm F (x) = F (x0 ) x0 .
xx+
0
Prueba:
Para probar la condicion necesaria, basta escribir F (x) en terminos de la funcion de prob-
abilidad. Para la suficiencia o sea, que si una funcion F satisface las tres condiciones del
teorema entonces es una f.d.a. para una v.a., en mucho mas complicado (no lo haremos),
deberamos establecer que existe un espacio muestral , una funcion de probabilidad P
sobre , y una v.a. X definida sobre , tal que F es la f.d.a. de X.
Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas
veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener
cara en cualquier lanzamiento.
Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su
f.d.a.
P (X = x) = (1 p)x1 p ,
ya que debemos encontrar x 1 fallas hasta obtener la siguiente cara, ademas los eventos
ocurren de manera independiente. Para cualquier entero positivo x se tiene,
x
X x
X
FX (x) = P (X x) = P (X = i) = (1 p)i1 p , x = 1, 2, . . .
i=1 i=1
Este resultado se puede probar por induccion matematica. Aplicando (2.2) a nuestra prob-
abilidad, encontramos que la f.d.a. de nuestra v.a. X es
FX (x) = P (X x)
1 (1 p)x
= p
1 (1 p))
= 1 (1 p)x , x = 1, 2, . . .
La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se
sugiere dibujar esta funcion, por ejemplo para p = 0,3.
Es facil mostrar que 0 < p < 1 para que FX (x) satisfaga las condiciones del teorema (2.2.1).
lm FX (x) = lm [1 (1 p)x ] = 1.
x x
1
FX (x) = ,
1 + expx
Por ejemplo,
lm FX (x) = 0, ya que lm expx =
x x
y
lm FX (x) = 1, ya que lm expx = 0
x x
d expx
FX (x) = >0,
dx (1 + expx )2
mostrando que FX es creciente como funcion de x. FX no solamente es continua a la derecha.
Sino tambien continua. Este es un caso especial de la llamada distribucion logstica.
Si una f.d.a. es continua o presenta saltos se corresponde con la asociacion de una v.a.
que sea continua o no. En efecto, la asociacion nos conduce a la siguiente definicion,
Definicion 2.2.2. Una v.a. X es continua se FX (x) es una funcion continua de x. Una
v.a. X es discreta de FX (x) es una funcion dada a trozos con respecto a x.
Definicion 2.2.3. Se dice que dos v.a. X e Y estan identicamente distribuidas si para
cualquier conjunto A, P (X A) = P (Y B)
Note que dos v.a. que estan identicamente distribuidas no necesariamente son iguales.
Esto es, la definicion ultima anterior no dice que X = Y .
Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres
veces. Definimos las v.a. X e Y como sigue,
Prueba:
Para mostrar la equivalencia, debemos demostrar que cada afirmacion implica la otra.
Veamos que (a) = (b).
Ya que X e Y estan identicamente distribuidas, tenemos, para cualquier conjunto A,
P (X A) = P (Y B).
P (X (, x]) = P (Y (, x]) x.
P (X x) = P (Y x) x,
Asociada con una v.a.X y su f.d.a. FX (x) existe otra funcion, llamada segun corresponda:
funcion de densidad de probabilidad (f.d.p.) o funcion de masa de probabilidad (f.m.p.).
Los terminos (f.d.p.) y (f.m.p.) se refieren, respectivamente, a los casos continua y discreto.
Ambas funciones esta relacionadas con probabilidades puntuales de v.a.
Definicion 2.2.4. Una funcion de masa de probabilidad, f.m.p., de una v.a. discreta esta da-
da por:
fX (x) = P (X = x) , x.
Ejemplo 2.2.5. Para la distribucion geometrica del ejemplo (2.2.2) tenemos la f.m.p.,
(1 p)x1 p si x = 1, 2, . . .
fX (x) = P (X = x) =
0 en otro caso
b
X
P (X b) = fX (k) = FX (b).
k=1
Una convencion ampliamente aceptada, la cual tambien nosotros adoptaremos, es la de
anotar con letras imprentas mayusculas las f.d.a.s; y con la correspondiente minuscula la
f.m.p. o la f.d.p. respectiva.
Debemos tener un poco mas de cuidado en nuestra definicion de f.d.p. en el caso continuo.
Si ingenuamente tratamos de probar calcular P (X = x) para v.a. continuas, conseguiremos
lo siguiente: ya que {X = x} {x < X x} para cualquier > 0, nosotros tendremos
a partir del teorema (1.2.1) parte f. que,
P (X = x) P (x < X x) = FX (x) FX (x ),
0 P (X = x) lm [FX (x) FX (x )] = 0,
x+
Una nota sobre notacion: La expresion X tiene una distribucion dada por FX (x)se
abrevia simbolicamente por X FX (x), donde leemos el smbolo como esta distribui-
do como. Tambien podremos en forma similar escribir X fX (x) o, si X e Y tienen la
misma distribucion, X Y .
En este punto, ya debe estar claro que la f.d.p. (o p.m.f.) contienen la misma informacion
que la f.d.a. Segun sea el caso se puede ocupar una u otra para resolver problemas, de
acuerdo si facilita o no su resolucion.
Ejemplo 2.2.6. Para la distribucion logstica dada en el ejemplo anterior. Se pide, deter-
minar su f.d.p. y determinar una metodologa para calcular la P (a < X < b)
d expx
fx (x) = FX (x) = .
dx (1 + expx )2
El area bajo la curva fx (x) dado un intervalo de probabilidad (ver Figura 2.1) es:
Z b Z a Z b
P (X [a, b]) = FX (b) FX (a) = fX (x) dx fX (x) dx = fX (x) dx.
a
Solamente existen dos requerimientos para una f.d.p. (o f.m.p.), los cuales son inmediatas
consecuencias de la definicion.
Teorema 2.2.3. Una funcion fX (x) es una f.d.p. (o una f.m.p.) de una variable aleatoria
X si y solo s
(a) fX (x) 0 x.
P R +
(b) x fX (x) = 1 (f.m.p.) o fX (x) dx = 1 (f.d.p.).
Prueba:
Si fX (x) es una f.d.p. (o una f.m.p.), las dos propiedades son inmediatas de las definiciones.
En particular, usando (2.4) y el Teorema 2.2.1, se tiene que ,
Z +
1 = lm FX (x) = fX (t) dt.
x
La implicacion inversa, es tambien muy facil de probar. Una vez que se tiene fX (x) podemos
definir FX (x) y recurrir al Teorema 2.2.1.
X x max{X1 , X2 } x X1 x X2 x.
{X x} es equivalente a,
Al estar suponiendo que los dados se lanzan de manera independiente, resulta que
1
P (X1 = l) = P (X2 = l) = con l = 1, . . . , 6.
6
Luego,
x
X x
P (Xi x) = P (Xi = l) = x = 1, 2, . . . , 6, i = 1, 2.
6
l=1
Finalmente,
x2
P (X x) = , x = 1, . . . , 6.
36
Siendo esta su f.d.a.. Pero
P (X = x) = P (X x) P (X x 1
x2 (x 1)2 2x 1
= = , x = 1, . . . , 6.
36 36 6
Si razonamos como en la parte ultima anterior del ejemplo, sea Si el puntaje obtenido
en el i-esimo lanzamiento, i=1,. . . ,k.
Y = max {S1 , S2 , . . . ,k }.
Finalmente, para y = 1, 2, . . . , 6,
1 k
P (Y = y) = P (Y y) P (Y y 1) = [y (y 1)k ].
6k
Calcular la probabilidad de que el maximo valor ledo sea un valor y en infinitos lanzamien-
tos, corresponde a tomar
lm P (Y = y).
k
Para calcular este lmite, debe notar que la f.m.p. de Y se puede escribir de manera equiv-
alente como
yk h y 1 k i
P (Y = y) = 1 .
6k y
Al tomar lmite se obtiene:
0 si y < 6
lm P (Y y) =
k 1 si y = 6
En efecto, obviamente fX (x) > 0. Para verificar que es una densidad, falta comprobar
R
que fX (x) dx = 1.
R 2
Sea a = ex /2 dx. Deberemos probar que a2 = 2. Para lo cual, notar que
Z Z Z Z
2 x2 /2 y 2 /2 2 2
a = e dx e dy = e(x +y )/2 dx dy;
Esta densidad se define como la densidad normal tpica (o estandar), y se la anota con la
letra griega , de donde en adelante siempre que veamos (x), nos estamos refiriendo a la
densidad de una v.a. con distribucion Normal estandar, definida por (2.4).
Ejemplo 2.2.9. Supongase que la v.a. X es continua, y se tiene la funcion dada por
kx si 0 < x < 1
f (x) =
0 en otro caso
Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a.
Nota fX (x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo
P (X = 0,5) = 0, y por lo tanto fX (0,5) no la representa. Solo cuando la funcion se integra
entre dos lmites produce una probabilidad. Sin embargo, es posible dar una interpretacion
de 4x fX (x) del siguiente modo. Del teorema del valor medio del calculo integral se deduce
que
Z x+4x
P (x X x + 4x) = fX (s) ds = 4x fX () , x x + 4x.
x
Si X es una v.a. con fda FX (x), entonces cualquier funcion de X, digamos g(X), es
tambien una v.a.. A menudo g(X) es de interes en s misma y escribiremos Y = g(X) para
denotar nuestra v.a. g(X). Ya que Y es una funcion de X, nosotros podemos describir su
conducta probabilstica, en terminos de la de X. Esto es, para cualquier conjunto A,
P (Y A) = P (g(X) A) ,
g(x) : X Y.
Es posible asociar con g un mapeo inverso, denotado por g 1 , el cual es un mapeo prove-
niente de subconjuntos de Y a subconjuntos de X , y esta definido por
Note que el mapeo g 1 esta definido de conjuntos en conjuntos, esto es, g 1 (A) es el conjunto
de los puntos en X tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto
En este caso casi siempre se escribe g 1 (y) en lugar de g 1 ({y}). Sin embargo, la cantidad
g 1 (y) puede aun ser un conjunto, si hay mas de un x para el cual g(x) = y. Si hay
solamente un valor de x para el cual g(x) = y, entonces g 1 (y) en el conjunto unitario {x},
y escribiremos g 1 (y) = x.
Si la v.a. Y esta definida por Y = g(X), es posible escribir para cualquier conjunto A Y,
P (Y A) = P (g(X) A)
= P (X g 1 (A)).
Esta define la distribucion de probabilidades de Y . Sera justo mostrar que esta distribucion
de probabilidad satisface los Axiomas de Kolmogorov.
Si X es una v.a. discreta, entonces X es numerable. El espacio muestral para Y = g(X) es
Y = {y : y = g(x), x X }, el cual tambien es un conjunto numerable; con lo cual Y es una
v.a discreta. Usando (2.5), la fmp de Y es
X X
fY (y) = P (Y = y) = P (X = x) = fX (x), para y Y ,
xg 1 (y) xg 1 (y)
y fY (y) = 0 para y
/ Y. En este caso para encontrar la fmp de Y solo es necesario identificar
g 1 (y), para cada y Y y sumar apropiadamente las probabilidades.
Ejemplo 2.3.1. Una va. discreta X tiene una distribucion binomial si su fmp es de la
forma
n x
fX (x) = P (X = x) = p (1 p)nx , x = 0, 1, . . . , n ,
x
donde n es un entero positivo y 0 p 1. Encontrar la fmp de Y = g(X), siendo g(x) =
nx
X
fY (y) = fX (x)
xg 1 (y)
= fX (n y)
n
= pny (1 p)n(ny)
ny
n
= (1 p)y pny
y
Vemos que tambien Y es una va. con distribucion binomial, pero con parametros n y
(1 p).
Si tanto X como Y son va. continuas, es posible en muchos casos encontrar formulas
simples para la fda de Y en terminos de la fda de X y la funcion g. Consideremos algunos
de estos casos.
La fda de Y = g(X) es
FY (y) = P (Y y)
= P (g(X) y)
La fdp de la va. X es positiva solamente sobre el conjunto X y cero en otro caso. Tal con-
junto es llamado el conjunto soporte de una distribucion, mas informalmente el soporte de
la distribucion. Este terminologa puede tambien aplicarse para una fmp o, en general, para
una funcion no negativa.
Es mucho mas facil tratar con aquellas g(x) que son monotonas, esto es aquellas que
satisfacen
= {x X : x g 1 (y)}.
= {x X : x g 1 (y)}.
Teorema 2.3.1. Supongamos que X tiene una fda FX (x), sea Y = g(X), X e Y definidos
como en (2.7).
Ejemplo 2.3.2. Sea X fX (x) = 1.I(0 < x < 1), de donde se tiene X U (0, 1). Es-
to ultimo se lee X con distribucion uniforme en el intervalo (0,1). Se pide determinar
FX (x), FY (y), fY (y) si Y = g(X) = logX.
De donde se tiene,
0 si x < 0
FX (x) = x si 0 < x < 1
1 si x 1
Determinacion de FY :
Veamos si g(x) es monotona en el soporte de X, X .
d 1
g(x) = < 0 , para x (0, 1) = X ,
dx x
de donde g(x) resulta ser una funcion decreciente. Veamos cual es el soporte de Y . Y definido
como en (2.7), resulta ser Y = (0, ). Queda calcular la g 1 (y) para y Y = (0, ); la
cual resulta de y = g(x) = logx = y = logx = x = ey = g 1 (y).
Finalmente, aplicando el teorema 2.3.1 parte b), resulta
d
fY (y) = FY (y) = ey (y > 0)
dy
0 si y 0
fY (y) = ey I(0, ) , FY (y) =
1 ey si y > 0
Teorema 2.3.2. Supongamos X v.a. con una fdp fX (x). Sea Y = g(X), donde g es
monotona una transformacion de X; X e Y son respectivamente sus soportes. Suponga
ademas que fX (x) es continua sobre X , y que g 1 (y) tiene una derivada continua sobre Y.
Entonces la fdp de Y esta dada por:
fX (g 1 (y)) | d 1
dy g (y)) | si y Y
fY (y) = (2.8)
0 e.o.c.
d d d
fY (y) = FY (y) = FX (g 1 (y)) = fX (g 1 (y)) g 1 (y) g creciente
dy dy dy
d d d
fY (y) = FY (y) = (1 FX (g 1 (y)) = fX (g 1 (y)) g 1 (y) g decreciente
dy dy dy
Ejemplo 2.3.3. Ses fX (x) la fdp de una va. gamma, entonces esta tiene la forma,
1
fX (x) = xn1 ex/ I(0, )
(n 1)! n
En este ejemplo resultara que fdp de Y esta expresada como la suma de dos terminos,
donde cada uno de ellos representa el intervalo donde g(x) = x2 es monotona. En general
este sera el caso, dado en el siguiente problema.
Teorema 2.3.3. Supongamos X tiene una fdp fX (x), Y = g(X), y se define el so-
porte de X, X . Supongamos que existe una particion A0 , A1 , . . . , Ak de X , tal que P (X
A0 ) = 0 y fX (x) es continua sobre cada Ai . Ademas, supongase que existen funciones
g1 (x), g2 (x), . . . , gk (x), definidas sobre A1 , . . . , Ak respectivamente, satisfaciendo:
El punto mas importante en este teorema es que X puede ser divididos en conjuntos
A1 , . . . , Ak , tal que g(x) sea monotona sobre cada Ai . Es posible ignorar el conjunto excep-
cional A0 , ya que P (X A0 ) = 0. Esta es una tecnica que puede ser usada para manejar
los extremos de intervalo. Es importante notar que cada gi (x) es una transformacion 1 1
de Ai en Y.
Ejemplo 2.3.5. Sea X una va. con la distribucion Normal estandar, entonces
1 2
fX (x) = expx /2 I(, )
2
Teorema 2.3.4. Consideremos X va. continua con fda FX (x) y se define la va. Y = FX (x).
Entonces Y U (0, 1), tal que P (Y y) = y; 0 < y < 1.
Antes de demostrarlo, daremos una mirada a FX1 , la inversa de la fda con algun detalle.
Si FX es estrictamente creciente, entonces FX1 esta bien definida como
Sin embargo, si la fda llega a ser constante en algun intervalo, entonces su inversa no esta bi-
en definida por (2.10).
esta definicion coincide con de FX1 (y) cuando FX (x) = y no es constante, pero provee una
FX1 siempre univariada
Dem. del teorema:
Para Y = FX (X) = g(X); Y = (0, 1).
P (Y y) = P (FX (X) y)
= P (X FX1 (y))
= y (continuidad de FX )
El valor esperado o esperanza de una v.a. X es, su valor promedio. Aqu hablamos de
valor promedio como de tal pensado de acuerdo con la distribucion de probabilidad.
El valor esperado de una distribucion, tambien puede ser pensado como una medida de
centralizacion, del mismo modo como se piensan los promedios estando en el medio de todos
los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribucion
de probabilidad, queremos obtener un numero que resuma un valor tpico o esperado de las
observaciones de la v.a.
Examinemos el siguiente ejemplo,
Considere seleccionar al azar a un estudiante que esta entre 15000 registrados para el
perodo academico de una Universidad. Sea X = cantidad de cursos en los que el estudiante
seleccionado se inscribe; supongamos que X tiene la siguiente fmp,
x 1 2 3 4 5 6 7
Podemos considerar a la poblacion como aquella formada por 15000 personas, cada
una con su propio valor de X (segun la cantidad de materias en las que inscribio en ese
ano academico); la proporcion con cada valor X esta dada por fX (x) de la tabla. Por
ejemplo podramos interpretar el valor fX (1) = P (X = 1) = 0,01, como que 1 de cada 100
estudiantes se inscribio en una sola materia; o sea que 150 del total de 15000 se inscribieron
en una sola materia. Analogamente, fX (2) = P (X = 2) = 0,03, como que 3 de cada 100
estudiantes se inscribio en dos materias; o sea que 450 del total de 15000 se inscribieron en
dos materias; y as siguiendo, se genera la tabla (2.4)
x 1 2 3 4 5 6 7
Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la poblacion misma
como formada por los valores X.
Una vez que tengamos un modelo matematico para una poblacion, el objetivo sera uti-
lizarlo para calcular valores caractersticos de esa poblacion (como por ejemplo la media )
y hacer inferencias a partir de tales caractersticas.
Esta expresion (2.13) muestra que para calcular el valor promedio de X de la poblacion,
solo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones).
La expresion (2.13), nos conduce la siguiente definicion de valor esperado o media de una
poblacion.
Definicion 2.4.1. El valor esperado o media de una va. g(X), denotado por E g(X), es
R
g(x) fX (x) dx si X es continua
E g(X) =
P P
xX g(x) fX (x) = xX g(x) P (X = x)) si X es discreta
Ejemplo 2.4.1. Supongamos que X tiene una distribucion exponencial , es decir su fdp
es,
1 x/
fX (x) = e I(0 x < ) >0
Se pide encontrar E X
Rta. E X =
Rta.: E X = np
Ejemplo 2.4.3. Un ejemplo clasico de una variable aleatoria cuyo valor esperado no existe
es la variable aleatoria Cauchy, cuya fdp es,
1 1
fX (x) = , x .
1 + x2
El proceso de tomar esperanza es una operacion lineal, lo cual significa que la esperanza
es una funcion lineal de X, la cual entonces puede ser facilmente evaluada, notando que
para cualquier par de valores a y b,
E (aX + b) = aE X + b.
El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para
calcularla. La mayora de tales propiedades se derivan de las propiedades de la integral o la
suma, y son resumidas en el siguiente teorema:
Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g1 (X), g2 (X),
funciones de la va. X, cuyas esperanzas existen, se cumple:
Ejemplo 2.4.4. Tambien es posible interpretar el valor esperado de una va., pesandola con
relacion a considerarla como un buen aciertopara el valor de X.
Supongamos que medimos la distancia entre una va. X y una constante b mediante la
forma (X b)2 , o sea buscamos el valor de b mas cercano a X. Podemos as, determinar el
valor de b que minimiza E(X b)2 y, por lo tanto esto podra interpretarse en terminos
estadsticos como la busqueda de un buen predictor de X. (Note que no es bueno mirar un
valor de b que minimice (X b)2 , ya que la respuesta podra depender de X, siendo as un
predictor inutil de X).
Podramos proceder a minimizar E(X b)2 ocupando las herramientas que nos provee el
calculo, pero hay un metodo mas simple, usando la creencia que existe algo especial en
relacion con este problema y la E X, as escribimos
= E((X E X) + (E X b))2
No tenemos control sobre el primer termino del lado derecho en la igualdad (2.13) y el
segundo termino, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X.
Por lo tanto,
mn E(X b)2 = E(X E X)2 (2.14)
b
Pero tambien podramos primero encontrar la fdp fY (y) para la va. Y = g(X), y luego
calcular
Z
E g(X) = E Y = y fY (y) dy. (2.16)
Ejemplo 2.4.5. Sea X U (0, 1), Y = g(X) = log X. Mostraremos que la E Y calculada
de las formas mencionadas en (2.15) y (2.16) da el mismo resultado.
mentos
Los distintos momentos de una distribucion son una importante clase de esperanzas.
n = E (X )n ,
donde = 0 = E X
Rta.: V ar X = 2
Teorema 2.5.1. Si X es una va. con varianza finita, entonces para cualquier par de con-
stantes a, b se cumple,
V ar(aX + b) = a2 V ar X.
En muchos casos es mas facil usar una formula alternativa para la varianza, dada por,
V ar X = E X 2 (E X)2 , (2.17)
Ejemplo 2.5.2. Supongamos que X Bib(n, p). Hemos probado que E X = np. Se pide
ahora calcular V ar X.
Rta.: V ar X = np(1 p)
Para calcular momentos de orden mas alto se procede de manera analoga. En aplica-
ciones, momentos de orden 3 o 4 algunas veces resultan de interes, pero usualmente existen
razones estadsticas para examinar momentos de orden mas algo que 2.
Ahora introduciremos una nueva funcion, la cual esta asociada con distribuciones de
probabilidad, la funcion generadora de momentos (fgm). Como su nombre lo sugiere, la fgm
puede ser usada para generar momentos. En la practica es mas facil en muchos casos calcular
momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el
de generar momentos, sino ayudar para caracterizar una distribucion. Esta propiedad nos
puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente.
Definicion 2.5.3. Sea X una va. con fda. FX . La funcion generadora de momentos (fgm)
de X (o FX ) , denotada por MX (t) ,es
MX (t) = E et X ,
suponiendo que la esperanza exista para valores de t en algun entorno del 0. Esto es, existe
un h > 0 tal que, para todo t (h, h) E et X existe. Si tal esperanza no existe en un
entorno del 0, nosotros diremos que la fgm no existe.
Es muy facil ver de que manera una fgm genera momentos. Se resume el siguiente teorema,
(n)
E X n = MX (0),
donde se define
(n) dn
MX (0) = MX (t)|t=0 .
dtn
d
MX (t)|t=0 = E X et X |t=0 = E X.
dt
Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso
general es,
1
fX (x) = x1 ex/ , 0 < x < , > 0, > 0,
()
Ejemplo 2.5.4. Para otra ilustracion sobre el calculo de la fgm, consideremos una dis-
tribucion discreta, la distribucion binomial. Si X Bin(n, p), determina la fgm de X
Podra ocurrir que existan dos va. con distintas fdp, pero que generen los mismos mo-
mentos, e.d.,
X1 f1 , X2 f2 con f1 6= f2 ,
Teorema 2.5.3. Sean FX (x), FY (y) dos fda tales que sus momentos existen
(b) Si las fgm existen y se cumple MX (t) = MY (t) para todo t en algun entorno del 0,
entonces FX (u) = FY (u) u.
Teorema 2.5.4. Para cualquier para de constantes a, b, la fgm de la va. Y=aX+b esta dada
por
MY (t) = MaX+b (t) = eb t MX (at).
2.6. Ejercicios
2.1 De un lote que contiene 25 artculos, 5 de los cuales son defectuosos, se eligen 4 al azar.
Sea X el numero de defectuosos encontrados. Obtener la distribucion de probabili-
dades de X si,
2.4 Considere la v.a. X que mide la duracion de un tubo electronico, y supongamos que X
se puede representar como una v.a. continua con f.d.p. fX (x) = bebx I (x 0). Sea
pj = P (j X < j + 1). Demostrar que pj es de la forma (1 a) aj y determine a.
2.5 La v.a. continua X tiene f.d.p. fX (x) = 3x2 I(1 x 0). Si b es un numero que
satisface 1 < b < 0, calcular P (X > b | X < b/2).
2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a.,
en donde X, 0 < X < 1, tiene la siguiente fdp: fX (x) = 20x3 (1 x)I(0 < x < 1).
(b) Calcular la P (X 23 ).
(c) Supongase que el precio de venta del compuesto depende del contenido alcoholico.
1 2
Especficamente, si 3 <X < 3, el compuesto se vende por C1 dolares/galon.
Encontrar la distribucion de probabilidades de la utilidad neta por galon.
2.8 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.
1 (x/2 )/2
fX (x) = xe I(0, ), 2 es una constante positiva
2
Determine la fdp de Y = eX .
2.10 Suponga que X tiene una distribucion geometrica con fmp dada por fX (x) = 13 ( 32 )x , x =
0, 1, 2, . . .. Determine la distribucion de probabilidades de Y = X/X + 1. Note que
tanto X como Y son v.a. discretas. Para especificar la distribucion de probabilidad
de Y , especifique su fmp.
2.11 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.
1
(a) fX (x) = 2 e|x| , < x < ; Y =| X |3 .
1
fX (x) = (1 + x) I(1, 1).
2
2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad
1
(b) fX (x) = n x = 1, 2, . . . , n; n > 0 entero
2.14 Sea n el n-esimo momento central de la va. X. Dos cantidades de interes, agregadas
a la media y la varianza son,
3 4
3 = y 4 = .
(2 )3/2 (2 )2
(b) Calcule 3 para f (x) = ex , x 0, una fdp que tiene asimetra a la derecha.
2.15 Sea MX (t) la fgm de una va. X, y se define S(t) = log(MX (t)). Muestre que,
d d2
S(t)|t=0 = E X S(t)|t=0 = V ar X.
dt dt2
2.16 En cada uno de los siguientes casos verifique que la expresion dada para la fgm, y en
cada caso use la fgm para determinar la E X y la V arX.
e x t 1)
(a) P (X = x) = x! , MX (t) = e(e , x = 0, 1, 2, . . . ; >0
p
(b) P (X = x) = p(1 p)x , MX (t) = 1(1p)et , x = 0, 1, 2, . . . ; 0 < p < 1
2 2)
e(x) /(2 2 t2 /2
(c) f (x) =
2
, MX (t) = et+ , < x < , < < , > 0
y MX (t) es una fgm. Entonces existe una unica fda FX , cuyos momentos son deter-
minados por MX (t)y, para todo x donde FX (x) es continua, se tiene
e x
P (X = x) = , x = 0, 1, . . . , > 0.
x!
P (X = x) P (Y = x)
(b) Reemplazar p = n en MX (t)
Una va. X se dice tiene una distribucion discreta, si su rango; e.d. el espacio muestral es
numerable. En la mayora de las situaciones, la va. es entero-positiva valuada.
71
Probabilidad y Estadstica
V ar X = E X 2 (E X)2
(N + 1)(2N + 1) N + 1 2
=
2 2
(N + 1)(N 1)
= .
2
Esta distribucion puede ser generalizada, a un espacio muestral en cualquier rango de en-
teros, N0 , N0 + 1, . . . , N1 , con fmp P (X = x | N0 , N1 ) = 1/(N1 N0 + 1).
Supongamos tenemos una urna con N bolillas iguales, salvo por el color, es decir, hay M
rojas y N M verdes. K de tales bolillas son seleccionadas aleatoriamente (se toman una
a una de la urna, sin regresarla a la misma; se trata de un caso de muestreo sin reemplazo).
Cual es la probabilidad que exactamente x de las bolillas sean rojas?.
El numero total de muestras de medida K que pueden ser seleccionadas de un total de
N
N es K . Se requiere que x de tales bolillas sean rojas, lo cual puede ser realizado de
M M N
x formas, dejando Kx caminos para elegir las K x restantes que no son rojas. As,
denotaremos por X la va. que mide el numero rojas en la muestra de tamano K, entonces
X tiene distribucion hipergeometrica dada por
M N M
x
P (X = x | N, N, K) = NKx
, x = 0, 1, . . . , K. (3.2)
K
Note que hay implcita en (3.2), un supuesto adicional sobre el rango de X. Los coeficientes
binomiales de la forma nr , han sido definidos solamente si n r, y as el rango de x
esta adicionalemente restringido por el siguiente par de inecuaciones
M x y N M K x,
M (N K) x M.
K
M N M K
M N M
X x
X
EX = x NKx
= x
NKx
.
x=0 K x=1 K
(el sumando es 0 en x = 0). Para evaluar estas expresiones, usamos las siguientes iden-
tidades,
M M 1
x = M ,
x x1
N N N 1
= ,
K K K 1
y obtener
K
M 1N M K
M 1N M
X M x1 KM X
EX = Kx
N N 1
= x1
N 1Kx
.
K K1
N K1
x=1 x=1
Es posible reconocer la segunda suma anterior como la suma de las probabilidades de otra
distribucion hipergeometrica basada en valores de parametros N 1, M 1, y K 1. Luego
esa suma vale 1. Finalmente se tiene que
KM
EX = .
N
KM (N M )(N K)
V ar X = .
N N (N 1)
La distribucion binomial, una de las distribuciones discretas mas usadas, esta basada
sobre la idea de una ensayo de Bernoulli. Un ensayo de Bernoulli es un experimento con
dos, y solamente dos, resultados posibles. Una va. tiene una distribucion Bernoulli(p) si
1 con probabilidad p
X= 0 p 1. (3.3)
0 con probabilidad 1 p
E X = E(IA ) = 1p + 0(1 p) = p,
Muchos experimentos pueden ser modelados por una secuencia de ensayos de Bernoulli,
tales como el lanzamiento de monedas, eleccion de candidatos polticos, incidencia de una
enfermedad, etc.
Si con n indicamos la cantidad de ensayos de Bernoulli que son realizados, definimos los
eventos
Ai = {X = 1 en el i-esimo ensayo}, i = 1, 2, . . . , n.
= py (1 p)ny ,
donde nosotros hemos usado la independencia de los Ai s en este calculo. Note que el calculo
no depende sobre cuales de los Ai s ocurre, solamente que algun conjunto de y de ellos
ocurra. Poniendo todo esto junto, vemos que una secuencia particular de n ensayos con
exactamente y exitos tiene probabilidad py (1 p)ny de ocurrencia; ya que hay ny de tales
secuencias (el numero de ordenamientos de y unos y de (n y) ceros), se tiene
n
P (Y = y | n, p) =
y
e Y es llamada una variable aleatoria Bin(n,p). Y puede ser definida en forma equivalente del
siguiente modo: como una secuencia de n identicas, e independientes ensayos de Bernoulli,
cada una con exito p y fracaso 1 p, definiendo las variables X1 , X2 , . . . , Xn por
1 con probabilidad p
Xi = 0 p 1.
0 con probabilidad 1 p
Entonces la va.
n
X
Y = Xi
i=1
tiene distribucion Bin(n, p). Analogamente, usando funciones indicadoras, Y podra es-
cribirse como
n
X
Y = IAi ,
i=1
y por lo tanto toda va. binomial se puede escribir como una suma de indicadoras.
Hemos ya obtenido tanto la esperanza, la varianza y la fgm para una va. binomial. Para
completar, afirmemos entonces que si X Bin(n, p) se tiene
E X = np , V ar X = np(1 p) ,
y su fgm es
MX (t) = [pey + (1 p)]n .
Ejemplo 3.1.3. A cada una de seis personas que toman refresco cola, seleccionadas al azar,
se les da un vaso que contiene refresco de cola S y uno que contiene refresco de cola F. Los
vasos son identicos en apariencia excepto por un codigo que se encuentra en el fondo para
identificar la marca. Supongamos que en realidad no hay preferencia entre las personas que
beben refresco de cola para preferir entre una marca u otra.
(b) Determine la probabilidad de que por lo menos tres personas prefieran la marca de cola
S.
(d) Calcule la E X, V ar X, X .
Ejemplo 3.1.4. Suponga que el 20 % de todos los ejemplares de un texto en particular fallan
en una prueba de resistencia a la encuadernacion. Si X es el numero entre 15 ejemplares
seleccionados al azar que fallan a la prueba.
Para investigar esto, tecnicos de un laboratorio de pruebas compran 20 unidades y las some-
ten a pruebas aceleradas para simular su uso durante el perodo de garanta. Denotemos por
p la probabilidad de que una fuente de alimentacion necesita reparacion durante el perodo
(la proporcion de todas las unidades que necesitan reparacion). Los tecnicos de laborato-
rio deben determinar si los datos resultantes del experimento apoyan el argumento de que
p 0,10.
As
X
X
x
P (X = x | ) = e = e e = 1
x!
x=0 x=0
La media de X se puede ver facilmente, haciendo
X e x
EX = x
x!
x=0
X e x
= x
x!
x=1
X x1
= e
(x 1)!
x=1
X
y
= e sustituyendo y = x 1
y!
y=0
= .
t 1)
MX (t) = e(e .
Ejemplo 3.1.7. Supongamos que llegan pulsos al contador con una tasa promedio de seis
por minuto, supongamos = 6. Para hallar la probabilidad de que en un intervalo de 0.5
min se reciba por lo menos un pulso, observe que el nro. de pulsos en tal intervalo tiene
una distribucion de Poisson con parametro = t = 6(0,5). Si X representa el numero de
pulsos recibidos en el intervalo de 30 segundos. Determine la probabilidad de que reciba mas
de una llamada.
A menos que sea notado, cuando nos hagamos referencia a la distribucion binomial negativa(r, p)
usaremos la fmp (3.6).
La distribucion binomial negativa, tiene ese nombre de la relacion
r+y+1 y r (r)(r 1)(r 2) . . . (r y + 1)
= (1) = (1)y ,
y y y(y 1)(y 2) . . . 2,1
la cual es, en efecto, la definicion para un coeficiente binomial con enteros negativos (ver
Feller (1968) para un tratamiento con mayor profundidad). Sustituyendo en (3.6), se obiene
y r
P (Y = y) = (1) pr (1 p)y , y = 0, 1, . . . . . .
y
la cual muestra un parecido muy llamativo con la distribucion binomial.
P
El hecho que y=0 P (Y = y) = 1 no es facil de verificar, pero proviene de una extension
del Teorema del Binomio, extension que incluye exponentes negativos. No expondre esto
aqu. Una excelente exposicion de este hecho lo puede encontrar en Feller (1968).
La media y la varianza de Y puede ser calculada usando tecnicas similares a las usadas para
la distribucion binomial:
X
r+y+1 r
EY = y p (1 p)y
y
y=0
X
(r + y 1)!
= pr (1 p)y
(y 1)!(r 1)!
y=1
X
r+y+1 r
= r p (1 p)y .
y1
y=1
Ejemplo 3.1.8. Un pediatra desea conseguir 5 parejas, cada una de las cuales espera
a su primer hijo, para que participen en un regimen de nacimiento natural. Sea p =
P (una pareja seleccionada al azar acceda a participar). Si p = 0,2, cual es la probabili-
dad de que se le pida a 15 parejas que participen antes de encontrar 5 que accedan?. Esto
es, si S={accede a participar}, cual es la probabilidad de que ocurran 10 fallas antes del
quinto exito?.
P (X = x | p) = p(1 p)x1 , x = 1, 2, . . .
la cual define la fmp de una variable aleatoria X geometrica con probabilidad de exito p.
X puede ser interpretada como el ensayo para el cual el primer exito ocurre. As, diremos
P
esperando el primer exito. El hecho que
x=1 P (X = x) = 1 se sigue de la propiedad de
X 1
ax1 = ,
1a
x=1
1 1p
E X = EY + 1 = y V ar X = .
p p2
En esta seccion discutiremos algunas de las familias de distribuciones continuas mas co-
munes, aquellas que tienen nombres bien conocidos. Las distribuciones mencionadas aqu no
constituyen todas las distribuciones usadas en estadstica; pues ademas como vimos en sec-
ciones anteriores, cualquier funcion nonegativa, e integragrable puede ser transformada en
una fdp.
La distribucion uniforme continua esta definida de manera tal que se extiende masa
uniformemente sobre un intervalo [a, b]. Su fdp esta dada por
1
si x [a, b]
ba
f (x | a, b) = (3.8)
0 en otro caso
Rb
Es facil demostrar que a f (x) dx = 1. Tambien se tiene
Z b
x a+b
EX = dx =
a ba 2
Z b a+b 2
(x 2 ) (b a)2
V ar X = dx = .
a ba 12
( + 1) = () , > 0, (3.10)
la cual puede ser verificada utilizando integracion por partes. Combinando (3.9) y (3.10)
verificando el hecho que (1) = 1, se tiene para cualquier entero n > 0,
(Otro caso especial muy usado, que veremos en breve es: ( 12 ) = .)
Las expresiones (3.10) y (3.11) dan relaciones recursivas para la funcion gamma, que
hacen mas facil su calculo.
t1 et
f (t) = , 0<t< (3.12)
()
es una fdp. La familia gamma completa, sin embargo, tiene dos parametros, y puede ser
derivada por cambio de variables para conseguir la fdp de la va. X = T en (3.12), donde
es una constante positiva. Al hacer esto, conseguimos la familia gamma(, ),
1
f (x) = x1 ex/ , 0 < x < , > 0 , > 0. (3.13)
()
Para evaluar (3.14), note que el integrando es el nucleo de una fdp gamma( + 1, ). De la
(3.13) sabemos que para , > 0,
Z
x1 ex/ dx = () , (3.15)
0
as tenemos
Z
1 1
EX = x, x1 ex/ dx = ( + 1) +1
() 0 ()
()
=
()
= .
Note que para evaluar la E X hemos usado la tecnica de reconocimiento de la integral como
el nucleo de una fdp. Este hecho ya fue utilizado en multiples oportunidades.
P (X x) = P (Y ), (3.16)
donde Y Poisson(x/). La ecuacion (3.16) puede ser establecida por sucesivas integra-
ciones por partes. Ya que es un entero, podemos escribir () = ( 1)! para conseguir
Z x
1
P (X x) = t1 et/ dt
( + 1) 0
1 hh ix Z x i
(1) /t 2 t/
= t t + ( 1)t e dt ,
( + 1) 0 0
Hay dos importantes casos especiales de distribucion gamma. Si hacemos = p/2, donde
p es un entero, y = 2, entonces la fdp de la gamma resulta
1
f (x) = x(p/2)1 ex/2 , 0 < x < , (3.17)
(p/2)2p/2
la cual es la fdp de la chi cuadrado con p grados de libertad. La media, la varianza, y la
fgm de la distribucion chi cuadrado pueden todas se calculadas usando las formulas gamma
derivadas previamente.
La distribucion chi cuadrado juega una papel importante en inferencia estadstica, especial-
mente cuando se muestrea de una distribucion normal. Esto sera estudiado con detalle mas
adelante.
La distribucion Normal (muchas veces llamada Distribucion gaussiana juega un rol cen-
tral a lo largo de toda la estadstica. Existen tres grandes razones para ello. Primero, la
distribucion Normal y las distribuciones asociadas con ella, son muy tratables analtica-
mente (aunque no lo parezca con una primera mirada). Segundo, la distribucion normal
tiene una forma de campana familiar, cuya simetra la hace elegible para modelar un sin
fin de poblaciones. Aunque hay muchas otras distribuciones que tienen forma de campana,
pero no poseen la tratabiliad analtica de la normal. Tercero, existe el Teorema Central del
Lmite (mas adelante se vera con detalle) el cual muestra que bajo algunas condiciones, la
distribucion normal puede ser usada para aproximar una gran variedad de distribuciones
en grandes muestras.
La distribucion normal tiene dos parametros, usualmente anotados por y 2 , las cuales
son su media y su varianza. La fdp de la distribucion Normal con media y varianza 2
(usualmente anotada N (; 2 )) esta dada por,
1 2 2
f (x | , 2 ) = e(x) /(2 ) , < x < . (3.20)
2
= P (X z + )
Z z+
1 2 2
= e(x) /(2 ) dx
2
Z z
1 2 x
= et /2 dt, (sustituyendo t = )
2
E X = E( + z) = + E Z = .
Ya hemos probado que (3.20) integra 1 sobre la recta real, o sea vimos, via integral doble
que
Z
1 2 /2
ez dz = 1.
2
Note que esta integral es simetrica alrededor del 0, lo cual implica que la integral sobre
(, 0) es igual a la integral sobre (0, ). As el problema se reduca a probar
Z
r
z 2 /2 2
e dz = = . (3.21)
2 2
2 /2
Dijimos que la funcion ez no tiene una antiderivada que puede ser escrita explcitamente
en terminos de funciones elementales (esto es, en forma cerrada), por ello, no podemos
resolver la integral en forma directa. Se resuelve va una integral doble
La integral (3.21) esta relacionada con la funcion gamma; en efecto haciendo la sustitucion
w = 21 z 2 en (3.21) nosotros vemos que esta integral es ( 12 ). Si se es cuidadoso al conseguir
las constantes correctas ,nosotros vemos que la sustitucion propuesta implica
1 Z
= w1/2 ew dw = . (3.22)
2 0
La distribucion normal es un poco especial en el sentido, que sus dos parametros, (la
media) y 2 (la varianza), nos proveen una completa informacion exacta acerca de la forma
y la ubicacion de la distribucion. Esta propiedad que tiene la distribucion normal, no es solo
para esta fdp, pero esta formada por una familia de fdps llamadas familias de localizacion
y escala.
Basta con resolver un elemental problema de calculo para mostrar que la fdp normal (3.20)
tiene un maximo en x = y puntos de inflexion (donde la curva cambia de concava a
convexa) en x = . Ademas la probabilidad contenida entre 1,2 o 3 desviaciones estandar
de la media es
P (| X | ) = P (| Z | 1) = 0,6826
P (| X | 2) = P (| Z | 2) = 0,9544
P (| X | 3) = P (| Z | 3) = 0,9947
Entre los muchos usos de la distribucion Normal, uno de gran importancia es su uso como
aproximacion de otras distribuciones (los cuales son justificados por el Teorema central del
Lmite). Por ejemplo, si X Bin(n, p), entonces E X = np y V ar X = np(1 p), y bajo
condiciones convenientes, la distribucion de X puede ser aproximada con una va. normal
con media = np y varianza 2 = np(1 p). Las condiciones convenientesson que n debe
ser grande y p no debe ser un valor extremo (ni estar cerca del 0, ni cerca del 1). Como es el
caso de todas las aproximaciones no hay reglas absolutas, y para cada aplicacion debe ser
chequeada para decidir si la aproximacion es buena para ese caso. Una regla conservativa
que se sigue es que la aproximacion sera buena si min(np, n(1 p)) 5.
Ejemplo 3.2.2. Sea X Bin(25, 0,6). Aproximar X con una va. Y normal, y calcule la
probabilidad de que X tome valores menores o iguales que 13, y compare con el valor exacto.
La aproximacion puede ser grandemente mejorada, por una correccion por continuidad.
Se describira un metodo estandar para mejorar la calidad de la aproximacion que se obtiene
cuando se aproxima una probabilidad basada en una distribucion discreta por una basada
en una distribucion continua.
Supongase, que la va. X tiene una distribucion discreta con fmp f (x) y se desea aproximar
esta distribucion por una distribucion continua con fdp g(x). Consideremos por simplicidad
solamente una distribucion discreta para la que todos los valores posibles de X sean enteros.
Si la fdp g(x) proporciona una buena aproximacion a la distribucion de X, entonces para
cualquier par de enteros a, b se puede aproximar simplemente la probabilidad
b
X
P (a X b) = f (x) (3.23)
x=a
por la integral
Z b
g(x) dx. (3.24)
a
1 1
P (X = a) = P a X a + (3.26)
2 2
Z a+ 1
2
g(x) dx. (3.27)
a 12
Analogamente,
1
P (X > a) = P (X a + 1) = P X a +
Z 2
g(x) dx.
a+ 12
La familia de distribuciones beta es una familia continua sobre (0, 1) indexada por dos
parametros. La fdp de la beta(, ) es
1
f (x | , ) = x1 (1 x)1 , 0 < x < 1 > 0 > 0, (3.28)
B(, )
La funcion beta esta relacionada con la funcion gamma a traves de la siguientes identidad:
()()
B(, ) = . (3.29)
( + )
La (3.29) es muy usada al ocupar la funcion Beta, permitiendonos ciertas ventajas tomadas
de la funcio Gamma. En efecto, nunca trataremos directamente con la Beta, sino con (3.29)
para todas las evaluaciones que hagamos.
La distribucun Beta, es una de las pocas distribuciones, entre las mas conocidas que dan
probabilidad 1 sobre un intervalo finito, aqu el intervalo es el (0, 1). De esta manera, la
Beta es muy usada para modelas proporciones, las cuales, naturalmente caen entre 0 y 1.
Seran ilustradas algunas de estas situaciones en el captulo 4.
Calculemos los momentos para esta distribucion. Resolverlo es facil por la forma de la fdp.
Para n > se tiene
Z 1
n 1
EX = xn x1 (1 x)1 dx
B(, ) 0
Z 1
1
= x(+n)1 (1 x)1 dx.
B(, ) 0
B( + n, ) ( + n)( + )
E Xn = = . (3.30)
B(, ) ( + + n)()
EX = y V ar X = .
+ ( + )2 ( + + 1)
Como los valores de y varan, la distribucion beta toma diversas formas, estrictamente
decrece ( = 1, > 1), forma de U ( < 1, < 1) o es unimodal ( > 1, > 1). El
caso = la fdp es simetrica alrededor de 1/2 y varianza (4(2 + 1)1 ). La fdp se vuelve
mas concentrada cuando crece, pero sigue siendo simetrica. Finalmente, si = = 1,
la distribucion se reduce a una uniforme en (0,1), mostrando que la uniforme puede ser
considerada un miembro de la familia beta. La beta esta tambies relacionada, a traves de una
transformacion, con la distribucion F , una distribucion que juega un papel extremadamente
importante en analisis estadstico.
1 1
f (x | ) = , < x < , < < . (3.31)
(x )2
A los ojos, en principio, no parece tener grandes diferencias con la normal. Sin embargo
existe una gran diferencia entre ambas. Ya hemos vista que la media de esta distribucion
no existe, o sea hemos probado que E | X |= . Es facil probar que la (3.31) es una fdp
para todo .
Ya que la E | X |= , se sigue que esta no existen momentos para la distribucion
Cauchy, o sea que el valor absoluto de todos los momentos es . En particular la fgm
no existe.E | X |= .
El parametro en no mide (3.31) el centro de la distribucion; sino que representa la me-
diana. De donde, se sique que si una va. X tiene distribucion Cauchy con parametro ,
entonces P (X ) = 21 , mostrando que es la mediana de la distribucion.
La distribucion Cauchy juega un rol especial en estadstica teorica. Ella representa, mas
bien un caso extremo contra conjeturas que pueden ser probadas; es decir en otras palabras
propiedades que todas las distribuciones cumplen en general no de dan para la Cauchy!!.
Diriamos que es un caso patologico. Por ejemplo es comun en la practica calcular cocientes
de observaciones, esto es cocientes de va.. Una sorpresa es el hecho que el cociente de dos
normales estandar tiene distribucion Cauchy; de donde el hecho de tomar cocientes nos
puede llevar a distribucines enfermas!!.
Si X es una va. cuyo logaritmo esta normalmente distribudo (esto es, logX N (, 2 ),
entonces se dice que X tiene una distribucion lognormal. La fdp de X puede ser obtenida por
una transformacion de la fdp Normal usando el teorema de las transformacines, obteniendose
1 1 (logx)2 /(22 )
f (x | , 2 ) = e , 0 < x < , < < , > 0 (3.32)
2 x
para la fdp de la lognormal. Los momentos de X pueden ser calculados directamete, usando
(3.32), o explotando su relacion con la normal.
E X = E elog X
= EY Y = log X N (; 2 ))
2 /2)
= e+( .
2 2
V ar X = e2(+ ) e2+ .
1 |x|/
f (x | , ) = e , < x < , < < , > 0. (3.33)
2
La doble exponencial provee una distribucion simetrica con colas pesadas (mucho mas pe-
sadas que la Normal), pero tiene todos sus momentos. La esperanza y la varianza son muy
faciles de calcular, ellas son
EX = y V ar X = 2 2 .
Existen muchas otras distribuciones continuas que tienen uso en diferentes aplicaciones
estadsticas, muchas de las cuales quizas apareceran a lo largo de estas notas. El material
bibliografico referente para las distribuciones usadas en estadstica, puede ser el trabajo de
Johnson y Kotz (1969,1970a,1970b).
Una familia de fdp o de fmp se denomina familia exponencial, si puede ser expresada
como
X
k
f (x | ) = h(x)c() exp wi ()ti (x) . (3.34)
i=1
Aqu h(x) 0 y t1 (x), t2 (x), . . . , tk (x) son funciones real valoradas de las observaciones x
(o sea, ellas no pueden depender de ), c() > 0 y w1 (), w2 (), . . . , wk () son todas funciones
real valoradas positivas del parametro vector valuado (ellas no pueden depender de x).
Muchas de las familias introducidas en las secciones previas son familias exponenciales.
Ellas incluyen las familias continuas (normal, gamma, beta, etc.) y las familias discretas
(binomial, Poisson, binomial negativa, etc.)
La forma especfica (3.34) implica que las familias exponenciales tienen muchas propiedades
interesantes desde el punto de vista matematico. Pero aun mas importante para un modelo
estadstico, esta forma (3.34) implica muchas propiedades estadsticas interesantes y de facil
deduccion a partir de la misma.
Para verificar que una familia de fpds o fmps es una familia exponencial, nosotros debemos
identificar las funciones h(x), c(), wi (), ti (x) y mostrar que la familia tiene la forma (3.34).
Esto se ilustra en los siguientes dos ejemplos
Ejemplo 3.3.1. Mostrar que la familia bin(n,p), con n entero positivo, 0 < p < 1, es una
familia exponencial.
Modelos Multivariados
Para la primera seccion, abordaremos modelos bivariados, es decir modelos que involucran
dos variables aleatorias.
Supongamos que con cada punto en un espacio muestral asociamos un para ordenado
97
Probabilidad y Estadstica
Ejemplo 4.1.1. Consideremos el experimento que consiste en arrojar dos dados honestos.
El espacio muestral para este experimento tiene 36 elementos igualmente probables. Por
ejemplo el punto muestral (3, 3) denota el resultado para el cual ambos dados muestran un
3; el punto muestral (4, 1) denota el resultado para el cual el primer dado mostro un cuatro
y el segundo dado un 1; etc. Ahora, con cada uno de los 36 puntos del muestral asociamos
dos numeros, X e Y . Sean
2 1
P ({(4, 1); (1, 4)}) = = .
36 18
As,
1
P (X = 5 e Y = 3) = .
18
De aqu en adelante, escribiremos P (X = 5, Y = 3) por P (X = 5 e Y = 3). Leer la coma
1
como una . En forma analoga, P (X = 6, Y = 0) =
2
36 por que el unico punto muestral
hace que X = 6, Y = 0 es el (3, 3). Para eventos mas complicados, la tecnica es la misma.
4 1
Por ejemplo, P (X = 7, Y 4) = 36 = 9 por que solamente para cuatros puntos muestrales
se cumple que X = 7, Y 4, ellos son {(4, 3); (3, 4); (5, 2); (2, 5)}.