Professional Documents
Culture Documents
ParaAntroplogosFsicos
JosLuisCastrejnyDianaTroncoso
Versindeagostode2009
UNIDAD I
1. ELEMENTOS BASICOS DE PROBABILIDAD
1.1.
Concepto de Probabilidad
Desde el punto de vista matemtico la probabilidad es una medida de la incertidumbre.
Se ha convenido que dicha medida tome como valores entre cero y uno. Hablar de
incertidumbre nos refiere al trmino azar. En la vida cotidiana estamos a menudo
rodeados de fenmenos donde el azar est impregnado a los que grosso modo se les
ha denominado fenmenos aleatorios. A diferencia de otro conjunto de fenmenos que
se modelan por ecuaciones determinsticas, como los estudiados por la fsica, la
probabilidad intenta modelar los fenmenos aleatorios a partir de la observancia de
ciertas regularidades en los eventos involucrados. Precisando, llamaremos fenmeno
aleatorio a todo aquel fenmeno en que se involucran factores fortuitos, provocando
que su desenlace est sujeto al azar. De hecho, aun cuando todos sus posibles
resultados pueden conocerse de antemano, la conclusin particular de un ensayo no
puede determinarse exactamente con anterioridad. Sin embargo, la probabilidad es
una medida para cuantificar el grado de certeza o incertidumbre de que ocurra cierto
resultado. La forma de asignar probabilidades da lugar a diferentes enfoques. Ms all
de un mtodo matemtico, la forma de determinar la probabilidad de un evento
depende del tipo de fenmeno aleatorio al que se relaciona.
1.1.1. Probabilidad clsica o a priori
ste enfoque slo puede utilizarse cuando los posibles resultados simples de un
fenmeno aleatorio son EQUIPROBABLES; es decir, tienen la misma probabilidad de
ocurrir.
Dicha caracterstica permite que, sin necesidad de realizar el experimento, las
probabilidades de los eventos puedan ser asignadas a travs del razonamiento
abstracto con simplemente dividir el nmero de elementos del evento entre el nmero
de elementos del espacio muestral:
ENFOQUE CLSICO
Permite calcular la probabilidad de un
evento antes de que ocurra, pues los
resultados del fenmeno son equiprobables.
EXPRESIN
P (E ) =
#E
#
EJEMPLO
(lanzamiento de dado balanceado)
Nmero de elementos del espacio
Espacio muestral del fenmeno
muestral
= {1,2,3,4,5,6}
# = 6
P (U ) = 1
D = {2}
#D =1
P ( D) = 1
T = {3}
#T = 1
P (T ) = 1
C = {4}
#C = 1
P (C ) = 1
Q = {5}
#Q =1
P (Q ) = 1
S = {6}
#S =1
P(S ) = 1
U = {1}
EXPRESIN
P ( E ) = Frecuencia relativa
P(E) =
# de eventos observados
# de repeticiones del fenmeno
EJEMPLO
(sexo de un recin nacido)
Sea M el evento en que el recin nacido es mujer.
Sea H el evento en que el recin nacido es hombre.
La probabilidad de estos eventos, sin embargo, no puede calcularse mediante el
enfoque clsico pues, como atestiguan varias investigaciones, en prcticamente todas
las poblaciones del mundo, nacen ms hombres que mujeres.
Segn el reporte Mujeres y hombres en Mxico, 20071, en el grupo de 0 a 15 aos
hay 103 hombres por cada 100 mujeres, que en trminos porcentuales se traduce en
50.7% de nios y 49.3% de nias. Si sta es la frecuencia relativa del fenmeno sexo
de un recin nacido, podemos determinar que la probabilidad de los eventos M y H
son:
P ( M ) = 0.493
P ( H ) = 0.507
Instituto Nacional de Estadstica, Geografa e Informtica, 2007. Estructura de la poblacin por edad y
sexo y Relacin hombres-mujeres por entidad federativa y grupos de edad en Mujeres y hombres en
Mxico, 2007. 6, 8 p.p. Documento electrnico:
http://www.inegi.gob.mx/prod_serv/contenidos/espanol/bvinegi/productos/integracion/sociodemografico/
mujeresyhombres/2007/MyH_2007_1.pdf
EJEMPLOS DE EXPRESIN
P ( E ) = x P ( Ec )
EJEMPLO
(terremoto en California)
Sea S el evento en que se da un terremoto en el sur de California.
Sea T el evento en que se da un terremoto tanto en el sur como en el norte de
California.
Bajo rdenes del gobierno de California y a peticin de las aseguradoras privadas
estadounidenses, expertos de tres observatorios geolgicos (el Servicio Geolgico
Estadounidense, el Centro de Observacin de Temblores de la Universidad del Sur de
California y el Servicio Geolgico Estatal de California) investigaron basndose en
observaciones satelitales la posibilidad de que ocurra un terremoto en el territorio
de California.
Comparando su pronstico con el temblor que hubo en 1994 en la zona de Northridge
(6.7 grados Richter), el reporte entregado afirma que es "virtualmente cierto que
California experimente por lo menos un temblor mayor para el ao 2028", y que uno
de mayor magnitud que ese ocurrir entre los aos 2037 y 2038.
Segn la informacin, hay un 97% de probabilidades de que ocurra un terremoto
mayor en el sur de California en ese periodo, y un 93% de posibilidades de que el
movimiento incluya tambin al norte de California.2
P ( S ) = 0.97
P (T ) = 0.93
ste caso es, sin duda alguna, ejemplar para explicar que en muchas ocasiones no
hay forma de atestiguar repetidamente un fenmeno para calcular las probabilidades
de sus eventos. Por ende, es necesario acercarse a los conocimientos de un
especialista para realizar tal tarea.
Prevn un gran terremoto en California entre 2008 y 20038 en El Universal, Secc. El Mundo. Martes
15 de abril del 2008. Formato electrnico: http://www.eluniversal.com.mx/notas/498716.html
= {1,2,3,4,5,6}
EJEMPLO
(lanzamiento de dado)
Y al definir dicho espacio muestral
reconocemos el nmero de resultados
que tiene este fenmeno aleatorio:
# = 6
Por otro, se denomina evento (denotado por cualquier letra mayscula) al resultado
del ensayo de un fenmeno aleatorio. Dado que todo evento es un subconjunto del
espacio muestral, existen diversos tipos de eventos:
a) Eventos simples: Son aquellos que los que se da slo un resultado.
EJEMPLO
(lanzamiento de dado)
Sea D el evento en que, al lanzar un dado, se obtiene el nmero dos.
D = {2}
#D =1
P = {2,4,6}
#P = 3
N ={
}
={ }
#N =0
# = 0
#O = 6
# = 6
C = {1, 2,3,5}
D = {4, 6}
#C = 4
#D = 2
,
1
,
2
,
3
,
4
,
5
,
6
,
( )()( )( )( )( )( )
(1, 2,3, 4 ) , (1, 2,3,5 ) , (1, 2,3, 6 ) , (1, 2, 4,5 ) , (1, 2, 4, 6 ) , (1, 2,5, 6 ) , (1,3, 4,5 ) , (1,3, 4, 6 ) , (1,3,5, 6 ) ,
(1, 2,3, 4,5 ) , (1, 2,3, 4, 6 ) , (1, 2,3,5, 6 ) , (1, 2, 4,5, 6 ) , (1,3, 4,5, 6 ) , ( 2,3, 4,5, 6 ) , (1, 2,3, 4,5, 6)
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,
=
# = 52
A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R,
, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R
a) Gracias a lo cual podemos observar las 52 posibles cartas que pueden ser
extradas de dicha baraja.
Ahora bien, calculemos el total de subconjuntos de dicho espacio muestral:
2 = 252 = 4.5036x1015
b) Como podemos ver, el nmero de eventos posibles para este fenmeno es
inmenso: 4.5036x1015 .
Finalmente determinemos el nmero y tipo de los siguientes eventos:
A = {} # A = 1
, El evento sale un as de corazones tiene slo un elemento, por ende es un
EVENTO SIMPLE.
D = {10} # D = 1
, El evento se obtiene un diez de diamantes contiene un elemento, por lo cual
es un EVENTO SIMPLE.
C = {4, 4, 4, 4} # C = 4
, El evento sale un cuatro comprende 4 elementos. Debido a ello es un
EVENTO COMPUESTO.
U ={
} #U = 0
J ={
} #J =0
, El evento se obtiene una carta con un uno no tiene elemento alguno, por lo
cual es un EVENTO IMPOSIBLE.
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,
P=
# P = 52
J
,Q
,R
A
,
2,
3,
4,5,
6,
7,8,
9,10,
Q = {Q,Q,Q,Q} # Q = 4
T = { A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R,} # T = 13
, Tanto el evento Q como el T tienen ms de un elemento (4 y 13,
respectivamente). Si bien esto hace a cada uno un EVENTO COMPUESTO, es
ms importante notar que, como pareja, NO SON EVENTOS AJENOS, pues
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,
R=
# R = 26
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,
A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R,
N =
# N = 26
, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R
, Si bien estos eventos son tambin COMPUESTOS (ya que comprenden 13
elementos), como pareja s son EVENTOS EXCLUYENTES, ya que ninguno de
sus puntos muestrales es igual.
P(E) 0
P(E) 1
0 P(E) 1
k
P ( E1 ) + ... + P ( Ek ) = P ( Ei ) =P ( ) = 1
i =1
P ( E ) + P ( Ec ) = 1
C. EJEMPLOS DE APLICACIN
1.
Defina, justificando su respuesta, el enfoque necesario para asignar
probabilidad a los siguientes eventos:
18
= 0.4865 , Segn ste enfoque, la probabilidad de que la bola caiga
37
en una casilla roja es de 48.65%.
P(S ) =
80
= 0.4000 , Gracias a l sabemos que la probabilidad de que salga
200
sol en el prximo lanzamiento es de 40.00%.
P ( D ) = 0.5000
P (U ) = 0.3000
= {pon una, pon dos, todos ponen (una), toma una, toma dos, toma todo} # = 6
P = {pon una,todos ponen (una),} # P = 2
El 30% de la poblacin presenta durante su vida algn tipo de alergia en Comunicado de prensa No.
318. Secretara de Salud. 7 de junio del 2006. Documento electrnico:
http://www.salud.gob.mx/ssa_app/noticias/datos/2006-06-07_2254.html
P ( P) =
2
= 0.3333 , Segn lo cual, la probabilidad de que alguien o todos
6
pongan una ficha es de 33.33%.
P (T ) =
38
= 0.3800
100
P (T ) =
40
= 0.4000
100
Si bien no hay forma de aqu tampoco hay forma de repetir el evento, los
registros histricos muestran una probabilidad del 50 por ciento de que haya
precipitaciones en los das en que se llevarn a cabo las citadas ceremonias, el 8
y el 24 de agosto, respectivamente.5
Por ende, la probabilidad del evento lluvia durante las ceremonias ( L ) es de:
P ( L ) = 0.5000
2. Compruebe con ayuda de los siguientes fenmenos las reglas de probabilidad:
a) El lanzamiento de una moneda balanceada.
b) La tirada de un dado no trucado.
Definamos primero el espacio muestral de ambos eventos:
MONEDA
DADO
= {guila, sol}
= {1,2,3,4,5,6}
# = 2
# = 6
Aumentan denuncias por delitos ambientales en el DF en El Universal, Secc. DF. 1 de junio del
2008. Formato electrnico: http://www.eluniversal.com.mx/notas/511216.html
5
Controlarn clima en JO 2008 con cohetes en El Siglo de Durango. 2 de enero del 2008. Direccin
electrnica: http://www.elsiglodedurango.com.mx/noticia/152651.controlaran-clima-en-jo-2008-concohetes.siglo
10
A = {guila}
# A =1
Salga sol ( S )
S = {sol}
#S =1
P ( A ) = 1 = 0.5000
2
P ( S ) = 1 = 0.5000
2
DADO
Caiga uno (U )
U = {1}
#U = 1
Caiga dos ( D )
D = {2}
#D =1
Caiga tres (T )
T = {3}
#T = 1
Caiga cuatro ( C )
C = {4}
#C = 1
Caiga cinco ( Q )
Q = {5}
#Q =1
Caiga seis ( S )
S = {6}
#S =1
P (U ) = 1 = 0.1667
6
P ( D ) = 1 = 0.1667
6
P (T ) = 1 = 0.1667
6
P ( C ) = 1 = 0.1667
6
P ( Q ) = 1 = 0.1667
6
P ( S ) = 1 = 0.1667
6
Ahora confirmemos que la suma las probabilidades de todos los eventos de cada
fenmeno es igual a uno:
MONEDA
Salga guila ( A )
Salga sol ( S )
P ( A ) = 1 = 0.5000
2
P ( S ) = 1 = 0.5000
2
P ( A) + P ( S ) = 1 + 1 = 2 = 1
2
2
2
DADO
Caiga uno (U )
Caiga dos ( D )
Caiga tres (T )
TOTAL
A = {guila}
# A =1
P ( A ) = 1 = 0.5000
2
S = {sol}
#S =1
P ( S ) = 1 = 0.5000
2
11
P ( A) + P ( S ) = 1 + 1 = 2 = 1
2
2
2
DADO
Sea N el evento en que cae un nmero non.
N = {1,3,5}
P ( N ) = 3 = 0.5000
6
#N =3
P = {2, 4, 6}
P ( P ) = 3 = 0.5000
6
#P =3
Eventos cuya suma es igual a uno:
P ( N ) + P ( P) = 3 + 3 = 6 = 1
6
6
6
Ya estudiados los enfoques y axiomas de la teora probabilstica, en este captulo
analizaremos cmo se aplican dichos principios al clculo de probabilidades de
diversos tipos de eventos.
Como anteriormente mencionamos, un evento imposible ( ) es aqul que no
contiene elementos. Dado que dicho suceso no puede ocurrir, la probabilidad de un
evento imposible siempre ser la mnima P ( E ) 0 ; es decir, cero:
EXPRESIN PARA ASIGNAR
PROBABILIDAD A UN EVENTO
IMPOSIBLE
P () = 0
Por el contrario, dijimos que el evento seguro ( ) es aqul que contiene los mismos
elementos que el espacio muestral. El hecho de que este suceso comprenda todos los
P ( E ) =P ( )
i =1
probabilidad del evento seguro siempre sea la mxima P ( E ) 1 ; esto es, igual a
uno:
EXPRESIN PARA ASIGNAR
PROBABILIDAD A UN EVENTO
SEGURO
P () = 1
Evento complemento
Por otro lado, revisamos que un evento complemento
(E )
c
todos los elementos del espacio muestral que no estn en el evento E . Si la suma de
( )
P ( Ec ) = 1 P ( E )
12
I = ( E1 E2 )
EVENTO INTERSECCIN
Por otro lado, se llama evento unin al evento que contiene los elementos de dos o
ms eventos ( E1 , E2 , E3 ,..., Ek ) :
U = ( E1 E2 )
EVENTO UNIN
I = ( E1 E2 )
P ( I ) = P ( E1 E2 )
P ( E1 E2 ) =
2) Un evento unin sucede cuando se da uno u otro evento. Por tal motivo, la
probabilidad de un evento unin se puede calcular sumando las probabilidades
individuales de los eventos y restando a ello la probabilidad de su interseccin:
EVENTO UNIN
U = ( E1 E2 )
P (U ) = P ( E1 E2 ) = P ( E1 ) + P ( E2 ) P ( E1 E2 )
13
P ( E3 E4 ) = 0
PROBABILIDAD DE EVENTO
COMPLEMENTO RESPECTO A UN
EVENTO INTERSECCIN
ENTRE EVENTOS AJENOS
P ( E3 E4 ) = 1
c
P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 ) P ( E3 E4 )
P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 ) 0
P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 )
EXPRESIN PARA ASIGNAR PROBABILIDAD A LA
UNIN DE EVENTOS AJENOS
P ( E3 E4 ) = P ( E3 ) + P ( E4 )
P ( E1 E2 E3 ... EK ) = P Ei
i =1
k
P ( E1 E2 E3 ... EK ) = P ( Ei )
i =1
Leyes de probabilidad
Habiendo revisado los eventos interseccin y unin, podemos mencionar ya otras de
las leyes que se aplican al clculo de probabilidad.
Leyes DMorgan
P ( A B) = P ( A B
c
LEYES DMORGAN
P ( A B ) = P ( Ac B c )
c
Leyes distributivas
LEYES DISTRIBUTIVAS
P ( A ( B C )) = P (( A B ) ( A C ))
P ( A ( B C )) = P (( A B ) ( A C ))
Revisemos y apliquemos ahora todo lo anterior utilizando, una vez ms, un sencillo
fenmeno aleatorio: el lanzamiento de un dado.
14
= {1,2,3,4,5,6}
# = 6
D ={
} #D = 0
F = {1} # F = 1
P ( F ) = 1 = 0.1667
6
G = {2,3, 4,5, 6} # G = 5
P ( G ) = 5 = 0.8333
6
P ( G ) = 1 P ( F ) = 1 0.1667 = 0.8333
, La probabilidad de que se obtenga un nmero diferente al uno es de 83.33%.
Ahora veamos un poco sobre la probabilidad de interseccin y unin entre eventos
cualesquiera y ajenos con tres diferentes sucesos:
15
H = {5} # H = 1
P ( H ) = 1 = 0.1667
6
I = {1,3,5} # I = 3
P ( I ) = 3 = 0.5000
6
J = {1, 2,3} # J = 3
P ( J ) = 3 = 0.5000
6
H = {5}
I = {1,3,5}
P ( E1 E2 ) =
H = {5}
J = {1, 2,3}
( H J ) = { } . Debido a ello: P ( H J ) = 0
16
P ( H J ) = 1 P ( H J ) = 1 0 = 1
c
Sabemos que: H = {5} y que I = {1,3,5} . Por tanto, al unir los dos eventos
tenemos:
( H I ) = {1,3,5,5} .
( H I ) = {5} ( H I ) = {1,3,5} ,
resultando en:
P ( H I ) = 3 = 0.5000
6
Esto, claro est, es ms sencillo aplicando la expresin para probabilidad de unin
de eventos cualesquiera (no ajenos):
FRMULA
P ( E1 E2 ) = P ( E1 ) + P ( E2 ) P ( E1 E2 )
P(H I ) = P(H ) + P(I ) P(H I )
P ( H I ) = 1 + 3 1 = 3 = 0.5000
6
6
6
6
H = {5} # H = 1 P ( H ) = 1
6
3
I = {1,3,5} # I = 3 P ( I ) =
6
1
( H I ) = {5} P ( H I ) = 6
Sabemos que: H = {5} y que J = {1, 2,3} . Por tanto, al unir los dos eventos
tenemos:
( H J ) = {1, 2,3,5} .
P ( E3 E4 ) = P ( E3 ) + P ( E4 )
P(H J ) = P(H ) + P(J )
P ( H J ) = 1 + 3 = 4 = 0.6667
6
6
6
H = {5} # H = 1 P ( H ) = 1
6
3
J = {1, 2,3} # J = 3 P ( J ) =
6
17
A = {2, 4, 6} # A = 3
P ( A ) = 3 = 0.5000
6
B = {4,5, 6} # B = 3
P ( B ) = 3 = 0.5000
6
C = {1, 2,3,5} # C = 4
P ( C ) = 4 = 0.6667
6
P ( A B ) = P ( Ac B c )
c
P ( A B ) = P ( Ac B c )
c
A = {2, 4, 6} # A = 3
Ac = {1,3,5}
P ( A) = 3
c
P ( A) = 1 P ( A) = 1 3 = 3
6
6
B = {4,5, 6} # B = 3
B c = {1, 2,3}
P ( B) = 3
( A B ) = {2, 4,5, 6}
c
P ( B) = 1 P ( B) = 1 3 = 3
6
6
P ( A B) = 2
( A B ) = {4, 6}
,
P ( A B) = 1 P ( A B) = 1 2 = 4
6
6
c
P ( A B ) = P ( A) + P ( B ) P ( A B )
no ajenos
P ( A B) = 3 + 3 2 = 4
6
6
6
6
P ( A B) = 1 P ( A B) = 1 4 = 2
6
6
c
18
(A
(A
B c ) = {1,3}
P ( Ac B c ) = 2
P ( Ac B c ) = P ( Ac ) + P ( B c ) P ( Ac B c )
B c ) = {1, 2,3,5}
no ajenos
P ( A B) = 4
c
6
P( A B ) = 4
6
c
P ( A B ) = P ( Ac B c )
P ( Ac B c ) = 3 + 3 2 = 4
6
6
6
6
c
P ( A B) = 2
6
c
c
P( A B ) = 2
6
P ( A B ) = P ( Ac B c )
= 4 = 0.6667
6
= 2 = 0.3333
6
,
, Finalmente, si sustituimos letras por eventos y elementos, podemos concluir que:
1. Por un lado, la probabilidad de que aparezca un 1, 2, 3 5
P ( A B )c = P ( Ac B c ) es de 66.67%.
c
2. Por otro, la probabilidad de que salga 1 y 3 P ( A B ) = P Ac B c es de
33.33%.
Leyes distributivas:
P ( A ( B C )) = P (( A B ) ( A C ))
P ( A ( B C )) = P (( A B ) ( A C ))
A = {2, 4, 6} # A = 3
P ( A) = 3
B = {4,5, 6} # B = 3
P ( B) = 3
C = {1, 2,3,5} # C = 4
P (C ) = 4
( A B ) = {4, 6}
P ( A B) = 2
( A B ) = {2, 4,5, 6}
P ( A B ) = P ( A) + P ( B ) P ( A B )
no ajenos
P ( A B) = 3 + 3 2 = 4
6
6
6
6
( A C ) = {2}
P( AC) = 1
P ( A C ) = P ( A) + P ( C ) P ( A C )
no ajenos
( ( A B ) ( A C ) ) = {2, 4,5, 6}
( ( A B ) ( A C ) ) = {2, 4, 6}
ajenos
P( AC) = 3 + 4 1 = 6
6
6
6
6
P (( A B ) ( A C )) = 4
P (( A B ) ( A C )) = P ( A B ) + P ( A C )
P (( A B ) ( A C )) = 2 + 1 = 3
6
6
6
19
( B C ) = {5}
P(B C) = 1
P ( B C ) = P ( B ) + P (C ) P ( B C )
P(B C) = 3 + 4 1 = 6
6
6
6
6
no ajenos
( A ( B C ) ) = {2, 4, 6}
P ( A ( B C )) = 3
P ( A ( B C ) ) = P ( A) + P ( B C )
( A ( B C ) ) = {2, 4,5, 6}
P ( A ( B C )) = 3 + 1 = 4
6
6
6
P ( A ( B C )) = 4
6
P (( A B ) ( A C )) = 4
6
ajenos
P ( A ( B C )) = 3
6
P (( A B ) ( A C )) = 3
6
P ( A ( B C )) = P (( A B ) ( A C ))
P ( A ( B C )) = P (( A B ) ( A C ))
= 3 = 0.5000
6
= 4 = 0.6667
6
, Es decir:
1. La probabilidad de que se obtenga un 2, 4 6
P ( A ( B C ) ) = P ( ( A B ) ( A C ) ) es de 50.00%.
Probabilidad condicional
Otra forma de analizar dos o ms eventos es investigar si la ocurrencia de uno
depende de otro. En vistas de tal objetivo, la teora probabilstica ha desarrollado la
probabilidad condicional, que por definicin es la probabilidad de que suceda un
P ( A B) =
P ( A B)
P ( B)
P ( B A) =
P ( A B)
P ( A)
20
P (C D ) =
P (C D )
0
=
=0
P ( D)
P ( D)
P(D C) =
P (C D )
0
=
=0
P (C )
P (C )
Eventos independientes
Si bien la operacin probabilidad condicional proporciona la probabilidad de que
suceda un evento dado otro, tambin nos permite identificar cuando los eventos
analizados son eventos independientes: eventos cuya probabilidad de suceso no se
ve afectada por la ocurrencia de otros.
Para ello basta simplemente comprobar si, y slo si, la probabilidad condicional
calculada es igual a la probabilidad de evento consecuencia:
P ( A B ) = P ( A)
EVENTOS INDEPENDIENTES
P ( B A) = P ( B )
P ( A B) =
P ( A B)
y que la probabilidad condicional de eventos independientes es
P ( B)
P ( A B)
= P ( A ) . Por ende:
P ( B)
P ( A B ) = P ( A) P ( B ) .
P ( A B)
P ( A B) =
P ( B)
P ( A B ) = P ( A)
P ( A B)
= P ( A)
P ( B)
REGLA DE LA
MULTIPLICACIN DE
EVENTOS
INDEPENDIENTES
P ( A B ) = P ( A) P ( B )
21
P ( E1 E2 ) = P ( E1 ) P ( E2 )
P ( E1 E2 E3 ... EK ) = P ( E1 ) P ( E2 ) P ( E3 ) ... P ( EK )
k
P ( E1 E2 E3 ... EK ) = P ( Ei )
i =1
Ejemplos de aplicacin
1.
Veamos primero un ejemplo abstracto de la probabilidad condicional de
eventos cualesquiera y eventos ajenos con algunos de los casos que estudiamos
sobre el lanzamiento de un dado:
H = {5} # H = 1
P(H ) = 1
I = {1,3,5} # I = 3
P(I ) = 3
J = {1, 2,3} # J = 3
P(J ) = 3
( H I ) = {5}
(H J ) = { }
P(H I ) 1 6 6
P(H I ) =
=
= = 0.3333
P(I )
3 6 18
P(H J )
0
P(H J ) =
=
=0
P(J )
36
6
P(H I ) = 1
6
P(H J ) = 0
P(I H ) =
P(H I ) 1 6 6
=
= =1
P(H )
16 6
P(J H ) =
P(H J ) 0
=
=0
P(H )
16
2.
Considrense ahora los siguientes datos correspondientes a crneos
clasificados por sexo y grado de criba orbitaria:
22
( A)
FEMENINO
SEXO
(F )
MASCULINO
(M )
TOTAL
CRIBA
INCIPIENTE
(I )
SEVERA
(S )
TOTAL
21
34
52
107
36
20
17
73
57
54
69
180
P(F ) =
107
= 0.5944
180
P ( F I ) = P ( F ) + P (U ) P ( F I )
P(F I ) =
107 54 34 127
+
=
= 0.7056
180 180 180 180
23
OPCIN 2
OPCIN 1
P(I F ) =
34
= 0.3178
107
OPCIN 2
P(S M ) =
17
= 0.2329
73
P ( Ai ) =
1
3
Ahora bien, sabemos que para ganar el premio mayor deben marcarse correctamente
el resultado de todos los encuentros. Esto es:
1
P ( G ) = = 2.0908 x107
3
24
P (U ) =
1
56
P ( D) =
1
55
P (T ) =
1
54
P (C ) =
1
53
P (Q ) =
1
52
P(S ) =
1
51
P ( G ) = P (U D T C Q S )
P ( G ) = P (U ) P ( D ) P (T ) P ( C ) P ( Q ) P ( S )
1
1 1 1 1 1 1
P ( G ) = =
10
56 55 54 53 52 51 2.3377 x10
P ( G ) = 4.2777 x1011
, Y as nos percatamos de que atinarle al Melate es mucho ms difcil; de hecho, la
probabilidad de acertar por azar a los seis nmeros es de 0.0000000042777%.
5.
Resignados ante la improbabilidad de conquistar los juegos de Pronsticos, los
amigos han decidido ganar dinero apostando entre ellos. Su objetivo: acertar el
resultado de una moneda, un dado y una ruleta. Si uno de ellos apuesta a sol,
nmero primo y nmero par, respectivamente, cul es la probabilidad de que
gane?
Analicemos primero los espacios muestrales de dichos fenmenos y la probabilidad de
tales eventos:
MONEDA
= {guila, sol}
# = 2
Aparece sol
S = {sol}
#S =1
P(S ) = 1
25
= {1,2,3,4,5,6}
# = 6
R = {1, 2,3,5}
#R = 4
P ( R) = 4
RULETA
21, 22, 23, 24, 25, 26, 27, 28, 29, 30,31, 32,33, 34, 35, 36
# = 37
A = {2, 4, 6,8,10,12,14,16,18, 20, 22, 24, 26, 28, 30, 32, 34, 36}
# A = 18
P ( A ) = 18
37
P ( G ) = P ( R S A)
P ( G ) = P ( R ) P ( S ) P ( A )
1 4 18 72
P ( G ) = =
= 0.1622
2 6 37 444
, La probabilidad de que esa persona gane es de 16.22%
6.
Cambiando de tema, en una muestra de la Ciudad de Mxico se obtuvo que la
distribucin de grupos sanguneos es la siguiente:
GRUPO
A
B
AB
O
PORCENTAJE
20.00%
8.00%
1.00%
71.00%
Calcular la probabilidad de que una persona X pueda recibir sangre de una persona Y
(ambas elegidas al azar), a sabiendas de las siguientes limitaciones:
SANGRE
A
B
AB
O
( A, A) , ( A, B ) , ( A, AB ) , ( A, O ) , ( B, A ) , ( B, B ) , ( B, AB ) , ( B, O ) ,
=
26
( P ( A ) P ( A ) ) + ( P ( A ) P ( O ) ) + ( P ( B ) P ( B ) ) + ( P ( B ) P ( O ) ) + ( P ( AB ) P ( A ) )
P ( D) =
+ ( P ( AB ) P ( B ) ) + ( P ( AB ) P ( AB ) ) + ( P ( AB ) P ( O ) ) + ( P ( O ) P ( O ) )
)
)
P ( A )2 + ( P ( A ) P ( O ) ) + P ( B )2 + ( P ( B ) P ( O ) ) + ( P ( AB ) P ( A ) )
P ( D) =
2
2
+ ( P ( AB ) P ( B ) ) + P ( AB ) + ( P ( AB ) P ( O ) ) + P ( O )
P ( D) =
2
2
= {( F ) , ( M , F ) , ( M , M , F ) , ( M , M , M , F ) , ( M , M , M , M , F ) , ( M , M , M , M , M )}
a) Cul es la probabilidad de que finalmente haya ms nios que nias?
27
O = {( M , M , F ) , ( M , M , M , F ) , ( M , M , M , M , F ) , ( M , M , M , M , M )}
P (O ) = P (( M , M , F ) ( M , M , M , F ) ( M , M , M , M , F ) ( M , M , M , M , M ))
P ( O ) = P ( M , M , F ) + P ( M , M , M , F ) + P ( M , M , M , M , F ) + P ( M , M , M , M , M )
( P ( M ) P ( M ) P ( F )) + ( P ( M ) P ( M ) P ( M ) P ( F ))
P (O ) =
+ ( P ( M ) P ( M ) P ( M ) P ( M ) P ( F ) ) + ( P ( M ) P ( M ) P ( M ) P ( M ) P ( M ) )
( 0.507 0.507 0.493) + ( 0.507 0.507 0.507 0.493)
P (O ) =
+ ( 0.507 0.507 0.507 0.507 0.493) +
) (
) (
) (
) (
) (
) (
2
3
4
5
P ( O ) = ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 )
2
3
4
5
P ( O ) = ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 )
P (T ) = P ( ( M , M , F ) M ) =
P (( M , M , F ) M )
P(M )
P (( M , M , F ))
P(M )
0.127
= 0.250
0.507
,La probabilidad de que, dado que el prime hijo es varn, la familia tenga finalmente
tres hijos es de 25.00%
Ley de probabilidad total y teorema de Bayes
Veamos por ltimo otro par de formas para analizar la probabilidad de eventos
relacionados: 1) la ley de probabilidad total, que tomando en cuenta la probabilidad de
todas las causas posibles, permite determinar la probabilidad de un evento
consecuencia y 2) el teorema de Bayes, que habiendo observado un evento
consecuencia, hace posible deducir la probabilidad de los diferentes eventos
causantes.
28
({ B }
i i =1...k
diferentes al vaco,
( B1 B2 B3 ... Bk ) =
k
( B1 B2 B3 ... Bk ) = Bi =
i =1
k
P ( B1 B2 B3 ... Bk ) = P Bi = P ( )
i =1
P ( B1 ) + P ( B2 ) + P ( B3 ) + ... + P ( Bi ) = 1
( A)
muestral:
( A ) = A
( A ) =
Si los eventos ajenos ( Bi ) tienen partes en comn con A , dicho evento cualquiera, su
tamao y probabilidad pueden ser descritos de la siguiente manera:
A = A ( B1 B2 B3 ... Bk )
A = ( A B1 ) ( A B2 ) ( A B3 ) ... ( A Bk )
P ( A ) = P ( A B1 ) + P ( A B2 ) + P ( A B3 ) + ... + P ( A Bk )
29
P ( A Bi ) =
P ( A Bi )
P ( A Bi ) = P ( A Bi ) P ( Bi )
P ( Bi )
P ( A ) = P ( A B1 ) P ( B1 ) + P ( A B2 ) P ( B2 ) + P ( A B3 ) P ( B3 ) + ... + P ( A Bk ) P ( Bk )
Expresin que, al ser resumida, da origen a la ley de probabilidad total:
P ( A) = P A B j P ( B j )
j =1
Como su nombre lo dice, dicha ley permite calcular la probabilidad total de un evento
cualquiera ( A ) tomando en cuenta su probabilidad condicional P A B , as como
P ( A Bj ) = P A Bj P ( Bj )
Podemos considerar a la probabilidad condicional como:
P ( B j A) =
P ( A Bj )
P ( A)
P A Bj P ( Bj )
P ( A)
Empero, si un fenmeno cumple con las condiciones para que la ley de probabilidad
total se verifique:
P ( A) = P A B j P ( B j )
j =1
P ( B j A) =
P A Bj P ( Bj )
P ( A)
P A Bj P ( Bj )
P( A B ) P(B )
k
i =1
30
TEOREMA DE BAYES
P A Bj P ( Bj )
P( A B ) P(B )
k
i =1
= ( B Bc )
Dado que slo hay dos eventos causa, la probabilidad total del evento consecuencia
conlleva dos sumandos donde lo que cambia en la probabilidad condicional y en la
individual es el evento ajeno que se utiliza:
LEY DE
PROBABILIDAD
TOTAL
APLICACIN
P ( A) = P A B j P ( B j )
j =1
P ( A) = P ( A B ) P ( B ) + P A Bc P ( Bc )
En lo que respecta al teorema de Bayes hay dos expresiones posibles: una para
calcular la probabilidad de cada causa, y aunque los denominadores son iguales entre
ellos e iguales a la expresin para la ley de probabilidad total, el numerador difiere de
nuevo en el evento ajeno que se busca:
TEOREMA DE
BAYES
P ( B j A) =
P( A B ) P(B )
P ( A B) P ( B)
P ( B A) =
P ( A B) P ( B) + P ( A B ) P ( B )
k
i =1
APLICACIN
P A Bj P ( Bj )
j
31
P ( B A) =
c
P A Bc P ( Bc )
P ( A B ) P ( B ) + P A Bc P ( Bc )
2.
Supongamos que en la ENAH, la estatura del 8.0% de los hombres y del 1.0%
de las mujeres es mayor de 1.75 metros ( E ) . Si el 60.0% de los estudiantes son
mujeres y se selecciona un alumno cuya estatura es mayor de 1.75 m.: cul es la
probabilidad de que el estudiante sea:
a) mujer ( M ) ?
b) hombre ( H ) ?
(
(
)
)
( )
Al buscar la probabilidad condicional inversa (de que el estudiante sea hombre o mujer
dado que mide ms de 1.75m.) aplicamos el teorema de Bayes:
P ( B j A) =
TEOREMA DE
BAYES
P( A B ) P(B )
k
i =1
a) Sea mujer:
P(M E) =
P(M E) =
P A Bj P ( Bj )
j
P(E M ) P(M )
( 0.01)( 0.60 )
= 0.1579
( 0.01)( 0.60 ) + ( 0.08 )( 0.40 )
P(H E) =
P(H E) =
P(E H ) P(H )
( 0.08 ) ( 0.40 )
= 0.8421
( 0.01)( 0.60 ) + ( 0.08 )( 0.40 )
, Dicho resultado tambin puede alcanzarse por evento complemento gracias a que
el fenmeno posee slo dos eventos ajenos:
P ( H E ) = P ( M c E ) = 1 P ( M E ) = 1 0.1579 = 0.8421
32
P ( B j A) =
TEOREMA DE
BAYES
P A Bj P ( Bj )
P( A B ) P(B )
k
i =1
P( E | +) =
P( E | +) =
P(+ | E ) P( E )
P(+ | E ) P( E ) + P(+ | E c ) P( E c )
( 0.99 )( 0.005)
= 0.3322
( 0.99 )( 0.005) + ( 0.01)( 0.995 )
, La probabilidad de que el sujeto est realmente enfermo dado que la prueba dio
positivo es de 33.22%.
33
P( E c | +) =
P( E c | +) =
P(+ | E c ) P( E c )
P(+ | E c ) P( E c ) + P(+ | E ) P( E )
( 0.01)( 0.995)
= 0.6678
( 0.01)( 0.995) + ( 0.99 )( 0.005)
P( E | + ) = 1 P( E | + ) = 1 0.3322 = 0.6678
c
P( E | + c ) =
P( E | + c ) =
P(+ c | E ) P( E )
P(+ c | E ) P( E ) + P(+ c | E c ) P( E c )
( 0.01)( 0.005)
= 0.00005
( 0.01)( 0.005) + ( 0.99 )( 0.995)
P ( E c | + c ) = 1 P ( E | + c ) = 1 0.00005 = 0.99995
, La probabilidad de que el sujeto no est enfermo dado que la prueba sali negativa
es de 99.99%.
4.
Digamos que una poblacin est conformada por tres grupos tnicos
P ( X ) = 0.3
P (Y ) = 0.1
P( Z ) = 0.6
P (C | X ) = 0.2
34
P(C | Y ) = 0.4
P(C | Z ) = 0.05
Para contestar el primer inciso requerimos la probabilidad total del evento ojos claros,
por ende aplicamos la ley de probabilidad total:
P ( A) = P A B j P ( B j )
j =1
P ( C ) = P ( C X ) P ( X ) + P ( C Y ) P (Y ) + P ( C Z ) P ( Z )
P ( C c ) = 1 P ( C ) = 1 0.1300 = 0.8700
P( X | C ) =
P(Y | C ) =
P(Z | C ) =
P (C | Z ) P( Z ) ( 0.05 )( 0.6 )
=
= 0.2308
P(C )
( 0.13)
35
3. VARIABLES ALEATORIAS
Una variable aleatoria es una caracterstica en la cual los valores que toma dependen
de los resultados de un fenmeno aleatorio. Las variables aleatorias pueden ser slo
de dos clases:
1. Discretas: Si la variable aleatoria tiene un nmero finito de valores posibles.
2. Continuas: Si existe un nmero infinito de valores posibles para dicha variable.
Por ejemplo:
FENMENO
= {guila,sol}
FENMENO
= {mujer,hombre}
Nace un beb
X = 0 si es mujer, 1 si es hombre
P ( x)
x=0
P ( x = 0 ) = 0.5
x =1
P ( x = 1) = 0.5
36
TOTAL
P ( x ) = P ( x = 0 ) +P ( x = 1)
P ( x ) = 0.5 + 0.5
P ( x) = 1
NACIMIENTO DE UN BEB
FUNCIN
GRFICA
P ( x)
x=0
P ( x = 0 ) = 0.493
x =1
P ( x = 1) = 0.507
TOTAL
P(x)
0.505
P ( x ) = P ( x = 0 ) +P ( x = 1)
P ( x ) = 0.493 + 0.507
P ( x) = 1
0.500
0.495
0.490
-5
-4
-3
-2
-1
x=
0 +1 1
= = 0.5
2
2
x=
ESPERANZA
0 +1 0 1 1
= + = = 0.5
2
2 2 2
Lo cual es igual a:
x=
0 +1 0 1
1 1 1
= + = 0 + 1 = = 0.5
2
2 2
2 2 2
37
E ( x ) = x = x P ( x )
x
E ( x ) = x = x P ( x )
x
E ( x) = x P ( x)
ESPERANZA
x =0
E ( x ) = x = x P ( x )
x
E ( x) = x P ( x)
ESPERANZA
x =0
s =
2
(x
i =1
x)
n 1
Var ( x ) = E x E ( x )
VARIANZA DE UNA
VARIABLE ALEATORIA X CON
FUNCIN DE PROBABILIDAD P ( x )
Var ( x ) = E ( x 2 ) E ( x )
( ) x
Donde: E x 2 =
P ( x)
38
Var ( x ) = E ( x 2 ) E ( x )
VARIANZA
E ( x2 ) = x2 P ( x )
x
E ( x2 ) = x2 P ( x )
1
E(x
E(x
x =0
) = 0 ( 0.5) + 1 ( 0.5)
2
E ( x )
E ( x ) = ( 0.5 ) = 0.25
Var ( x ) = 0.5 0.25 = 0.25
VARIANZA ,
NACIMIENTO DE UN BEB
Var ( x ) = E ( x 2 ) E ( x )
VARIANZA
E ( x2 ) = x2 P ( x )
x
E ( x2 ) = x2 P ( x )
1
E(x
E(x
x =0
) = 0 ( 0.493) + 1 ( 0.507 )
2
E ( x )
E ( x ) = ( 0.507 ) = 0.257
Var ( x ) = 0.507 0.257 = 0.250
VARIANZA ,
Recapitulando, se dice que se conoce una variable aleatoria (cuyo valor est sometido
al azar y recibe una asignacin numrica en el contexto de los resultados de un
fenmeno aleatorio) si se le caracteriza mediante:
1. Su funcin de probabilidades P ( x ) , donde
2. Su esperanza E ( x ) =
x P(x ) .
x
( )
P(x ) = 1 .
( ) x
P ( x) .
Ejemplos de aplicacin
1.
Se tiran dos dados no trucados. Sea X la variable aleatoria que denota los
valores resultantes de:
a) La suma de sus puntos.
b) La resta de sus puntos.
c) El producto de sus puntos.
39
(1,1), (1,2 ), (1,3), (1,4 ), (1,5), (1,6 ), (2,1), (2,2 ), (2,3), (2,4 ), (2,5), (2,6 ),
= (3,1), (3,2 ), (3,3), (3,4 ), (3,5), (3,6 ), (4,1), (4,2 ), (4,3), (4,4 ), (4,5), (4,6 ),
(5,1), (5,2 ), (5,3), (5,4 ), (5,5), (5,6 ), (6,1), (6,2 ), (6,3), (6,4 ), (6,5), (6,6 ),
# = 36
Ahora, para resolver el primer inciso, observemos los valores que toma la variable
aleatoria:
X = Suma de puntos de dos dados.
Puntos muestrales
Valor de X
(1,1)
2
(1,2), (2,1)
3
(1,3), (2,2), (3,1)
4
(1,4), (2,3), (3,2), (4,1)
5
(1,5), (2,4), (3,3), (4,2), (5,1)
6
(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)
7
(2,6), (3,5), (4,4), (5,3), (6,2)
8
(3,6), (4,5), (5,4), (6,3)
9
(4,6), (5,5), (6,4)
10
(5,6), (6,5)
11
(6,6)
12
TOTAL
No. de eventos
1
2
3
4
5
6
5
4
3
2
1
36
3
2/36
12
1/36
36/36
=1
3/20
P(x)
x
P(x )
5/36
5/36
1/9
1/10
1/9
1/12
1/12
1/18
1/20
1/18
1/36
1/36
0
0
10
12
14
40
E ( x) = x P ( x)
x=2
1 2 3 4 5 6
2 36 + 3 36 + 4 36 + 5 36 + 6 36 + 7 36
E ( x) =
5 4
3
2
1
+8 + 9 + 10 + 11 + 12
36 36
36
36
36
E ( x) =
2 + 6 + 12 + 20 + 30 + 42 + 40 + 36 + 30 + 22 + 12 252
=
=7
36
36
E ( x2 ) = x2 P ( x )
12
x=2
2 1 2 2 2 3 2 4 2 5 2 6
2 36 + 3 36 + 4 36 + 5 36 + 6 36 + 7 36
2
E(x ) =
2 5
2 4
2 3
2 2
2 1
+8 + 9 + 10 + 11 + 12
36
36
36
36
36
E ( x2 )
1 2
4
5
6
3
4 36 + 9 36 + 16 36 + 25 36 + 36 36 + 49 36
E ( x2 ) =
5
4
3
2
1
+64 + 81 + 100 + 121 + 144
36
36
36
36
36
E ( x2 ) =
E ( x2 ) =
E ( x )
,
1974
= 54.83
36
E ( x ) = ( 7 ) = 49
Var ( x ) = 54.83 49 = 5.83
2
Claro est que tanta operacin no sirve de nada si los resultados no son
adecuadamente interpretados:
CONCLUSIONES: X = Suma de puntos de dos dados.
a) , A partir de todo lo anterior comprendemos que, de los treinta y seis resultados
posibles, su suma puede tomar 11 valores, siendo el mnimo 2 y el mximo 12.
41
No. de eventos
1
2
3
4
5
6
5
4
3
2
1
36
x
-5
-4
-3
-2
-1
0
1
2
3
4
5
2
25
16
9
4
1
0
1
4
9
16
25 36/36
x
=1
P( x ) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
5/36
P(x)
1/9
1/9
1/12
1/12
1/18
1/18
1/36
-6
-4
1/36
-2
0
x
x P ( x)
x =5
1
2
3
4
5 6
5 36 + 4 36 + 3 36 + 2 36 + 1 36 + 0 36
E ( x) =
5 4 3 2 1
+1 + 2 + 3 + 4 + 5
36 36 36 36 36
E ( x) =
( 5) + ( 8) + ( 9 ) + ( 8) + ( 5) + 0 + 5 + 8 + 9 + 8 + 5 =
36
0
=0
36
42
E ( x2 ) = x2 P ( x )
12
x=2
1
2 3 4 5 6
25 36 + 16 36 + 9 36 + 4 36 + 1 36 + 0 36
E ( x2 ) =
5 4 3
2
1
+1 + 4 + 9 + 16 + 25
36 36 36
36
36
E ( x2 )
E ( x2 ) =
25 + 32 + 27 + 16 + 5 + 0 + 5 + 16 + 27 + 32 + 25
36
E ( x2 ) =
E ( x )
,
210
= 5.83
36
E ( x ) = ( 0 ) = 0
2
P(x)
1/36
2/36
2/36
3/36
2/36
4/36
2/36
1/36
2/36
4/36
2/36
1/36
2/36
2/36
2/36
1/36
2/36
1/36
36/36=1
43
2/25
3/50
1/25
1/50
0
0
10
15
20
25
30
35
40
E ( x) = x P ( x)
x =1
1 2 2 3 2 4 2
1 36 + 2 36 + 3 36 + 4 36 + 5 36 + 6 36 + 8 36
1
2
4
2
1
2
E ( x ) = +9 + 10 + 12 + 15 + 16 + 18
36
36
36
36
36
36
2
2
1
2
1
+20 + 24 + 25 + 30 + 36
36
36
36
36
36
E ( x) =
1 + 4 + 6 + 12 + 10 + 24 + 16 + 9 + 20 + 24 + 30 + 16 + 36 + 40 + 48 + 25 + 60 + 36
36
E ( x) =
417
= 11.58
36
44
E ( x2 ) = x2 P ( x )
36
x =1
1 2 2
3
2
4
2
1 36 + 4 36 + 9 36 + 16 36 + 25 36 + 36 36 + 64 36
1
2
4
2
1
2
E ( x 2 ) = +81 + 100 + 144 + 225 + 256 + 324
36
36
36
36
36
36
1
2
1
2
2
+400 + 576 + 625 + 900 + 1296
36
36
36
36
36
E ( x2 )
2
E(x ) =
36
E ( x2 ) =
E ( x )
8281
= 230.03
36
E ( x ) = (11.58 ) = 134.10
X = {0,1}
Y = {1,2,3,4,5,6}
W = X +Y
x
x2
P(x )
45
P(w)
3/20
1/10
1/20
0
0
E ( w) = w P ( w)
w =1
1 2 2 2 2 2 1
E ( w ) = 1 + 2 + 3 + 4 + 5 + 6 + 7
12 12 12 12 12 12 12
E ( w) =
1 + 4 + 6 + 8 + 10 + 12 + 7
12
E ( w) =
48
=4
12
E ( w 2 ) = w2 P ( w )
7
w =1
1 2 2
2
2
2
1
E ( w2 ) = 1 + 4 + 9 + 16 + 25 + 36 + 49
12 12 12
12
12
12
12
E ( w2 )
E ( w2 ) =
1 + 8 + 18 + 32 + 50 + 72 + 49
12
E ( w2 ) =
E ( w )
,
230
= 19.17
12
E ( w ) = ( 4 ) = 16
2
46
Fenmeno aleatorio
Probabilidad
Probabilidad subjetiva
Probabilidad condicional
Variable aleatoria
Funcin de probabilidad
b)
e)
h)
k)
n)
q)
Evento
Probabilidad clsica
Eventos ajenos
Ley de probabilidad total
Variable aleatoria discreta
Esperanza
c)
f)
i)
l)
o)
r)
Espacio muestral
Probabilidad frecuentista
Eventos independientes
Teorema de Bayes
Variable aleatoria continua
Varianza
47
En contra (Q)
20
5
60
50
Indecisos (R)
5
5
15
125
12. Por descuido se colocan dos pastillas para el resfriado en un frasco que
contiene dos aspirinas. Las cuatro pastillas son idnticas en apariencia. Del
frasco se selecciona una tableta al azar y se le administra al primer paciente. De
las tres tabletas restantes se selecciona una al azar y se administra al segundo
paciente.
a) Escribir el espacio muestral
Calcula la probabilidad de que:
b) El primer paciente tom una pastilla para el resfriado
c) Uno de los dos pacientes tom una tableta para el resfriado
d) Ningn paciente tom una tableta contra el resfriado
13. Supngase que la Cd. de Mxico se divide en tres zonas A, B y C de acuerdo al
nivel de contaminacin. El 50% de la poblacin vive en la zona A, el 40% en B
y el resto en C. El nivel de contaminacin influye en la incidencia de cierta
enfermedad pulmonar, dicha enfermedad afecta a 10 de cada 100 personas que
viven en A, mientras que slo afecta a 1 de cada 100 de los que viven en B y a 5
de cada 1000 de los que viven en C. Calcular:
48
49
UNIDAD II
4. FUNCIONES DE DISTRIBUCIN DE PROBABILIDAD
Introduccin
A fin de explicar las variables aleatorias y su caracterizacin, en el captulo anterior
vimos el ejemplo del nacimiento de un beb:
FENMENO: Nacimiento de un beb
X = 0 si es mujer, 1 si es hombre
X = 0,1
= {mujer,hombre}
P ( x)
x=0
P ( x = 0 ) = 0.493
x =1
P ( x = 1) = 0.507
TOTAL
P ( x ) = P ( x = 0 ) +P ( x = 1)
P ( x ) = 0.493 + 0.507
P ( x) = 1
P ( x ) = 0.493x ( 0.507 )
1 x
; x = 0,1
P ( x = 0 ) = 0.4930 ( 0.507 )
1 0
P ( x = 1) = 0.4931 ( 0.507 )
11
Porque
a0 = 1
a1 = a
Ahora bien, igual que en este caso, la funcin de probabilidades de todas las variables
aleatorias dicotmicas (que toman dos valores: 0 y 1), puede expresarse a travs del
siguiente modelo:
P(x p ) = p x (1 p ) ; x = 0,1
1 x
50
X ~ Be ( p )
X = {0,1}
Variable aleatoria:
Valores y
probabilidades:
Distribucin de
probabilidad
P ( x = 1) = p
P ( x = 0) = q = 1 p
X ~ Be ( p )
P(x p ) = p x (1 p ) ; x = 0,1
1 x
Funcin de probabilidad:
P ( x = 0 ) = p 0 (1 p )
1 0
P ( x = 1) = p1 (1 p )
= 1(1 p ) = 1(1 p ) = 1 p
11
Porque:
= p (1 p ) = p (1) = p
0
P ( x ) =P ( x = 0 ) + P ( x = 1) = (1 p ) + p = 1
x =0
Esperanza
Si el valor esperado de una variable aleatoria discreta cualquiera es:
E ( x) = x P ( x)
x
El valor esperado de una variable aleatoria discreta con distribucin Bernoulli es:
1
E ( x p ) = x P ( x ) = 0 (1 p ) + 1( p ) = p
x =0
Varianza
De igual forma, si la varianza de una variable aleatoria cualquiera es:
( )
Var ( x ) = E x 2 [E ( x )]
Debemos remarcar que esta asignacin es arbitraria y no tiene ninguna connotacin positiva. Baste el
ejemplo de los estudios de mortalidad, en que el xito es igual a la muerte de un individuo.
51
( )
Var ( x ) = E x 2 [ p ]
E ( x2 p ) = x2 P ( x )
x =0
E ( x p ) = 0 (1 p ) + 12 ( p )
2
E ( x 2 p ) = 0 (1 p ) + 1( p )
E ( x2 p ) = p
Por ende, la varianza de una variable aleatoria discreta con distribucin Bernoulli se
puede calcular como:
Var ( x ) = p [ p ] = p p 2 = p (1 p )
2
X ~ Be ( p )
FUNCIN DE PROBABILIDAD
P(x p ) = p x (1 p ) ; x = 0,1
1 x
E (x ) = p
Var( x ) = p(1 p )
ESPERANZA
VARIANZA
CARACTERIZACIN
Reprobar = FRACASO
(
P
x
= 0) = 1 p = 1 0.85 = 0.15
=
= P(x = 1) = p = 0.85
TIPO DE
X ~ Be ( p ) X ~ Be ( p = 0.85)
VARIABLE
P ( x p ) = p x (1 p )
1 x
FUNCIN DE
PROBABILIDAD
; x = 0,1
1 x
; x = 0,1
52
VARIANZA
E ( x) = p
E ( x ) = 0.85
Var ( x ) = p (1 p )
Var ( x ) = 0.85 ( 0.15 ) = 0.1275
X ~ Be ( p = 0.20 )
P ( x p = 0.20 ) = 0.20 x ( 0.80 )
1 x
; x = 0,1
E (x ) = 0.20
Var ( x ) = 0.20(0.80) = 0.1600
VARIANZA
, El pase de Mxico a la final de la Copa Amrica es una variable con distribucin
Bernoulli, con una verdadera esperanza de 0.20 y una variabilidad de 0.1600.
3.
Si se contesta al azar una pregunta con tres opciones, la probabilidad de elegir
la respuesta adecuada es de 1/3, y se considera al acierto como xito, cmo se
comporta esta variable?:
CARACTERIZACIN
Acertar = XITO
Errar = FRACASO
= P ( x = 1) = p = 1 3
= P ( x = 0) = 1 p = 1 1 3 = 2 3
TIPO DE VARIABLE
FUNCIN DE PROBABILIDAD
ESPERANZA
VARIANZA
X ~ Be ( p = 1 3)
P ( x p = 1 3) = (1 3) ( 2 3)
x
1 x
; x = 0,1
E ( x ) = 1 3 = 0.3333
Var ( x ) = 1 3 ( 2 3) = 2 9 = 0.2222
, Elegir al azar la respuesta correcta a una pregunta con 3 opciones es una variable
con distribucin Bernoulli, con un valor promedio de 0.3333 y una varianza de 0.2222.
4.
Durante una investigacin en la Sierra Norte de Puebla se encontr que la
probabilidad de hallar un nio en edad preescolar con algn tipo de desnutricin es del
65%. Si se selecciona al azar un individuo de esta poblacin, sea X la variable
aleatoria discreta tal que x = {0 con desnutricin, 1 sin desnutricin} :
Con desnutricin = XITO
= P(x = 1) = p = 0.65
TIPO DE VARIABLE
CARACTERIZACIN
Sin desnutricin = FRACASO
= P( x = 0 ) = 1 p = 1 0.65 = 0.35
X ~ Be ( p = 0.65)
53
1 x
; x = 0,1
E (x ) = 0.65
Var (x ) = 0.65(0.35) = 0.2275
VARIANZA
, El que un nio en edad preescolar de la Sierra Norte de Puebla presente
desnutricin es una variable con distribucin Bernoulli, con un promedio de 0.65 y
una varianza de 0.2275.
5.
Si la presencia de patologas o marcadores es considerado un XITO en el
estudio de restos osteolgicos, caracterice las siguientes variables aleatorias de
acuerdo a la informacin que se aporta:
a) Se tiene una coleccin de esqueletos donde la probabilidad de que un crneo
manifieste trepanacin es del 5%.
CARACTERIZACIN
Presencia = XITO
Ausencia = FRACASO
(
)
(
= P x = 1 = p = 0.05
= P x = 0) = 1 p = 1 0.05 = 0.95
TIPO DE VARIABLE
FUNCIN DE PROBABILIDAD
ESPERANZA
X ~ Be ( p = 0.05)
P ( x p = 0.05 ) = 0.05x ( 0.95 )
1 x
; x = 0,1
E (x ) = 0.05
Var (x ) = 0.05(0.95) = 0.0475
VARIANZA
, La presencia de trepanacin en un crneo de esta coleccin es una variable con
distribucin Bernoulli, con un valor esperado de 0.05 y una varianza de 0.0475.
b) Dentro de una muestra estudiada, la probabilidad de que un crneo presente criba
orbitaria es de 35%.
CARACTERIZACIN
Presencia = XITO
Ausencia = FRACASO
= P(x = 1) = p = 0.35
= P( x = 0) = 1 p = 1 0.35 = 0.65
TIPO DE FENMENO
FUNCIN DE PROBABILIDAD
ESPERANZA
X ~ Be ( p = 0.35)
P ( x p = 0.35 ) = 0.35x ( 0.65 )
1 x
; x = 0,1
E (x ) = 0.35
Var (x ) = 0.35(0.65) = 0.2275
VARIANZA
, La presencia de criba orbitaria en un crneo de esta muestra es una variable con
distribucin Bernoulli, con una esperanza de 0.35 y una varianza de 0.2275.
c) Supngase que el 28% de los crneos de una coleccin de esqueletos de Cholula
presentan deformacin.
CARACTERIZACIN
Presencia = XITO
Ausencia = FRACASO
= P(x = 1) = p = 0.28
= P( x = 0) = 1 p = 1 0.28 = 0.72
TIPO DE VARIABLE
FUNCIN DE PROBABILIDAD
ESPERANZA
X ~ Be ( p = 0.28)
E (x ) = 0.28
Var ( x ) = 0.28(0.72) = 0.2016
VARIANZA
, La presencia de deformacin en un crneo de la coleccin de Cholula es una
54
X ~ Be ( p = 0.12 )
E (x ) = 0.12
Var ( x ) = 0.12(0.88) = 0.1056
VARIANZA
, La presencia de hiperostosis portica en un individuo de la coleccin de Las
Fuentes es una variable con distribucin Bernoulli, con un promedio de 0.12 y una
varianza de 0.1056.
Distribucin binomial X ~ Bin ( n, p )
Ahora bien, si la variable aleatoria discreta es dicotmica pero en vez de una sola
observacin tenemos n nmero de casos ( xi ) , cada observacin tiene una
distribucin de probabilidad de tipo Bernoulli:
Observacin
Valores posibles
x1 = {0,1}
Tipo de variable
x2 = {0,1}
x2 ~ B ( p )
x3 = {0,1}
x3 ~ B ( p )
xn = {0,1}
x1 ~ B ( p )
xn ~ B ( p )
X = x1 + x2 + x3 + ... + xn
Por lo cual la variable aleatoria X toma valores entre cero y n :
X = {0,1, 2,3,..., n}
Y su distribucin de probabilidad est definida por el siguiente modelo Binomial con
parmetros n y p :
P ( x n, p ) = n Cx p x (1 p )
n x
; x = 0,1, 2,3,..., n
55
CARACTERIZACIN
Ausencia = FRACASO
= P ( xi = 0 ) = 1 p = 1 0.12 = 0.88
X ~ Be ( p = 0.12 )
TIPO DE VARIABLE
FUNCIN DE PROBABILIDAD
E ( xi ) = 0.12
ESPERANZA
VARIANZA
Escenario posible
A
B
C
D
E
F
G
H
x1
x2
x3
0
1
0
0
1
1
0
1
0
0
1
0
1
0
1
1
0
0
0
1
0
1
1
1
x1
x2
x3
x1 + x2 + x3 = X
0
1
0
0
1
1
0
1
0
0
1
0
1
0
1
1
0
0
0
1
0
1
1
1
0+0+0=0
1+0+0=1
0+1+0=1
0+0+1=1
1+1+0=2
1+0+1=2
0+1+1=2
1+1+1=3
0
1
1
1
2
2
2
3
(1 p ) ,
x1
x2
x3
x1 + x2 + x3 = X
P ( x)
P ( x)
0+0+0=0
P ( x ) = (1 p ) (1 p ) (1 p )
P ( x = 0 ) = (1 p )
56
1+0+0=1
P ( x ) = p (1 p ) (1 p )
0+1+0=1
P ( x ) = (1 p ) p (1 p )
0+0+1=1
P ( x ) = (1 p ) (1 p ) p
1+1+0=2
P ( x ) = p p (1 p )
1+0+1=2
P ( x ) = p (1 p ) p
0+1+1=2
P ( x ) = (1 p ) p p
1+1+1=3
P ( x) = p p p
2
P ( x = 1) = 3 p (1 p )
P ( x = 2 ) = 3 p 2 (1 p )
P ( x = 3) = p 3
P ( x)
P ( x = 0 ) = (1 p ) = 0.883 = 0.6815
3
2
P ( x = 1) = 3 p (1 p ) = 3 ( 0.12 0.882 ) = 0.2788
2
P ( x = 2 ) = 3 p (1 p ) = 3 ( 0.12 2 0.88 ) = 0.0380
P ( x = 3) = p 3 = 0.123 = 0.0017
Si bien la probabilidad de los eventos totales o extremos (donde en todos los casos se
presenta o no la caracterstica) es fcil de calcular sin necesidad de la tabla, pues
simplemente se eleva la probabilidad de xito o fracaso a la potencia del nmero de
casos; la probabilidad de los eventos combinados es ms complicada de predecir.
A fin de evitar tal desarrollo puede determinarse el nmero que anteceder a las
combinaciones a partir del desarrollo de binomios. Por ejemplo:
( a + b ) = a 2 + 2ab + b 2
3
( a + b ) = a 3 + 3a 2b + 3ab 2 + b3
4
( a + b ) = a 4 + 4a3b + 6a 2b2 + 4ab3 + b4
5
( a + b ) = a5 + 5a 4b + 10a3b2 + 10a 2b3 + 5ab4 + b5
2
(1 p )
y b es p :
n = 3 (a + b)
57
X = {0,1, 2,3} # X = 4
Cx =
n!
x !( n x ) !
Sabiendo que:
n ! = n (n 1) (n 2) (n 3) ... ( 3) ( 2 ) (1)
y que:
0! = 1
C1 =
3!
3!
3 2 1
6
6
=
=
=
= =3
2!( 3 2 ) ! 2!(1!) ( 2 1)(1) ( 2 )(1) 2
P ( x n, p ) = n Cx p x (1 p )
n x
; x = 0,1, 2,3,..., n
3 x
; x = 0,1, 2,3
PROBABILIDADES
2
La tecla puede variar de acuerdo al modelo de la calculadora, sobre todo en la letra del segundo
subndice; no obstante, siempre incluye la letra C, que le distingue de la tecla para permutaciones
Pr .
58
3 2
31
3 0
3 3
E ( xi ) = xi P ( xi )
x
E ( x ) = xi P ( xi )
x =0
E ( x ) = x1 P ( x1 ) + x2 P ( x2 ) + x3 P ( x3 ) + ... + xn P ( xn )
E ( x ) = x1 P ( x1 ) + x2 P ( x2 ) + x3 P ( x3 ) + ... + xn P ( xn )
E ( x ) = E ( x1 ) + E ( x2 ) + E ( x3 ) + ... + E ( xn )
Que, a sabiendas de que el valor esperado de cada observacin es la probabilidad de
xito E ( xi ) = p , deviene en:
E ( x ) = p + p + p + ... + p
E ( x) = n p
X ~ Be ( p = 0.12 )
Esperanza de
cada observacin
E ( x1 ) = 0.12
E ( x2 ) = 0.12
E ( x3 ) = 0.12
X ~ Bin ( n = 3, p = 0.12 )
E ( x ) = E ( x1 ) + E ( x2 ) + E ( x3 )
Esperanza de la
variable
Var ( x ) = p (1 p )
59
Var ( x ) = p (1 p ) Var ( x ) = n p (1 p )
x =0
X ~ Be ( p = 0.12 )
Varianza de
cada
observacin
X ~ Bin ( n = 3, p = 0.12 )
Var ( x ) = Var ( x1 ) + Var ( x2 ) + Var ( x3 )
Esperanza de
la variable
X ~ Bin ( n, p )
P ( x n, p ) = n Cx p x (1 p )
FUNCIN DE PROBABILIDAD
n x
; x = 0,1, 2,3,..., n
E ( x) = n p
ESPERANZA
Var ( x ) = n p (1 p )
VARIANZA
Ejemplos de aplicacin
1.
Durante la clase se aplica un examen de 5 preguntas con tres opciones cada
una. Establecer la funcin de probabilidad de ste fenmeno y calcular su esperanza y
varianza. Posteriormente, calcular la probabilidad de obtener 0, 1, 2, 3 ,4 y 5 aciertos:
DATOS GENERALES
n=5
Acertar = P( x = 1) = p = 1
TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD
ESPERANZA
Errar = P( x = 0 ) = 1 p = 1 1 = 2
3
X ~ Bin ( n = 5, p = 1 3)
P ( x n, p ) = n C x p x (1 p )
P x n = 5, p = 1
E ( x) = n p
n x
; x = 0,1, 2,3,..., n
= C ( 1 ) (2 )
3)
3
3
x
5 x
( 3 ) = 5 3 = 1.6667
E ( x) = 5 1
60
Var ( x ) = n p (1 p )
( 3 )( 2 3 ) = 10 9 = 1.1111
Var ( x ) = 5 1
a) 5 aciertos:
( 3) (23)
5
P ( x = 5 ) = 5 C5 1
5 5
= 0.0041
( 3) (23)
4
P ( x = 4 ) = 5 C4 1
5 4
= 0.0412
( 3) (23)
3
P ( x = 3) = 5 C3 1
53
= 0.1646
( 3) ( 3)
2
P ( x = 2 ) = 5 C2 1
5 2
= 0.3292
( 3) ( 3)
P ( x = 1) = 5 C1 1
5 1
= 0.3292
( ) (23 )
P( y = 0)= 5 C 0 1
3
50
= 0.1317
5
0.41
4
4.12
3
16.46
2
32.92
1
32.92
0
13.17
Total
100.00
61
DATOS GENERALES
Errar = P( x = 0 ) = 1 p = 1 1 = 4
5
5
P( x = 1) = p = 1
5
TIPO DE FENMENO X ~ Bin ( n = 120, p = 1 5 )
n = 120
FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA
P x n = 120, p = 1
FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA
( 5) (45)
Cx 1
120 x
; x = 0,1, 2,...,120
( 5 ) = 120 5 = 24.0000
Var ( x ) = 120(1 )(4 ) = 480 = 19.2000
5 5
25
P( x = 1) = p = 1
TIPO DE FENMENO
120
E ( x ) = 120 1
b) Con 4 opciones:
Acertar =
n = 120
=
5)
DATOS GENERALES
Errar = P( x = 0 ) = 1 p = 1 1 = 3
4
X ~ Bin ( n = 120, p = 1 4 )
P x n = 120, p = 1
( 4) ( 3 4)
= 120 Cx 1
120 x
; x = 0,1, 2,...,120
( 4 ) = 120 4 = 30.0000
Var ( x ) = 120(1 )(3 ) = 360 = 22.5000
4 4
16
E ( x ) = 120 1
62
n = 14
Acertar = P( x = 1) = p = 1
Errar = P( x = 0 ) = 1 p = 1 1 = 2
3
X ~ Bin ( n = 14, p = 1 3)
TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD
P x n = 14, p = 1
( 3) ( 3)
= 14 Cx 1
14 x
; x = 0,1, 2,...,14
( 3 ) = 14 3 = 4.6667
Var ( x ) = 14(1 )(2 ) = 28 = 3.1111
3 3
9
E ( x ) = 14 1
ESPERANZA
VARIANZA
( 3) (23)
14 14
14
P ( x = 14 ) = 14 C14 1
= 2.0908 x107
( 3) (23)
0
P ( x = 0 ) = 14 C0 1
14 0
= 3.4255 x103
x = 0 2.0908 x107
P x = 14 = 3.4255 x103 = 0.0001
, La probabilidad de no acertar ningn resultado es 0.0001 veces la probabilidad de
adivinar todos el resultado de todos los partidos.
4.
Dentro de una coleccin de crneos, la probabilidad de encontrar trepanacin
en ellos es de 0.14. Si se toma una muestra de 6 crneos, cul es la probabilidad de
que se descubra el siguiente nmero de crneos con trepanacin?
a) 0 crneos
b) 6 crneos
c) 4 crneos
d) Ms de 4 crneos
e) Momios de ninguno/todos
DATOS GENERALES
n=6
Presencia
= P( x = 1) = p = 0.14
TIPO DE FENMENO
X ~ Bin ( n = 6, p = 0.14 )
63
FUNCIN DE
PROBABILIDAD
6 x
E ( x ) = 6 ( 0.14 ) = 0.8400
ESPERANZA
VARIANZA
a) 0 crneos:
P ( x = 0 ) = 6 C0 ( 0.14 ) ( 0.86 )
0
60
= 0.4046
P ( x = 6 ) = 6 C6 ( 0.14 ) ( 0.86 )
6
66
= 7.5295 x10 6
P ( x = 4 ) = 6 C4 ( 0.14 ) ( 0.86 )
4
64
= 0.0043
4
6
P ( y > 4 ) = 2.7752 x10 + 7.5295 x10 = 2.8505 x104
y = 0
0.4046
=
= 53735.3078
P
6
y = 6 7.5295 x10
, La probabilidad de no encontrar ningn crneo con trepanacin (40.46%) es
53735.3078 veces la probabilidad de encontrar 6 crneos con esta caracterstica
(7.5295x10-4%).
5.
Supongamos finalmente que, en una coleccin del posclsico originaria de
Cholula, la probabilidad de encontrar deformacin craneana es de 0.28. Si se analizan
15 crneos, cul es la posibilidad de hallar esta caracterstica en:
a) 0 crneos
d) Ms de 13 crneos
b) 15 crneos
c) 4 crneos
e) Menos de 3 crneos
f) Ms de 2 crneos
DATOS GENERALES
n=6
Presencia
= P( x = 1) = p = 0.14
TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD
15 x
; x = 0,1, 2,...,15
64
E ( x ) = 15 ( 0.28 ) = 4.2000
ESPERANZA
VARIANZA
a) 0 crneos:
P ( x = 0 ) = 15 C0 ( 0.28 ) ( 0.72 )
15 0
= 0.0072
P ( x = 15 ) = 15 C15 ( 0.28 )
15
( 0.72 )
15 15
= 5.0977 x109
P ( x = 4 ) = 15 C4 ( 0.28 ) ( 0.72 )
4
15 4
= 0.2262
7
9
P ( x > 13) = 1.9662 x10 + 5.0977 x10 = 2.0172 x10 7
P ( x < 3) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 )
1
15 1
2
15 2
P ( x < 3) = 0.0072 + 15 C1 ( 0.28 ) ( 0.72 ) + 15 C2 ( 0.28 ) ( 0.72 )
P ( x > 2 ) = 1 P ( x 2 ) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) = 1 P ( x < 3)
P ( x > 2 ) = 1 0.1645 = 0.8355
Distribucin Poisson
X ~ Po ( )
65
P ( x n, p ) = n Cx p x (1 p )
n x
; x = 0,1, 2,3,..., n
Expresin donde se
especifican los
valores que toma X
DISTRIBUCIN
POISSON
e x
P(x ) =
; x = 0,1, 2,...
x!
Expresin en que no
se hacen explcitos
los valores de X
porque la muestra
( n ) es muy grande.
E ( x) = n p
E ( x) =
Podemos concluir que:
= n p
Varianza
Por otro lado, si la varianza de una variable aleatoria discreta dicotmica con
distribucin Binomial era:
Var ( x ) = n p (1 p )
Var ( x ) = n p (1 p )
Var ( x ) = (1) =
66
X ~ Po ( )
FUNCIN DE PROBABILIDAD
ESPERANZA
VARIANZA
e x
P ( x) =
; x = 0,1, 2,...
x!
E (x ) =
Var(x ) =
Ejemplos de aplicacin
1.
Investigaciones indican que en nuestro pas 50 de cada 100 mil mexicanos
pueden desarrollar el mal de Parkinson4: trastorno degenerativo que afecta al sistema
nervioso central. Si se toma una muestra de 10 mil personas, cul es la probabilidad
de que dicho padecimiento est presente en:
a) Ningn sujeto b) Todos c) 5 individuos
d) Menos de 5 personas e) Ms de 5 personas
DATOS GENERALES
n = 10000
50
= 0.0005
100000
X ~ Po ( = 5)
Presencia = P ( x = 1) =
TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA
P ( x) =
= (10000 )( 0.0005) = 5
e x
; x = 0,1, 2,...
x!
e5 ( 5 )
P ( x = 5) =
; x = 0,1, 2,...
x!
E (x ) =
x
E ( x) = 5
Var(x ) =
Var ( x ) = 5
a) Ningn sujeto:
e 5 ( 5 )
P ( x = 0) =
= 0.0067
0!
0
Se conmemora el Da Mundial del Mal del Parkinson por Monire Prez Lpez en Sistema e-once
noticias Internet. 11 de abril del 2007. Pgina: http://oncetvipn.net/noticias/index.php?modulo=despliegue&dt_fecha=2007-04-11&numnota=3
67
e 5 ( 5 )
P ( x = 10000 ) =
0
10000!
10000
e 5 ( 5 )
P ( x = 5) =
= 0.1755
5!
5
P ( x < 5 ) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) + P ( x = 4 )
e5 ( 5 )1 e 5 ( 5 )2 e5 ( 5 )3 e 5 ( 5 )4
P ( x < 5 ) = 0.0067 +
+
+
+
1! 2! 3! 4!
P ( x > 5) = 1 P ( x 5)
P ( x > 5 ) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) + P ( x = 4 ) + P ( x = 5 )
P ( x > 5 ) = 1 P ( x < 5 ) + P ( x = 5 )
P ( x > 5 ) = 1 ( 0.4455 + 0.1755 )
P ( x > 5 ) = 1 0.6210 = 0.3790
, Por ende, la probabilidad de que ms de 5 personas manifiesten el mal de
Parkinson es de 37.90%.
El Instituto Mexicano del Seguro Social (IMSS), empero, ha informado que ms de 50
mil mexicanos padecen el mal de Parkinson5 y que tan slo durante 2007 otorg
24,587 consultas a nivel nacional por esta causa6. As que pese a nuestros clculos,
existe razn suficiente para seguir investigando los motivos y posibles tratamientos
para este padecimiento.
2.
La Secretara de Salud de Jalisco ha reportado que existen de 3 a 4 casos de
cncer de mam y cervicouterino por ao en su estado7. Al ser sta una de las causas
principales de muerte entre las mujeres, el gobierno ha decidido tomar una muestra
grande y calcular la probabilidad de que:
a) Ninguna mujer le presente
5
68
c) Ms de 4 lo presenten.
DATOS GENERALES
Presencia = P ( x = 1) = ?
n=?
=3
X ~ Po ( = 4 )
TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD
P ( x = 3) =
E ( x) = 3
ESPERANZA
e3 ( 3)
; x = 0,1, 2,...
x!
x
Var ( x ) = 3
VARIANZA
a) Ninguna mujer le presente
e 3 ( 3)
= 0.0498
P ( x = 0) =
0!
0
P ( x < 3) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 )
e3 ( 3)1 e3 ( 3)2
P ( x < 3) = 0.0498 +
+
1! 2!
P ( x > 3) = 1 P ( x 3)
P ( x > 3) = 1 P ( x < 3) + P ( x = 3)
e 3 ( 3)3
P ( x > 3) = 1 0.4232 +
3!
Existen, no obstante, otros sntomas, por ejemplo: edema acentuado del dorso de los pies en el
nacimiento, trax saliente en escudo, pezones hipoplsicos y muy separados, acortamiento del IV
metacarpiano y un sinfn de signos que pueden ir desde una malformacin cardiaca a la abundancia de
nevus pigmentarios.
69
b) 1 caso
c) Ms de 3 casos
DATOS GENERALES
n = 10000
0.4
= 0.0004
1000
X ~ Po ( = 4 )
Presencia = P ( x = 1) =
TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA
= (10000 )( 0.0004 ) = 4
e4 ( 4 )
P ( x = 4) =
; x = 0,1, 2,...
x!
E ( x) = 4
x
Var ( x ) = 4
a) 0 casos:
e 4 ( 4 )
P ( x = 0) =
= 0.0183
0!
0
e4 ( 4 )
P ( x = 1) =
= 0.0733
1!
1
P ( x > 3) = 1 P ( x 3)
P ( x > 3) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3)
e 4 ( 4 )2 e4 ( 4 )3
P ( x > 3) = 1 0.0183 + 0.0733 +
+
2! 3!
70
b) 0 casos
c) Ms de 2 casos
DATOS GENERALES
n = 5000
1.18
= 0.0012
1000
X ~ Po ( = 5.9 )
Presencia = P ( x = 1) =
TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA
e5.9 ( 5.9 )
P ( x = 5.9 ) =
; x = 0,1, 2,...
x!
E ( x ) = 5.9
x
Var ( x ) = 5.9
a) 2 casos:
e 5.9 ( 5.9 )
P ( x = 2) =
= 0.0477
2!
2
e 5.9 ( 5.9 )
P ( x = 0) =
= 0.0027
0!
0
P ( x > 2) = 1 P ( x 2)
P ( x > 2 ) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 )
e 5.9 ( 5.9 )1
P ( x > 2 ) = 1 0.0027 +
+ 0.0477
1!
X~U(a,b)
71
P(x)
0.4
0.3
0.2
0.1
0
1
; x (a, b )
(b a )
(b + a )
E (x ) =
2
(a b )2
Var ( x ) =
12
P(x ) =
X ~ U (10.00,13.00)
1
1
= ; x (10.00,13.00)
(13.00 10.00) 3
(13.00 + 10.00) = 23 = 11.5000
E (x ) =
2
2
2
(10.00 13.00) = 3 2 = 9 = 3 = 0.7500
Var ( x ) =
12
12
12 4
P(x ) =
( )
( )
, La probabilidad de que nos atiendan entre las 10:30 y las 12:00 horas es del
50.00%.
b) Cul es la probabilidad de que nos atiendan despus de las 12:45?
72
( )
( )
( )
X~N(,)
a) La curva se acerca pero nunca toca el eje de las X , por lo cual es una curva
asinttica
b) El rea bajo la curva (y por ende, la suma de todas las probabilidades) es igual a 1.
>
<
f)
FUNCIN DE
PROBABILIDAD
P( x ) =
1
2
( x )2
2 2
; < x <
73
E (x ) =
Var ( x ) = 2
X~N(0,1)
P(z ) =
z2
1
e 2 ; < x <
2
Por ello:
1. Cuando se busca la probabilidad de que Z sea menor a un valor, ste se busca
directamente en tablas:
74
P(z >valor -a) , Se transforma a P(z < valor a) y se busca la probabilidad de valor a.
3. Cuando se busca la probabilidad de que Z est en un intervalo (a, b ) , se resta la
probabilidad del mayor al menor (sin cambiar signos) pues para delimitar el intervalo
basta con calcular primero toda el rea que es menor al nmero ms grande (b) y
restarle el rea menor al nmero ms pequeo (a):
P(valor a < z < valor b) , Se resta P(z < valor b) - P(z < valor a), es decir, se busca
la probabilidad de valor b y se le resta la de valor a.
Estandarizacin
Estandarizar una variable significa transformar sus valores originales para que los
valores estandarizados tengan una media = 1 y una desviacin estndar = 0 .
Con ello logramos que la distribucin de la variable se vuelva de tipo normal estndar,
permitindonos el acceso a las tablas de probabilidad.
EXPRESION
PARA
ESTANDARIZAR
Z=
xi
Veamos, ahora s, para que nos sirve todo lo anterior con un ejemplo:
1.
La estatura de la poblacin de las estudiantes femeninas de la ENAH tiene una
distribucin aproximadamente normal con media = 162 cm. y varianza 2 = 17.5 .
Qu probabilidad hay de que
a) elijamos al azar a una chica que mida menos de 160 cm?
b) elijamos al azar a una chica que mida ms de 163 cm?
c) elijamos al azar a una chica que mida entre 159 y 161 cm?
75
= 162
DATOS GENERALES
= 4.18
2 = 17.5
P(x ) =
1
e
2 (17.5)
( x 162 )
2 (17.5 )
1
P(x ) =
e
6.28(17.5)
FUNCIN DE
PROBABILIDAD
1
P(x ) =
e
109.9
1
P( x ) =
e
10.48
( x 162 )2
35
( x 162 )2
35
( x 162 )2
35
( x 162 )2
P ( x ) = 0.10 e 35
E ( x ) = 162
Var( x ) = 17.5
ESPERANZA
VARIANZA
Ahora s, respondamos los incisos:
a) Qu probabilidad hay de que elijamos al azar a una chica que mida menos de 160
cm?
P( x < 160) =
160
0.10 e
( x 162 )2
35
dx
Como se puede ver, calcular la probabilidad de que X sea menor a 160 implica
resolver esta integral. Si X tuviera una distribucin normal estndar con = 1 y
= 0 , podramos acceder a las tablas. Entonces lo que haremos es estandarizar la
variable para lograr tal objetivo y poder obtener la probabilidad:
EXPRESIN
x
PARA
Z= i
ESTANDARIZAR
APLICACIN
2
160 162
Observacin 1: -0.48 no es la probabilidad de que la chica sea menor a 160 cm., sino el valor
que se ubicar en las tablas intersectando -0.40 (horizontal) y .008 (vertical).
Observacin 2: Como se busca la probabilidad de que Z sea MENOR a tal valor, ste se
busca directamente en tablas.
163 162
1
76
161 162
159 162
P (159 < x < 161) P
<Z<
4.18
4.18
1
3
= P
Z<
= P( 0.72 < Z < 0.24 )
4.18
4.18
P( 0.24) P( 0.72) = 0.4052 0.2358 = 0.1694
ESTANDARIZACIN
VALORES PARA
TABLAS
PROBABILIDAD
, P(159<x<161)= 0.1694. Esto es: la probabilidad de que la mujer que elijamos mida
entre 159 y 161 cm. es de 0.1694; o bien del 16.94%.
2.
El nmero de respiraciones por minuto de personas adultas en reposo es una
variable que se distribuye de una manera aproximadamente normal con media
= 20.5 y desviacin estndar = 4.3 . Si elegimos al azar a una persona, qu
probabilidad hay de que su nmero de respiraciones por minuto
a) sea menor a 18.3?
X~N(,)
= 20.5
DATOS GENERALES
P(x ) =
VARIANZA
( x 20.5 )2
1
e 2 (18.49 )
2 (18.49 )
1
e
6.28(18.49 )
1
P( x ) =
e
116.12
1
P( x ) =
e
10.78
ESPERANZA
= 4.3
2 = 18.49
P(x ) =
FUNCIN DE
PROBABILIDAD
( x 20.5 )2
36.98
( x 20.5 )2
36.98
( x 20.5 )2
36.98
P( x ) = 0.09 e
( x 20.5 )2
36.98
E ( x ) = 20.50
Var( x ) = 18.49
77
22.0 20.5
1.50
P( x > 22 ) P Z >
= P Z >
= P (Z > 0.35)
4 .3
4 .3
21.0 20.5
19.0 20.5
P(19 < x < 21) P
<Z<
4 .3
4 .3
0.50
1.50
= P
<Z<
= P ( 0.35 < Z < 0.12 )
4 .3
4 .3
P( 0.35 < Z < 0.12) = P(Z < 0.12) P(Z < 0.35) = 0.5478 0.3632 = 0.1846
, P(19<x<21)= 0.1846. Esto es: la probabilidad de que el nmero de respiraciones
por minuto de la persona elegida al azar est entre 19 y 21 es de 18.46%.
Para cerrar este tema, veremos ahora otras distribuciones basadas en las anteriores,
algunas de las cuales utilizaremos posteriormente.
Distribucin exponencial
Caso de la familia de funciones de supervivencia, donde la variable aleatoria X es
mayor a cero (motivo por el que toma slo valores positivos) y mantiene una relacin
inversa con su probabilidad, debido a lo cual su grfica es asinttica con respecto al
eje X y al Y .
FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA
P ( x ) = e x ; x > 0
E (x ) = 1
Var ( x ) = 1
( )
78
k 1
1
x
X 2 e 2
k
k
2 2
2
E (x ) = k
Var ( x ) = 2k
P(x ) =
t~t(k)
Z
x
: una con
ESPERANZA
VARIANZA
2
k + 1 t
1 +
k
2
P(t ) =
k
k
2
E (t ) = = 0
k +1
; < t <
3 k 2
k
2 2
Var (t ) =
1 k
2 2
Distribucin F de fisher
F~F(K1,K2)
( ) y con
distribucin ji-cuadrada
(X 1 , X 2 ),
ambas con
FUNCIN DE
PROBABILIDAD
ESPERANZA
k + k2
1
2 k1
P( f ) =
k1 k 2 k 2
2 2
k
E( f ) = 1
k 22
k1
2
k
1
2
k f
1 + 1
k2
k1 + k 2
2
;f >0
Si K es mayor a 30, x/k 1; por lo cual la segunda variable tendra una distribucin normal estndar.
79
Var ( f ) =
2 k 2 (k1 + k 2 2)
2
k1 (k 2 2 ) (k 2 4)
2
Distribuciones muestrales
Se llama distribucin muestral a la distribucin de todos los valores posibles que
puede tomar una estadstica, calculada a partir de muestras del mismo tamao (n )
x N ,
X~N(,)
MEDIA
DESVIACIN ESTNDAR
VARIANZA
FRMULA PARA
ESTANDARIZAR
Z=
Xi
Z=
n
xi
X~N(,)
= 4 .5
= 1.7
X~N(=4.5,=1.7)
MEDIA
DESVIACIN
ESTNDAR
VARIANZA
= 4.5
= 1.7
2 = 2.89
x N ,
= 4.5
= 1.7
12
= 0.49
2 = (1.7 ) 12 = 0.24
2
80
Z=
xi
4 4.5
1.7
12
APLICACIN
7 4.5
1.7
12
6
.
8
4
.
5
5
.
5
4
.
5
12
12
P(2.04 < Z < 4.69) = P(Z < 4.69) P(Z < 2.04) = 1 0.9793 = 0.0207
, La probabilidad de que la media de las muestra de doce estudiantes que usan
drogas est entre los 5.5 y 6.8 aos es del 2.07%.
Distribucin de la proporcin muestral ( p )
Cuando X es una variable que toma 2 valores ( x = {0,1}) en una poblacin (N ) , M
81
p=M
PROPORCIN
DESVIACIN ESTNDAR
VARIANZA
FRMULA PARA
ESTANDARIZAR
Z=
PROPORCIN
MUESTRAL
p = m
n
P (1 P )
n
P (1 P )
n
p P
Z=
P(1 P )
n
Xi
DATOS GENERALES
p = 0.38
1 p = 0.62
n = 15
Z=
p P
P(1 P )
n
0.30 0.38
0.38(0.62 )
15
APLICACIN
0.35 0.38
= P (Z > 0.24 )
P ( p > 0.35) = P Z >
0.38(0.62 )
15
82
0.36 0.38
0.40 0.38
15
15
P( 0.16 < Z < 0.16) = P(Z < 0.16) P(Z < 0.16) = 0.5636 0.4364 = 0.1272
, La probabilidad de que la proporcin muestral de simpatizantes con el movimiento
del EZLN est entre 0.36 y 0.40 es del 12.72%.
2.
Se sabe que la proporcin de estudiantes que al mismo tiempo lleva otra
licenciatura es de 0.12. Si se toma una muestra de 15 estudiantes de la ENAH, cul
es la probabilidad de que en esta muestra la proporcin de estudiantes con esa
caracterstica:
a) sea mayor del 10%?
DATOS GENERALES
p = 0.12
1 p = 0.88
n = 15
0.10 0.12
= P (Z > 0.24 )
P ( p > 0.10 ) = P Z >
0.12(0.88)
15
0.15 0.12
= P (Z < 0.36 )
P( p < 0.15) = P Z <
0.12(0.88)
15
0.11 0.12
0.14 0.12
15
15
= P( 0.12 < Z < 0.24) = P(Z < 0.24) P(Z < 0.12) = 0.5948 0.4522 = 0.1426
, La probabilidad de que en esta muestra la proporcin de estudiantes que cursan, a
la vez, dos licenciaturas, est entre 0.11 y 0.14 es de 14.26%.
83
MEDIA
1- 2
DESVIACIN ESTNDAR
VARIANZA
FRMULA PARA
ESTANDARIZAR
Z=
12
xi
Z=
n1
n1
2
+
22
n2
n2
x1 x 2 (1 2 )
12
n1
+2
n2
FRMULA PARA
ESTANDARIZAR
m
p =
n
p P
Z=
P(1 P )
n
m
n
p 1 p 2 (P1 P2 )
P1 (1 P1 ) P2 (1 P2 )
+
n1
n2
p =
Z=
, siempre y cuando el
84
Si n > 30 ,
X~N(,)
Z=
xi
n
Apliquemos esto para reafirmar cundo s aplica el TCL y cuando no:
1.
En una poblacin de jvenes de 17 aos de edad, la media del espesor del
pliegue subescapular (en milmetros) es de 9.7 con una desviacin estndar de 6.0. A
partir de una muestra de tamao 14 extrada de esa poblacin, calcular la probabilidad
de que la media de la muestra:
a) sea mayor de 11.
DATOS GENERALES
= 9 .7
= 6.0
n = 14
2.
En una poblacin de jvenes de 17 aos de edad, la media del espesor del
pliegue subescapular (en milmetros) es de 9.7 con una desviacin estndar de 6.0. A
partir de una muestra de tamao 40 extrada de esa poblacin, calcular la probabilidad
de que la media de la muestra:
a) sea mayor de 11.
DATOS GENERALES
= 9 .7
= 6.0
n = 40
11 9.7
P( x > 11) = P z >
= P( z > 1.37 )
6.0
40
7.5 9.7
P( x < 7.5) = P z <
= P( z < 2.32 )
6.0
40
85
7 9.7
10.5 9.7
P(7 < x < 10.5) = P
<z<
= P( 2.85 < z < 0.84 )
6.0
6.0
40
40
P( 2.85 < z < 0.84) = P( z < 0.84) P( z < 2.85) = 0.7795 0.0022 = 0.7773
, La probabilidad de que la media del espesor del pliegue subescapular en esta
muestra est entre los 7 y 10.5 milmetros es de 77.73%.
86
87
88
UNIDAD III
5. ESTADSTICA DESCRIPTIVA
Breve historia de la estadstica
Los comienzos de la estadstica pueden ser hallados en el antiguo Egipto, cuyos faraones
lograron recopilar, hacia el ao 3050 antes de Cristo, prolijos datos relativos a la poblacin
y la riqueza del pas. De acuerdo al historiador griego Herdoto, dicho registro de riqueza
y poblacin se hizo con el objetivo de preparar la construccin de las pirmides. En el
mismo Egipto, Ramss II hizo un censo de las tierras con el objeto de verificar un nuevo
reparto.
En el antiguo Israel la Biblia da referencias, en el libro de los Nmeros, de los
datos estadsticos obtenidos en dos recuentos de la poblacin hebrea. El rey David por
otra parte, orden a Joab, general del ejrcito hacer un censo de Israel con la finalidad de
conocer el nmero de la poblacin[3].
Tambin los chinos efectuaron censos hace ms de cuarenta siglos. Los griegos
efectuaron censos peridicamente con fines tributarios, sociales (divisin de tierras) y
militares (clculo de recursos y hombres disponibles). La investigacin histrica revela
que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto
y ponderar la potencia guerrera.
Pero fueron los romanos, maestros de la organizacin poltica, quienes mejor
supieron emplear los recursos de la estadstica. Cada cinco aos realizaban un censo de
la poblacin y sus funcionarios pblicos tenan la obligacin de anotar nacimientos,
defunciones y matrimonios, sin olvidar los recuentos peridicos del ganado y de las
riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo suceda
uno de estos empadronamientos de la poblacin bajo la autoridad del imperio[4].
Durante los mil aos siguientes a la cada del imperio Romano se realizaron muy
pocas operaciones Estadsticas, con la notable excepcin de las relaciones de tierras
pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en
el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de
siervos. En Inglaterra, Guillermo el Conquistador recopil el Domesday Book o libro del
Gran Catastro para el ao 1086, un documento de la propiedad, extensin y valor de las
tierras de Inglaterra. Esa obra fue el primer compendio estadstico de Inglaterra[5].
Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra,
trataron de revivir la tcnica romana, los mtodos estadsticos permanecieron casi
olvidados durantes la Edad Media.
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicols
Coprnico, Galileo, Neper, William Harvey, Sir Francis Bacon y Ren Descartes, hicieron
grandes operaciones al mtodo cientfico, de tal forma que cuando se crearon los Estados
Nacionales y surgi como fuerza el comercio internacional exista ya un mtodo capaz de
aplicarse a los datos econmicos.
Para el ao 1532 empezaron a registrarse en Inglaterra las defunciones debido al
temor que Enrique VII tena por la peste. Ms o menos por la misma poca, en Francia la
ley exigi a los clrigos registrar los bautismos, fallecimientos y matrimonios. Durante un
brote de peste que apareci a fines de la dcada de 1500, el gobierno ingls comenz a
publicar estadstica semanales de los decesos. Esa costumbre continu muchos aos, y
en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenan los nacimientos y
fallecimientos por sexo. En 1662, el capitn John Graunt us documentos que abarcaban
treinta aos y efectu predicciones sobre el nmero de personas que moriran de varias
89
90
91
Variables cuantitativas
Variables que aportan informacin respecto a cantidades; por tal motivo su valor puede
ser medido y representado numricamente.
Discretas: Variables que, al poseer un nmero finito de valores posibles,
muestran interrupciones en su escala. Es por ello que los nmeros de las
variables cuantitativas discretas son generalmente enteros.
Ejemplos: Nmero de personas y objetos.
Continuas: Variables en cuyo intervalo posible existe un nmero infinito de
valores; debido a ello pueden mostrar valores decimales o fraccionarios.
Empero, cabe remarcar que las variables cuantitativas continuas terminan por
ser registradas como discretas debido a las formas e instrumentos de
medicin.
Ejemplos: Peso, estatura, edad, dimetros y permetros antropomtricos.
92
93
Tablas de frecuencias
Son tablas en las que seala: primero, cuntas veces aparece cada etiqueta de la variable
a lo largo de toda la muestra; es decir, su frecuencia (simple). Despus, cul es su
densidad; esto es, su frecuencia relativa: valor que puede calcularse dividiendo el
nmero de casos observados entre el tamao de la muestra (n ) y que, multiplicado por
cien, indica el porcentaje de la etiqueta respecto al total:
VARIABLE
FRECUENCIA
FRECUENCIA
RELATIVA
Etiqueta 1
# de casos
casos n
Etiqueta 2
# de casos
Etiqueta 3
()
Etiqueta n
# de casos
casos n
casos n
(casos n ) 100
(casos n ) 100
(casos n ) 100
# de casos
casos n
(casos n ) 100
Tamao de
muestra (n )
1.0000
100.00
TOTAL
PORCENTAJE
VARIABLE FRECUENCIA
FRECUENCIA
RELATIVA
FRECUENCIA
ACUMULADA
FRECUENCIA
RELATIVA
ACUMULADA
[(c1 ) n]
Categora
1
Casos (c1 )
(c1 n)
[(c1 )]
Categora
2
Casos (c2 )
(c2 n)
[(c1 ) + (c2 )]
Categora
3
Casos (c3 )
(c3 n )
()
()
()
Categora
Casos (c n )
(cn n )
()
Tamao de
muestra (n )
Tamao de
muestra (n )
1.00
n
TOTAL
(c1 ) + (c 2 )
(c1 ) + (c 2 ) + (c3 )
()
1.00
Grficas de frecuencias
94
Otra forma de resumir y a la vez representar los datos de una variable cualitativa es a
travs de grficos. Por tratarse de caractersticas cuyos valores son categoras con
determinada frecuencia relativa se sugiere entonces el uso de grficas de barras o de
grficas circulares:
a) Grficas de barras: Las grficas de barras se caracterizan por construirse en
base a dos ejes: en el horizontal (abscisas, X) se distinguen las categoras de la
variable y a partir de l se construyen los rectngulos con la altura (frecuencia) que
sta present, de acuerdo a la escala que se indica en el eje vertical (ordenadas,
Y).
Cabe remarcar ahora, dos cosas sobre este tipo de grficas:
Las barras pueden estar separadas debido a que no hay continuidad entre las
categoras.
Se sugiere que las frecuencias utilizadas en la construccin del grfico sean las
relativas, ya que estas permiten observar y comparar las proporciones o
porcentajes que presentaron las categoras.
DISTRIBUCIN DE LA VARIABLE RIESGO
DE PADECER ENF. CARDIOVASCULAR
Alumnos de estadstica 2008-1 (n=66)
80
76
Porcentaje
60
40
20
17
8
0
Bajo
Elevado
Muy elevado
porcentaje que cada categora mostr (K % = X ) y para ello, ms que una regla
de tres, se requiere de un comps y un transportador. Pese a todo, las grficas
circulares permiten comparar de manera mucho ms clara los porcentajes de las
categoras.
DISTRIBUCIN DE LA VARIABLE RIESGO
DE PADECER ENFERMEDAD CARDIOVASCULAR
Alumnos de estadstica 2008-1 (n=66)
Muy elevado
Elevado
16.7%
75.8%
Bajo
95
Tablas de contingencia
Cuando lo que se desea es descubrir si entre dos variables cualitativas existe asociacin
(y, dado el caso, su intensidad) se echa mano de las tablas de contingencia: tablas de
dos entradas donde se colocan los datos cruzados de las variables; es decir,
especificando en las celdas el nmero de casos que cumplen con ambas categoras:
Categora
A
VARIABLE DEPENDIENTE
Categora
Categora
()
B
C
casos(1A)
casos(1B )
casos(1C )
casos(2 A)
casos(2 B )
casos(3 A)
Categora
TOTAL
()
X
casos(1X )
casos(1)
casos(2C )
()
casos(2 X )
casos(2)
casos(3B )
casos(3C )
()
casos(3 X )
casos(3)
()
()
()
()
()
()
casos(nA)
casos(nB )
casos(nC )
()
casos(nX )
casos(n )
TOTAL
casos( A)
casos(B )
casos(C )
()
casos( X )
Tamao
de la
muestra
VARIABLE
INDEPENDIENTE
Categora
1
Categora
2
Categora
3
()
Categora
Sin embargo, interpretar un fenmeno a partir de los datos de las celdas es un error, pues
el valor que stas presentan depende directamente de los casos observados en cada
categora. Por ende, en vista de hacer conclusiones correctas es necesario obtener
porcentajes (segn se requiera) a partir de una de las siguientes formas:
Del total: Para obtener estos porcentaje se divide el valor de la celda entre el
tamao total de la muestra (celda n ) . No obstante, al igual que los valores reales,
dichos porcentajes no proporcionan mucha informacin ya que se ven afectados
por el nmero de casos presente en cada categora.
Aunque pudiera parecer indistinto el uso de porcentajes por columna o por rengln, ste
ltimo resulta ms fcil de interpretar y, debido a la estructura de la tabla, permite analizar
de manera ms adecuada si alguna caracterstica posee relacin con una variable
independiente.
96
Porcentaje
80
60
68
40
Sexo
20
Femenino
22
8
0
Bajo
Elevado
10
Masculino
Muy elevado
97
Porcentaje
80
60
40
Sexo
20
Femenino
Masculino
Bajo
Elevado
Muy elevado
Intervalos de clase
Sean discretas o continuas, las variables cuantitativas poseen un sinfn de valores
posibles, cuya frecuencia en un conjunto de datos suele ser muy baja. Dado que su
organizacin en una tabla de frecuencias no permite sacar conclusiones, la estadstica ha
encontrado que la mejor forma de analizarlos es agrupar sus valores en clases (tambin
conocidas como intervalos) a travs de los siguientes pasos:
1) Establecer el rango (R ) : El rango es la diferencia entre el valor ms pequeo y el
ms grande observados en un conjunto de datos, razn por la cual ste puede calcularse
haciendo una simple resta: Rango = Valor mayor valor menor, que de ahora en
adelante simplificaremos como:
R = Vmax Vmin
Aunque dicha expresin aplica para la mayora de los casos, si en la muestra se observan
datos atpicos es mejor excluirlos del clculo y dejar abiertos los intervalos.
2) Estipular el nmero de intervalos de clase (ni ) : Se entiende por intervalo de clase
al subconjunto del rango que contiene varios valores; es decir, los grupos en que se
categorizan los valores de la variable. Si bien existen muchas reglas para definir su
nmero, en este manual se sugiere que no sean ms de cinco si los datos son menos de
doscientos (n < 200) .
98
W =R
ni
4) Definir los intervalos: Calculado lo anterior, resta hacer explcitos los intervalos:
INTERVALO DE
CLASE (ni )
n1
n2
n3
n4
n5
LMITE INFERIOR
Vmin
(Vmin + W )
(Vmin + 2W )
(Vmin + 3W )
(Vmin + 4W )
4.2) Defnanse despus los lmites superiores de cada intervalo: El lmite superior
de cada intervalo debe ser justo menor al lmite inferior del siguiente intervalo con el fin
de evitar que un dato pueda considerarse en dos clases. Una opcin para lograr esto
es hacer que el ltimo decimal del lmite superior sea una cifra menor al ltimo decimal
del lmite inferior del siguiente intervalo. No obstante, la mejor alternativa es utilizar
corchetes y parntesis: smbolos matemticos que, en un intervalo, sealan cuando un
valor debe o no tocarse, respectivamente:
INTERVALO DE CLASE (ni )
n1
n2
n3
n4
n5
LMITE INFERIOR
[Vmin
[(Vmin + W )
[(Vmin + 2W )
[(Vmin + 3W )
[(Vmin + 4W )
LMITE SUPERIOR
(Vmin + W ))
(Vmin + 2W ))
(Vmin + 3W ))
(Vmin + 4W ))
Vmax ]
Tablas de frecuencias
Igual que las tablas de frecuencias de las variables cualitativas de tipo ordinal, las tablas
de frecuencias para las variables cuantitativas estn conformadas por cinco columnas: la
primera hace referencia al intervalo y las otras cuatro a las frecuencias de ste:
VARIABLE FRECUENCIA
FRECUENCIA
RELATIVA
FRECUENCIA
ACUMULADA
FRECUENCIA
RELATIVA
99
ACUMULADA
Intervalo 1
Casos (n1 )
(n1 n )
[(n1 )]
Intervalo 2
Casos (n2 )
(n2 n)
[(n1 ) + (n2 )]
Intervalo 3
Casos (n3 )
(n3 n )
()
()
()
Intervalo
Casos (nn )
(nn n )
()
Tamao de
muestra (n )
Tamao de
muestra (n )
1.00
n
TOTAL
[(n1 ) n]
(n1 ) + (n 2 )
(n1 ) + (n 2 ) + (n3 )
()
1.00
Histogramas
Histograma es el nombre que se da a las grficas de barras que se utilizan para
representar grficamente las variables cuantitativas. Aunque programas como el SPPS
generan dichos grficos considerando en el eje de las ordenadas a las frecuencias
simples, nosotros optaremos por realizar histogramas de frecuencias relativas con el fin
de analizar mejor las variables respecto a la muestra.
De cualquier forma, las barras de este tipo de grficas son adyacentes ya que, con saltos
en su escala o no, las variables cuantitativas poseen valores con un orden continuo.
Porcentaje
28
20
20
20
16
16
10
0
5+
.4
26
1
.4
4
.4
26
2.4
24
24
9.3
22
5
.3
8
.3
22
6.3
20
20
3.3
18
Edad exacta
Polgonos de frecuencia
Los polgonos de frecuencia son grficas de tipo lineal que tambin permiten reconocer
la distribucin de frecuencia de una variable cuantitativa. Su construccin requiere ubicar
la interseccin entre la frecuencia relativa de cada intervalo y las MARCAS DE CLASE;
es decir, los valores situados exactamente a la mitad de cada intervalo. Una vez que se
100
marcan dichas intersecciones, stas se unen mediante una lnea que se extiende hasta
tocar el eje de las abscisas en ambos extremos para delimitar un polgono.
El rea de ste es igual al rea que ocupan las barras de un histograma, razn por la cual
un polgono de frecuencia se interpreta igual que aqul, pero su ventaja es que, al ocupar
menos espacio, permite comparar diferentes grupos respecto a una variable.
Porcentaje
DISTRIBUCIN DE HOMBRES
POR EDAD EXACTA
Alumnos de estadstica 2008-1 (n=25)
30.00%
25.00%
20.00%
15.00%
10.00%
5.00%
0.00%
18.33 20.35
20.36 22.38
22.39 24.41
24.42 - 26.45 +
26.44
Edad exacta
Ojivas
Finalmente tenemos a las ojivas, grficos lineales que muestran de manera ms clara la
tendencia de una variable y nos permiten inspeccionar visualmente el porcentaje de casos
menores o mayores a uno de sus valores (no necesariamente presente en los datos).
Debido a esto, las ojivas contemplan en el eje de las ordenadas la frecuencia relativa
acumulada (o porcentaje acumulado) y los lmites de los intervalos en el eje de las
abscisas:
a) Ojivas menos de: Son las que permitan ubicar el porcentaje de casos menores a
un valor, por tal motivo, su trazo e interpretacin implica la siguiente metodologa:
1) Reconocer los lmites de los intervalos: De manera ms especfica. distinguir el
valor del lmite inferior de cada intervalo (L inf i ) .
2) Observar las frecuencias de los intervalos: Advertir la frecuencia acumulada y
relativa acumulada antes de cada intervalo (ni ) .
INTERVALOS
FRECUENCIA
n1 = (L inf1 , L sup1 )
n2 = (L inf 2 , L sup 2 )
n3 = (L inf 3 , L sup 3 )
FREC.
RELATIVA
FREC,
ACUMULADA
FREC. REL.
ACUMULADA
1.0000
()
n n = (L inf n , L sup n )
TOTAL
1.0000
101
3) Construir una tabla con los datos para la ojiva: En esta tabla debe sealarse
las frecuencias anteriores, cada una con la etiqueta correspondiente Menos de
L inf i . Ntese que las frecuencias acumuladas van en aumento y que:
VARIABLE
Menos de
L inf1
Menos de
L inf 2
Menos de
L inf 3
()
Menos de
L inf n
Menos de
> L inf n
FREC.
ACUMULADA
FREC. REL.
ACUMULADA
()
()
1.0000
4) Trazar la ojiva:
OJIVA MENOS DE EDAD
(n=95,429,611)
120
100
Porcentaje acumulado
80
60
40
20
0
10
20
30
40
50
60
70
Ms
Edad
102
b) Ojivas ms de: Ojivas que hacen posible ubicar el porcentaje de casos mayores a
un valor al indicar en el eje de las abscisas los lmites superiores de los intervalos.
Su construccin, por ende, implica seguir una metodologa diferente a la que vimos
anteriormente:
1) Reconocer los lmites de los intervalos: De manera ms especfica. distinguir el
valor del lmite superior de cada intervalo (L sup i ) .
2) Observar las frecuencias de los intervalos: Observar la frecuencia simple de
cada intervalo (ni ) .
INTERVALOS
FREC.
RELATIVA
FRECUENCIA
n1 = (L inf1 , L sup1 )
n2 = (L inf 2 , L sup 2 )
n3 = (L inf 3 , L sup 3 )
FREC,
ACUMULADA
FREC. REL.
ACUMULADA
1.0000
()
n n = (L inf n , L sup n )
TOTAL
1.0000
3) Construir una tabla con los datos para la ojiva: En esta tabla cada categora
Ms de L sup i implica ir restando la frecuencia simple del intervalo previo.
FREC.
ACUMULADA
FREC. REL.
ACUMULADA
L sup1
Ms de
VARIABLE
Ms de
Vmin
Ms de
103
Vase que:
L sup 2
()
Ms de
()
()
Porcentaje acumulado
4) Trazar la ojiva:
120%
100%
80%
de
60%
40%
los
20%
0%
Ms de Ms de Ms de Ms de Ms de Ms de Ms de Ms de
0
9
19
29
39
49
59
69
Edad
Ejemplos de aplicacin
104
1.
En 2001 el Instituto Nacional de Estadstica, Geografa e Informtica (INEGI) y
diversos investigadores de las Universidades de Pennsylvania, Maryland, y Wisconsin de
los Estados Unidos de Norteamrica aplicaron la primera encuesta del Estudio Nacional
sobre Salud y Envejecimiento en Mxico (ENASEM-2001), investigacin con que se
busca crear una base inicial de datos de la que se pueda obtener informacin sobre
caractersticas diversas de la poblacin de 50 aos y ms residente en Mxico, cuyos
resultados sean representativos a nivel nacional2.
Entre las caractersticas a investigar se hallaba el sexo y alfabetismo del individuo;
variables que entre la muestra de indgenas (n = 796) tuvieron los siguientes resultados:
VARIABLE
Masculino
Femenino
Alfabeta
ALFABETISMO
No alfabeta3
SEXO
405
391
487
309
a.1 y a.2) Construir una tabla de frecuencia y grfica circular para cada variable.
b) Si 289 de los hombres eran alfabetos y de las mujeres 198 tambin, comprobar si
existe una asociacin entre ambas variables mediante una tabla de contingencia y una
grfica de barras.
Para resolver el primer inciso ordenamos los datos de cada variable y obtenemos
entonces sus frecuencias relativas y los porcentajes que stas implican.
SEXO
FRECUENCIA
Masculino
405
Femenino
FRECUENCIA
RELATIVA
PORCENTAJE
391
49.12
TOTAL
796
1.0000
100.00
ALFABETISMO
FRECUENCIA
FRECUENCIA
RELATIVA
PORCENTAJE
Alfabeta
487
No alfabeta
TOTAL
50.88
61.18
309
796
1.0000
100.00
38.82
s/a, 2004. Estudio Nacional de Salud y Envejecimiento en Mxico (ENASEM) 2001. Documento
metodolgico y reporte de proyecto. Formato electrnico:
http://www.mhas.pop.upenn.edu/english/documents/Methodological/Doc_metodologico-v2.pdf
3
Segn la afirmacin de que no saban leer ni escribir un recado.
105
No alfabeta
Femenino
Masculino
49.1%
50.9%
38.8%
Alfabeta
61.2%
a.2) , Si bien el porcentaje femenino era mayor, ms que las frecuencias, la grfica nos
permite ver que no hubo una gran diferencia en la cantidad de mujeres y hombres
encuestados. Por el contrario, aunque aqu la diferencia en el alfabetismo no es tan fuerte
como en la comparacin numrica, la grfica comprueba un mayor porcentaje de alfabetas.
Ahora, para analizar si existe una asociacin entre las variables, construimos la tabla de
contingencia:
Masculino
Femenino
TOTAL
SEXO
ALFABETISMO
Alfabeta
No alfabeta
289
198
487
309
TOTAL
405
391
796
Como no se hicieron explcitas las frecuencias de los casos que no saban leer ni escribir
un recado, basta realizar un par de restas al nmero total de casos de cada sexo para
obtenerlos: 405 289 = 116 y 391 198 = 193 ; valores que suman el total de casos no
alfabetas: 116 + 193 = 309
Una vez calculado esto, terminemos de elaborar la tabla y saquemos los porcentajes por
rengln:
ALFABETISMO ALFABETISMO
Alfabeta
No alfabeta
289
116
Masculino
28.64%
71.36%
SEXO
198
193
Femenino
50.64%
49.36%
487
309
TOTAL TOTAL
61.18%
38.82%
TOTAL
405
100%
391
100%
796
100%
106
Porcentaje
60
51
49
40
29
20
Sexo
FUENTE:
Estudio Nacional sobre
Salud y Envejecimiento
en Mxico (ENASEM),
2001.
Masculino
0
Femenino
Alfabeta
No alfabeta
Alfabetismo
2.
Otra de las cuestiones a estudiar en el ENASEM-2001 fue la salud del individuo y
su autopercepcin de sta; por tanto, una de las variables consideradas fue si el
encuestado tena o no dificultades para caminar de un lado a otro de su cuarto. He aqu
los resultados de hombres y mujeres por grupo quinquenal:
GRUPO
QUINQUENAL
50-54
55-59
60-64
65-69
70-74
75-79
80+
HOMBRES
Con
Sin
dificultad dificultad
17
1598
26
1459
33
1116
46
998
72
638
54
476
129
370
MUJERES
Con
Sin
dificultad dificultad
44
1927
46
1686
49
1326
46
981
60
641
61
441
202
422
a) Determinar mediante una grfica de lneas si existe alguna asociacin entre estas
variables.
107
Como el inters reside en averiguar si existe asociacin entre la edad y la dificultad para
caminar (presencia de una caracterstica), slo graficaremos los porcentajes
correspondientes a sta separando los datos por sexo.
DIFICULTAD PARA CAMINAR POR
GPO. QUINQUENAL Y SEXO
Indgenas de 50 aos o ms (n=796)
50
FUENTE:
Estudio Nacional sobre
Salud y Envejecimiento
en Mxico (ENASEM),
2001.
Porcentaje
40
30
20
Sexo
10
Masculino
0
50-54
Femenino
55-59
60-64
65-69
70-74
75-79
80+
Grupo quinquenal
3.
De acuerdo a los Programas Integrados de Salud (PREVENIMSS) del Instituto
Mexicano del Seguro Social (IMSS), hay dos tipos de distribucin de grasa en el
organismo que se asocian a la aparicin de enfermedades:
1. Ginecoide (en forma de pera): Acumulacin de grasa en muslos y cadera que
deriva usualmente en vrices y dolor de rodillas.
2. Androide (en forma de manzana): Distribucin de grasa al nivel de la cintura que
predispone al desarrollo de diabetes, cncer de colon, mama o endometrio;
elevacin del colesterol y triglicridos (grasas en sangre), infartos, embolias y
muerte prematura por enfermedad cardiovascular4.
Ante dicha circunstancia, el IMSS sugiere que las personas estn al pendiente de sus
medidas; especialmente de la circunferencia de su cintura, y la interpreten de acuerdo a la
siguiente tabla a fin de tomar acciones preventivas en caso necesario:
CIRCUNFERENCIA DE CINTURA (cm.)
MUJERES
HOMBRES
Menor de 80.0
Menor de 94.0
INTERPRETACIN
Normal Sin riesgo
IMSS, 2005. Prevencin, deteccin y control de sobrepeso y obesidad en Gua de la salud de la mujer,
36-42 p.p. Documento electrnico: http://www.imss.gob.mx/NR/rdonlyres/E36D4BB0-C252-4B7C-A44E6DE664C76609/0/GCSmuj3150.pdf
108
De 80.0 a 87.9
Igual o mayor a
88.0
De 94.0 a 101.9
Igual o mayor a
102.0
606
640
643
645
649
653
654
655
655
659
660
664
686
691
703
703
712
719
735
736
738
745
750
750
754
765
770
784
786
820
831
837
850
859
881
906
946
W = 390 = 78
5
702
712
719
720
729
730
737
746
750
772
782
795
809
809
842
858
859
861
918
932
950
990
1080
W = 383 = 76.60
5
, Si bien pareciera existir un rango mayor en las medidas del permetro de cintura
femenino, esto se debe a las unidades. Si convertimos dichos valores a la escala ms
comn (centmetros) el rango del permetro de cintura masculino fue slo 0.7 centmetros
menor que el femenino.
Especifiquemos ahora los intervalos para hacer las tablas de frecuencia y los histogramas
correspondientes:
PER. CINTURA
MUJERES
556-633
634-711
712-789
790-867
868-946
TOTAL
FRECUENCIA
5
15
13
5
3
41
FREC.
RELATIVA
0.1220
0.3659
0.3171
0.1220
0.0732
1.00
FREC.
ACUMULADA
5
20
33
38
41
FREC.REL.
ACUMULADA
0.1220
0.4878
0.8049
0.9268
1.00
109
20
10
12
12
7
0
556-633
634-711
712-789
790-867
868-946
Permetro de cintura
PER. CINTURA
HOMBRES
697-773.5
773.6-850.1
850.2-926.7
926.8-1003.3
1003.4-1080
TOTAL
FREC.
RELATIVA
0.4800
0.2000
0.1600
0.1200
0.0400
1.00
FRECUENCIA
12
5
4
3
1
25
Porcentaje
Porcentaje
30
40
30
20
20
16
10
12
0
697-773.5
773.6-850.1
850.2-926.7
926.8-1003.3
FREC.
ACUMULADA
12
17
21
24
25
FREC.REL.
ACUMULADA
0.4800
0.6800
0.8400
0.9600
1.00
1003.4-1080
41
100.00%
110
Ms de 633
Ms de 711
Ms de 789
Ms de 867
Ms de 946
36
21
8
3
0
87.80%
51.22%
19.51%
7.32%
0.00%
Ahora bien, la ojiva sugiere que menos de un 20% (lnea azul claro) tena una
circunferencia mayor a 80.0 centmetros y que el permetro de aproximadamente un 10%
era mayor a 88 centmetros .
Si corroboramos dicha afirmacin con los
datos tenemos que 8 casos (19.51%)
cumplan con la primer afirmacin y 3
observaciones (7.32%) con la segunda.
25
13
8
4
1
0
,
Para
ir
por
100.00%
52.00%
32.00%
16.00%
4.00%
0.00%
111
De acuerdo al IMSS, a los siete casos con riesgo elevado (cinco mujeres y 2 hombres) se
les debi sugerir disminuir los alimentos ricos en grasa, colesterol y azcares refinados,
adems de realizar ejercicio aerbico por lo menos sesenta minutos. En tanto que los
cuatro casos con riesgo muy elevado (tres mujeres y un hombre) deban urgentemente
disminuir su peso corporal, cambiar los malos hbitos de alimentacin y realizar tambin
sesenta minutos de ejercicio aerbico como mnimo.
Moda X , x
ESTADSTICO
x)
Mediana ( X , ~
~
NON
PAR
x (1)
x (1)
112
x(2 )
x(2 )
x (3 )
Mediana
x (3 )
x(4 )
x(4 )
x (5 )
x (5 )
Mediana
x (6 )
Ahora bien, si el nmero de observaciones impide reconocer visualmente la mediana, su
valor puede encontrarse de la siguiente manera:
a) Si el total de observaciones es un nmero impar, el valor de la mediana es igual
n
+ 0.5 .
n
2
n
+ 1 .
2
Explicado eso puede afirmarse que la mediana (sealada con una tilde ~) es una medida
de tendencia central muy fcil de calcular cuyo valor, al ser nico, resulta sumamente til
para indicar (por posicin) el promedio de un conjunto de datos cuando stos presentan
cierta simetra o incluyen valores extremos.
PARMETRO
X~
ESTADSTICO
~
x
Media (aritmtica) ( , x )
La media es, sin duda alguna, la medida de tendencia central ms utilizada en la
estadstica descriptiva de variables cuantitativas. Si bien su parmetro se representa
con la letra griega (Mi), su estadstico se seala agregando una barra horizontal sobre
la letra de la variable:
PARMETRO
ESTADSTICO
xi
i =1
x=
x
i =1
Como puede verse, la media es simplemente el producto de sumar todos los valores
observados y dividir el resultado entre el nmero total de datos5. Es decir, a diferencia de
la mediana, la media es un promedio que toma en cuenta todas las observaciones; sin
A diferencia de la moda y la mediana, la media es la nica medida de tendencia central que, por su clculo
aritmtico, puede obtenerse con ayuda de la calculadora. Slo es necesario ingresar los datos en el modo
estadstico y acceder a la funcin x .
113
embargo, dicha caracterstica implica que su clculo pueda verse afectado por valores
extremos al grado de provocar que su valor no sea verdaderamente representativo.
Medidas de dispersin
An cuando las medidas anteriores nos permiten encontrar los valores centrales de un
conjunto de datos, poco dicen sobre el resto de las observaciones: si son parecidas o
difieren por mucho. Precisamente para reconocer dicha variabilidad en la distribucin de
una variable es que la estadstica ha propuesto las medidas de dispersin6, entre ellas:
Rango (R )
Como vimos en el captulo anterior, el rango es la diferencia entre el valor ms pequeo y
el ms grande en un conjunto de datos:
R = Vmax Vmin
La sencillez del clculo de esta medida de dispersin (que echa mano de slo dos
observaciones) es, sin embargo, contrarrestada por su deficiencia en la explicacin de la
variabilidad, que se limita a la diferencia ms general.
Debido a esto es que, para comprender la cantidad total de variabilidad y resumirla en un
solo nmero es preciso sacar el promedio de la desviacin de los datos con respecto a su
media:
n
Dispersin =
(X
i =1
x)
Esta frmula, empero, no funciona porque, como veremos a continuacin, la suma de las
desviaciones de los datos respecto a la media es siempre igual a cero:
n
(X
i =1
x) = Xi x
i =1
i =1
i =1
i =1
i =1
( X i + Yi ) = X i + Yi
Porque
n
(X
i =1
x ) = X i xn
i =1
n
C = cn
Porque
i =1
(X
i =1
x ) = xn xn
Tales medidas slo deben aplicarse cuando los datos son distintos, pues si el valor de todas las
observaciones fuera idntico no habra variabilidad.
114
Porque
x=
X
i =1
X i = xn
i =1
(X
Entonces
i =1
Por lo
que
x) = 0
Dispersin =
0
=0
n
A fin de salvar este problema, el resto de las medidas de dispersin ocupa entonces una
serie de estrategias para transformar las desviaciones de los datos en distancias, cuyo
valor es siempre positivo o igual a cero.
Desviacin media (DM , dm)
La desviacin media, por ejemplo, es la medida de dispersin que obtiene el promedio
de las desviaciones de los datos en valor absoluto:
PARMETRO
N
DM =
i =1
ESTADSTICO
n
Xi
dm =
X
i =1
Varianza 2 , s 2
La varianza es la medida de dispersin que, para evitar los signos de las desviaciones,
saca el promedio7 de las diferencias de los datos respecto a su media elevadas al
cuadrado:
PARMETRO
ESTADSTICO
El promedio se obtiene dividiendo entre n 1 de acuerdo a los principios tericos de los grados de libertad:
Basa conocer los valores de n 1 de las desviaciones, pues el n simo valor queda automticamente
determinado por la restriccin de que todos los valores de n suman siempre cero.
7
115
2 =
(X
i =1
s2 =
(X
i =1
x)
n 1
ESTADSTICO
2
(X i )
(X
s=
i =1
i =1
x)
n 1
(X
i =1
(X
i =1
i =1
Porque
i =1
i =1
i =1
i =1
i =1
x ) = X i2 2 x X i + x 2 n
2
i =1
i =1
CX i = C X i
C = cn
i =1
(X
i =1
x ) = X i2 2 x ( x n ) + x n
2
i =1
n
Porque
(X
x ) = X i2 2X i x + x 2
2
x) :
2
x=
X
i =1
X i = xn
i =1
(X
i =1
x ) = X i2 2 x 2 n + x n
2
i =1
116
(X
i =1
x ) = X i2 x 2 n
2
i =1
s=
X
i =1
2
i
nx 2
n 1
Finalmente, sin importar el mtodo utilizado para su clculo, debemos remarcar que el
obtener la raz cuadrada de la varianza implica regresar a las unidades originales. La
desviacin estndar, por tanto, puede interpretarse literalmente como el promedio de la
desviaciones de los datos respecto a la media: el que su valor sea muy pequeo indica
que las observaciones estn muy cerca de esta medida de tendencia central; en tanto que
un valor grande seala que los datos se hallan muy dispersos y que la media pudiera no
ser un valor realmente representativo del conjunto.
Medidas de posicin
Otra forma de analizar la distribucin de una variable son las medidas de posicin:
nmeros que sirven para descubrir la localizacin de un dato especfico con respecto el
resto de la muestra.
Percentiles (centiles)
Igual que la media, el valor de la desviacin estndar de un conjunto de observaciones puede obtenerse
mediante las funciones n 1 s x de la calculadora una vez que se han ingresado los datos en el modo
estadstico.
117
el nmero k que deja, a los ms, al k % por debajo de l y al (100 k )% por encima de
l es:
nk
=X
100
El valor descubierto, empero, slo representa la posicin que ocupa el percentil en el
conjunto de datos ordenados. Por ende, el percentil es en realidad el valor del dato que se
encuentra en la posicin X 9.
Cuartiles
Los cuartiles son tres nmeros que dividen a los datos ordenados en cuatro partes
iguales. Sus valores, por tanto, pueden hacerse equivalentes a los de cuatro percentiles:
PERCENTIL
CUARTIL
Primer cuartil
(q1 )
P25
P50
Segundo cuartil
P75
(q2 = ~x )
Tercer cuartil
(q3 )
DEFINICIN
Nmero respecto al que 25% de los datos son
menores que l.
Nmero que divide al conjunto de datos
exactamente en dos partes, dejando una mitad
con valores menores y otra mitad con valores
mayores. Su valor, por tanto, es igual al de la
mediana de un conjunto de datos.
Nmero que deja al 75% de los datos con un valor
menor al suyo.
Como su ubicacin es mucho ms precisa, los cuartiles no sirven para analizar casos
extremos; no obstante, se utilizan para designar ciertas posiciones cuando se elabora una
grfica de caja.
Grficas de caja
Las grficas de caja (tambin conocidas como diagramas de caja y bigotes) son
grficos que muestran la distribucin de una variable. Veamos los pasos necesarios para
construirlas:
118
1) ORDENAR LOS DATOS Y UBICAR VALORES CLAVE: Los primero que debe
hacerse es ordenar los datos para reconocer los valores mnimo, mximo y de los tres
cuartiles: Vmin, q1 , q 2 , q 3 , Vmax .
Permetro de cadera
1200
52
32
1100
1000
900
800
700
N=
41
25
Femenino
Masculino
Sexo
Por ltimo debe mencionarse que este tipo de grficas permite tambin comparar la
distribucin de la variable entre las categoras del grupo de estudio. Si es este el caso,
basta con separar los datos de cada categora, ubicar sus valores y trazar una caja para
cada grupo.
119
DISTRIBUCIN DE LA VARIABLE
PERMETRO DE CADERA
Alumnos de estadstica 2008-1 (n=66)
Permetro de cadera
1300
1200
1100
1000
Turno
900
Matutino
800
Vespertino
700
N=
26
15
13
Femenino
12
Masculino
Sexo
Ejemplos de aplicacin
1.
Son muchos ya los alumnos de la ENAH que han expresado lo incmodo de las
sillas de esta escuela. Si bien resulta imprescindible un cambio en este mobiliario, el costo
que dicho proyecto pudiera alcanzar es inquietante.
Echando mano de los datos de Estatura total, Estatura sentado, Altura de rodilla y Peso
recolectados en los grupos de estadstica:
a) Calcule las medidas de tendencia central: moda, mediana y media.
b) Calcule las medidas de dispersin: rango y desviacin estndar.
c) Calcule los cuartiles y elabore una grfica de caja.
A fin de analizar el comportamiento de estas variables y presentar a un diseador
industrial algunos datos con los que ste pueda hacer una cotizacin sobre los materiales
y diseos necesarios para producir sillas ms funcionales y cmodas.
Veamos primero los datos, ya ordenados, donde se sealan algunos de los valores que
se mencionaran posteriormente:
Estatura total
1477
1490
1492
1506
1515
1521
1527
1529
1541
1552
1554
1555
1559
1560
1562
1563
1599
1605
1614
1619
1622
1625
1641
1642
1657
1658
1660
1664
1669
1675
1675
1679
Estatura sentado
787
802
809
809
813
815
816
820
821
823
825
826
826
827
828
829
855
859
865
866
868
870
872
875
878
879
879
887
887
888
889
889
Altura de rodilla
411
414
426
436
442
443
443
444
446
448
453
454
457
457
458
458
477
478
478
479
481
481
481
482
484
484
484
486
486
486
487
489
Peso
37.6
41.9
44.4
44.4
44.9
45.1
45.2
45.8
47.2
47.5
48.0
48.3
49.2
49.8
51.1
51.5
61.1
61.3
61.4
61.6
61.6
61.7
62.6
62.6
62.7
64.4
64.5
65.6
67.2
67.4
68.3
68.4
120
1563
1566
1570
1571
1683
1685
1686
1689
829
832
834
834
890
891
894
897
458
459
459
459
491
491
491
496
52.1
53.1
53.1
54.4
68.7
68.8
69.6
70.0
1571
1576
1576
1577
1699
1701
1705
1719
838
838
839
839
901
902
908
911
461
464
464
464
502
504
504
506
55.4
55.8
55.9
56.4
70.2
71.5
72.5
74.5
1582
1583
1721
1724
841
844
914
919
464
465
516
519
57.5
57.5
76.6
76.7
1584
1585
1591
1594
1594
1595
1597
1728
1742
1751
1767
1786
1833
1852
848
849
849
850
850
850
854
921
921
928
939
940
941
969
465
467
469
469
471
471
475
519
522
525
536
554
588
590
58.0
58.1
58.4
58.4
58.6
59.5
60.4
77.6
78.8
87.3
91.6
93.1
94.7
98.0
Ahora bien, ejemplifiquemos la aplicacin de todas las medidas y las grficas de caja con
la variable Estatura total:
I.
Estatura total
Lo primero que observamos en esta variable es que cinco valores se repiten dos veces a
lo largo de la muestra:
MODA
, Por tal motivo puede afirmarse que entre los alumnos de estadstica la variable Estatura
es multimodal.
Sin embargo, como la moda ha sealado demasiados valores, buscaremos la mediana del
conjunto para ver si su valor es ms representativo. Dado que el nmero total de datos es
par (n = 66) , debemos averiguar el promedio de los datos que estn al centro de la lista.
POSICIN
(n = 66)
66
= 33
2
66
+ 1 = 34
2
VALOR
MEDIANA
(PROMEDIO)
1597
1599
1597 + 1599
~
= 1598.0000
x=
2
107153
1623 5303
121
x=
x
i =1
R = Vmax Vmin
, El clculo del rango seala que, entre la menor y la mayor estatura hay 375 milmetros
(37.5 centmetros). No obstante, la cantidad total de variabilidad manifestada por la
variable es de:
DESVIACIN ESTNDAR
n
s=
X
i =1
2
i
174411215 66(1623.5303)
= 82.7483
66 1
2
nx 2
s=
n 1
, Esto significa que la distancia promedio de los datos de estatura total respecto a su
media es de 82.7483 milmetros (8.2 centmetros).
Finalmente, para analizar grficamente la distribucin de la variable obtenemos el valor de
los cuartiles y construimos la grfica de caja:
(n = 66)
POSICIN
1
MNIMO
Primer cuartil (q1 )
Segundo cuartil (q 2 )
Tercer cuartil (q3 )
66(25)
= 16.5 17
100
~
x
66(75)
= 49.5 50
100
66
MXIMO
VALOR
1477
1563
1598
1683
1852
DISTRIBUCIN DE LA VARIABLE
ESTATURA TOTAL
Alumnos de estadstica 2008-1 (n=66)
1900
Estatura total
1800
1700
1600
1500
122
1400
Alumnos
Estatura total
1800
1700
15
54
44
1600
1500
1400
N=
41
25
Femenino
Masculino
Sexo
Estatura sentado
MODA
x = 850
, La estatura sentado observada con mayor frecuencia entre los alumnos de
estadstica fue de 850 milmetros (85.0 centmetros).
(n = 66)
POSICIN
66
= 33
2
66
+ 1 = 34
2
854
855
VALOR
854 + 855
MEDIANA
~
x=
= 854.5000
(PROMEDIO)
2
, El valor promedio del conjunto de datos sobre estatura sentado es de 854.5
milmetros (85.4 centmetros).
MEDIA
x = 863.42
, La estatura sentado promedio de los alumnos de estadstica es de 863.42
milmetros (86.3 centmetros).
RANGO
R = 969 787 = 182.00
, La diferencia mxima en la estatura sentado de los alumnos es de 182 milmetros
123
(18.2 centmetros).
DESVIACIN ESTNDAR
s = 40.11
, La distancia promedio de los datos de estatura sentado respecto a su media es
de 40.11 milmetros (4.0 centmetros).
(n = 66)
POSICIN
1
MNIMO
Primer cuartil (q1 )
Segundo cuartil (q 2 )
Tercer cuartil (q3 )
66(25)
= 16.5 17
100
~
x
66(75)
= 49.5 50
100
829
854.5
890
66
MXIMO
969
DISTRIBUCIN DE LA VARIABLE
DISTRIBUCIN DE LA VARIABLE
ESTATURA SENTADO
Estatura sentado
1000
Estatura sentado
VALOR
787
900
800
900
60
800
700
700
N=
N=
66
41
25
Femenino
Masculino
Alumnos
Sexo
, Igual que la estatura total, la variable Estatura sentado muestra mayor variabilidad en la
mitad con valores ms altos y pese a que dicha estatura es mayor entre los hombres y
sus valores manifiestan mayor dispersin en las mujeres, se observ un caso atpico del
sexo masculino, que present una estatura sentado notoriamente baja.
(n = 66)
POSICIN
66
= 33
2
66
+ 1 = 34
2
124
475
477
VALOR
475 + 477
MEDIANA
~
x=
= 476
(PROMEDIO)
2
, El valor promedio del conjunto de datos sobre altura de rodilla es de 476
milmetros (47.6 centmetros).
MEDIA
x = 478.35
, La altura de rodilla promedio de los alumnos de estadstica es de 478.35
milmetros (47.8 centmetros).
RANGO
R = 590 411 = 179
, La diferencia mxima en la altura de rodilla de los alumnos es de 179 milmetros
(17.9 centmetros).
DESVIACIN ESTNDAR
s = 33.48
, La distancia promedio de los datos de altura de rodilla respecto a su media es de
33.48 milmetros (3.3 centmetros).
(n = 66)
POSICIN
1
MNIMO
Primer cuartil (q1 )
Segundo cuartil (q 2 )
Tercer cuartil (q3 )
66(25)
= 16.5 17
100
~
x
66(75)
= 49.5 50
100
458
476
491
66
MXIMO
590
DISTRIBUCIN DE LA VARIABLE
DISTRIBUCIN DE LA VARIABLE
ALTURA DE RODILLA
600
54
37
39
500
Altura de rodilla
700
Altura de rodilla
VALOR
411
600
54
37
500
400
42
50
400
300
300
N=
N=
66
Alumnos
41
25
Femenino
Masculino
Sexo
125
IV. Peso
x = 44.4,53.1,57.5,58.4,61.6,62.6
MODA
, La repeticin de seis valores a lo largo de la muestra seala a los alumnos de
estadstica como una muestra multimodal respecto al peso corporal.
(n = 66)
POSICIN
66
= 33
2
66
+ 1 = 34
60.4
61.1
VALOR
60.4 + 61.1
MEDIANA
~
x=
= 60.75
(PROMEDIO)
2
, El valor promedio del conjunto de datos sobre peso es de 60.75 kilogramos.
MEDIA
x = 61.62
, El peso promedio de los alumnos de estadstica es de 61.6 kilogramos.
RANGO
R = 98 37.6 = 60.4
, La diferencia mxima en peso de los alumnos es de 60.4 kilogramos.
DESVIACIN ESTNDAR
s = 13.17
, La distancia promedio de los datos de peso respecto a su media es de 13.17
kilogramos.
(n = 66)
MNIMO
Primer cuartil (q1 )
Segundo cuartil (q 2 )
Tercer cuartil (q3 )
MXIMO
POSICIN
1
66(25)
= 16.5 17
100
~
x
66(75 )
= 49.5 50
100
66
VALOR
37.6
52.1
60.75
68.7
98.0
126
DISTRIBUCIN DE LA VARIABLE
PESO CORPORAL
Alumnos de estadstica 2008-1 (n=66)
110
Peso corporal
100
37
39
90
80
70
60
50
40
30
N=
66
Alumnos
DISTRIBUCIN DE LA VARIABLE
PESO CORPORAL POR SEXO
Alumnos de estadstica 2008-1 (n=66)
110
Peso corporal
100
90
52
54
80
70
60
50
40
30
N=
41
25
Femenino
Masculino
Sexo
Evaluacin de la media y la
distribucin de una variable
127
Esta caracterstica es, empero, la misma razn por la cual la desviacin estndar de
distintos grupos (con medias considerablemente diferentes) o variables (con otras
unidades y escalas de medicin) no puede ser comparada. Otros procedimiento deben
realizarse entonces para cotejar la variabilidad de dos o ms conjuntos de datos:
Coeficiente de variacin (variabilidad) (C.V , c.v )
La forma ms sencilla de obtener un valor de dispersin que sea independiente a
cualquier unidad de medicin y que tome en cuenta a la media es calcular el coeficiente
de variacin; medida de variabilidad relativa que relaciona la desviacin estndar con la
media de un conjunto de datos:
PARMETRO
ESTADSTICO
C.V . = 100
s
c.v.. = 100
x
Esto debido a que, al dividir la desviacin estndar entre la media no slo cancelamos las
unidades, sino que tambin establecemos una medida que, multiplicada por cien, indica
qu tanto por ciento de dispersin existe respecto a la media.
Ahora bien, aunque son los trminos porcentuales del coeficiente de variacin los que
permiten comparar la variabilidad entre dos o ms conjuntos de datos, es su carcter
relativo a la media lo que permite evaluar dicha medida de tendencia central y concluir
que: si el coeficiente de variacin es mayor a 30%, la dispersin de las
observaciones afecta el valor de la media; razn por la cual es mejor utilizar a la
mediana como valor promedio.
Teorma de Tchebysheff (Chebyshev)
Otro tcnica para cotejar la variabilidad entre dos o ms conjuntos de datos es calcular la
proporcin o porcentaje aproximado de elementos que se encuentran en una parte de la
distribucin manifestada por cada variable.
Segn el teorema de Tchebysheff: La proporcin de cualquier distribucin situada dentro
de k desviaciones estndares (s ) de la media es, por lo menos, 1
1
, donde k es
k2
1
k2
1 k 2 100%
1
1 3
= 1 = = 0.75
2
4 4
2
(0.75)100% = 75%
1
1 8
= 1 = = 0.89
2
9 9
3
(0.89)100% = 89%
INTERPRETACIN
Al menos 75% de los datos
est a dos desviaciones
estndares de la media.
Al menos 89% de los datos
est a tres desviaciones
estndares de la media.
128
1
1 15
= 1
=
= 0.94
2
16 16
4
(0.94)100% = 94%
1
=x
k2
1
1 x = 2
k
1
= k2
1 x
1
=k
1 x
Si
Despejamos k
Y tenemos que
k2
PORCIENTO
[x ks, x + ks]
DE LOS DATOS
B. EVALUACIN DE LA DISTRIBUCIN DE UNA VARIABLE
Los histogramas que representan grficamente la distribucin de las variable pueden
tomar muchas formas; basta con dibujar una curva sobre sus barras para comprobarlo:
unas sern ascendentes, algunas descendentes y otras parecern campanas de Gauss,
normales, aplanadas o puntiagudas. No obstante, como veremos a continuacin, ms all
de su forma, la evaluacin de dichas caractersticas permite analizar la distribucin de una
variable.
1 n
( X i x )3
n
a = i =1 3
s
129
INTERPRETACIN
a<0
a0
a>0
REPRESENTACIN GRFICA
Coeficiente de curtosis
Por otro lado est el coeficiente de curtosis, medida que analiza el grado de
concentracin que presentan los datos en torno a la media y seala cun puntiaguda es la
distribucin de la variable respecto a la curva gaussiana (distribucin normal):
COEFICIENTE
DE CURTOSIS
1 n
( X i x )4
n
3
c = i =1 4
s
VALOR
DE a
INTERPRETACIN
REPRESENTACIN GRFICA
130
c<0
Un valor negativo en el
coeficiente de curtosis indica que
los datos se encuentran muy
dispersos, motivo por el que la
curva que delinea su distribucin
es ms plana y ancha; esto es
platicrtica.
c0
c>0
Finalmente, un coeficiente de
curtosis positivo es seal de que
los datos se concentran alrededor
de la media; razn por la cual su
curva es ms
esbelta
y
apuntalada;
es
decir,
leptocrtica.
Ejemplos de aplicacin
1.
A lo largo del ltimo ejercicio del captulo anterior realizamos algunas grficas de
cajas para explorar el comportamiento de las variables Estatura total, Estatura sentado,
Altura de rodilla y Peso en los grupos de estadstica 2008-1. Si bien establecimos
algunas comparaciones sobre su variabilidad por sexo, todas las conclusiones fueron
hechas visualmente. Calcule entonces las medidas necesarias para:
a) Cotejar la dispersin de los valores y evaluar la media.
b) Determinar en qu intervalo se halla el 95% de los datos.
c) Reconocer el grado de simetra y apuntamiento de su distribucin.
Comparar la variabilidad por grupos implica, sin duda alguna, calcular el coeficiente de
variacin. Empero, dado que las medidas de tendencia central y dispersin para estas
variables haban sido determinadas a partir de la muestra total, calcularemos tambin
(con ayuda del SPSS) su valor por sexo:
SEXO FEMENINO
VARIABLE
Estatura
total
Estatura
sentado
Altura de
~
x
1571.00
SEXO MASCULINO
~
x
1576.39
50.01
1699.00
1700.84
65.99
838.00
841.46
25.46
901.00
899.44
33.18
464.00
464.80
28.13
491.00
500.56
29.84
131
rodilla
Peso
corporal
57.50
57.30
11.56
65.60
68.71
12.77
VARIABLE
Estatura total
Estatura
sentado
Altura de rodilla
Peso corporal
SEXO FEMENINO
COEFICIENTE DE VARIACIN
SEXO MASCULINO
COEFICIENTE DE VARIACIN
50.01
c.v.. =
100 = 3.17
1576.39
25.46
c.v.. =
100 = 3.03
841.46
28.13
c.v.. =
100 = 6.05
464.80
11.56
c.v.. =
100 = 20.17
57.30
65.99
c.v.. =
100 = 3.88
1700.84
33.18
c.v.. =
100 = 3.69
899.44
29.84
c.v.. =
100 = 5.96
500.56
12.77
c.v.. =
100 = 18.59
68.71
a) , De entrada vemos que ninguno de los coeficientes de variacin es mayor a 30, por lo
que puede afirmarse que la media calculada en cada caso es un valor verdaderamente
representativo de los datos. Ahora, aunque en general fue el peso la caracterstica que
present mayor variabilidad, la dispersin de las observaciones muestra una diferencia
por sexo: es mayor en la estatura total y la estatura sentado masculina, y mayor en la
altura de rodilla y el peso femenino. Cultural es seguramente el motivo por el que las
mujeres presentan tal variabilidad pero esa es harina de otro costal a investigar.
Hecho esto, revisemos la distribucin de las variables. Primero, para deducir el intervalo
que contiene al 95% de los datos de cada caso, es necesario calcular el valor de k :
Si:
Entonces:
1
= 0.95
k2
1
= 4.47
1 0.95
Sabiendo esto, construyamos los intervalos para cada variable por sexo:
VARIABLE
Estatura total
Estatura sentado
Altura de rodilla
Peso corporal
VARIABLE
SEXO FEMENINO
DATOS
INTERVALO
[1352.85,1799.93]
[727.65,955.27]
[339.06,590.54]
[5.63,108.97]
INTERVALO
132
Estatura total
Estatura sentado
Altura de rodilla
Peso corporal
b) INTERPRETACIN
Finalmente calculemos10 los coeficientes de asimetra y de curtosis para reconocer el
grado de simetra y apuntamiento de su distribucin.
VARIABLE
Estatura
total
Estatura
sentado
Altura de
rodilla
Peso
corporal
VARIABLE
Estatura
total
Estatura
sentado
SEXO FEMENINO
COEFICIENTE DE ASIMETRA
1 n
3
1
(1470507.05)
( X i 1576.39)
35866.03
41 i =1
41
a=
a
=
a=
= 0.29
3
125075.02
125075.02
(50.01)
1 n
1
( X i 841.46)3
(168650.29)
4113.42
41 i =1
41
a=
a=
a=
= 0.25
3
16503.47
16503.47
(25.46)
1 n
1
( X i 464.80)3
(1666542.97 )
40647.39
41 i =1
41
a=
a
=
a=
= 1.83
3
22259.18
22259.18
(28.13)
1 n
1
( X i 57.30)3
(51861.56)
1264.92
41 i =1
41
a=
a=
a=
= 0.82
3
1544.80
1544.80
(11.56)
SEXO FEMENINO
COEFICIENTE DE CURTOSIS
1 n
1
( X i 1576.39)4
(717595453.77 )
41 i =1
41
c=
3 c =
3
6255001.50
(50.01)4
17502328.14
c=
3 c = 2.80 3 = 0.20
6255001.50
1 n
4
1
(38946197.76)
( X i 841.46)
41 i =1
41
c=
c
=
3
420178.28
(25.46)4
949907.26
c=
3 c = 2.26 3 = 0.74
420178.28
10
Debido a que obtener la diferencia de cada dato respecto a su media es sumamente laborioso, hemos
ocupado un programa de hojas de clculo para calcular su suma total ya elevada al cubo y a la cuarta potencia.
133
Altura de
rodilla
Peso
corporal
VARIABLE
Estatura
total
Estatura
sentado
Altura de
rodilla
Peso
corporal
VARIABLE
Estatura
total
1 n
1
( X i 464.80)4
(268696141.65)
41 i =1
41
c=
3 c =
3
626150.78
(28.13)4
6553564.43
c=
3 c = 10.47 3 = 7.47
626150.78
1 n
4
1
(2727396.16)
( X i 57.30)
41 i =1
41
c=
c
=
3
3
17857.94
(11.56)4
66521.86
c=
3 c = 3.73 3 = 0.73
17857.94
SEXO MASCULINO
COEFICIENTE DE ASIMETRA
1 n
1
( X i 1700.84)3
(2700333.72)
108013.35
25 i =1
25
a=
a=
a=
= 0.38
3
287365.34
287365.34
(65.99)
1 n
1
( X i 899.44)3
(- 162763.66)
- 6510.55
25 i =1
25
a=
a
=
a=
= 0.18
3
36528.27
36528.27
(33.18)
1 n
1
( X i 500.56)3
(661857.82)
26474.31
25 i =1
25
a=
a=
a=
= 1.00
3
26570.30
26570.30
(29.84)
1 n
1
( X i 68.71)3
(42502.64)
1700.11
25 i =1
25
a=
a
=
a=
= 0.82
3
2082.44
2082.44
(12.77 )
SEXO MASCULINO
COEFICIENTE DE CURTOSIS
1 n
1
( X i 1700.84)4
(1323083865.85)
25 i =1
25
3
c=
c
=
3
18963238.77
(65.99)4
52923354.63
c=
3 c = 2.79 3 = 0.21
18963238.77
134
Estatura
sentado
Altura de
rodilla
Peso
corporal
1 n
1
( X i 899.44)4
(77756609.48)
25 i =1
25
c=
3 c =
3
1212008.11
(33.18)4
3110264.38
c=
3 c = 2.57 3 = 0.43
1212008.11
1 n
4
1
(77960641.22)
( X i 500.56)
25 i =1
25
3
c=
c
=
3
792857.75
(29.84)4
3118425.65
c=
3 c = 3.93 3 = 0.93
792857.75
1 n
1
( X i 68.71)4
(1803668.36)
25 i =1
25
c=
3 c =
3
26592.77
(12.77 )4
c=
72146.73
3 c = 2.71 3 = 0.29
26592.77
VARIABLE
Estatura total
Estatura sentado
Altura de rodilla
Peso corporal
SEXO FEMENINO
SEXO MASCULINO
0.29
0.25
1.83
0.82
-0.20
-0.74
7.47
0.73
0.38
-0.18
1
0.82
-0.21
-0.43
0.93
-0.29
Por lo cual podemos concluir que, por sexo, las variables presentan la siguiente
distribucin:
SEXO FEMENINO
DISTRIBUCIN
SEXO MASCULINO
DISTRIBUCIN
Asimtrica (cargada a la
derecha) y platicrtica.
Asimtrica (cargada a la
derecha) y platicrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.
Asimtrica (cargada a la
derecha) y platicrtica.
Asimtrica (cargada a la
izquierda) y platicrtica.
Asimtrica (cargada a la
derecha) y leptocrtica
Asimtrica (cargada a la
derecha) y platicrtica.
VARIABLE
Estatura total
Estatura sentado
Altura de rodilla
Peso corporal
VARIABLE
Estatura total
Estatura sentado
a
0.29
0.25
SEXO FEMENINO
c
SPSS
SPSS
0.31
0.27
-0.20
-0.74
0.09
-0.55
SEXO MASCULINO
c
SPSS
SPSS
0.38
0.43
-0.21
0.32
-0.18
-0.43
-0.20
0.02
135
1.83
0.82
Altura de rodilla
Peso corporal
1.97
0.88
7.47
0.73
9.23
1.20
1.00
0.82
1.13
0.92
0.93
-0.29
1.85
0.22
VARIABLE
Estatura total
Estatura sentado
Altura de rodilla
Peso corporal
SEXO FEMENINO
DISTRIBUCIN
SEXO MASCULINO
DISTRIBUCIN
Asimtrica (cargada a la
derecha) y mesocrtica.
Asimtrica (cargada a la
derecha) y platicrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.
Asimtrica (cargada a la
izquierda) y mesocrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.
Estatura total
Estatura total
Sexo: Femenino
Sexo: Masculino
12
10
10
Frecuencia
Frecuencia
2
2
Media =1576.39
Desviacin tpica =50.01
N =41
0
1450
1500
1550
1600
1650
Media =1700.84
Desviacin tpica =65.
987
N =25
1700
1500
1600
Estatura total
1700
1800
1900
Estatura total
Estatura sentado
Estatura sentado
Sexo: Femenino
Sexo: Masculino
10
Frecuencia
Frecuencia
2
1
Media =841.46
Desviacin tpica =25.
457
N =41
0
780
800
820
840
860
Estatura sentado
880
900
Media =899.44
Desviacin tpica =33.
183
N =25
0
800
850
900
950
1000
Estatura sentado
136
Altura de rodilla
Altura de rodilla
Sexo: Femenino
Sexo: Masculino
20
12
10
Frecuencia
Frecuencia
15
10
4
5
2
Media =464.8
Desviacin tpica =28.
127
N =41
0
400
450
500
550
Media =500.56
Desviacin tpica =29.
836
N =25
600
460
480
Altura de rodilla
500
520
540
560
580
600
Altura de rodilla
Peso corporal
Peso corporal
Sexo: Femenino
Sexo: Masculino
10
Frecuencia
Frecuencia
2
1
Media =57.3
Desviacin tpica =11.
556
N =41
0
40.0
60.0
80.0
100.0
Peso corporal
Media =68.71
Desviacin tpica =12.
766
N =25
0
50.0
60.0
70.0
80.0
90.0
100.0
Peso corporal
Anlisis bivariado
Correlacin lineal
Cuando se tienen dos variables cuantitativas, la forma ms sencilla para comprobar si
existe una relacin lineal entre ellas es construyendo un diagrama de dispersin con base
en coordenadas ( X , Y ) . Empero, como veremos a continuacin, la estadstica cuenta con
estimadores y pruebas ms precisas (acordes al tipo y la distribucin probabilstica de las
variables) para determinar si existe una asociacin significativa o no.
Coeficiente de correlacin de Pearson
Medida sobre la asociacin entre dos variables continuas ( X , Y ) , cuyas expresiones para
calcularlo en poblaciones y muestras son:
PARMETRO
ESTIMADOR
137
(x
i =1
x )( y i y )
r=
N x y
(x
i =1
x )( y i y )
(n 1) s x s y
No obstante, para reducir la labor que implica restar a cada dato su media
correspondiente, podemos simplificar la expresin del numerador de este estimador:
(x y
i
i =1
xi y x y i + x y )
Repartimos la sumatoria:
n
x y x y xy + xy
i
i =1
i =1
i =1
i =1
Donde las medias son constantes y por ello pueden multiplicar a las sumatorias y
multiplicarse por el tamao de la muestra:
n
x y
i
i =1
i =1
i =1
y x i x y i + nx y
x y
i
i =1
y nx x ny + n x y
Porque:
x=
x
i =1
xi = x n
y=
i =1
i =1
yi = y n
i =1
x y
i =1
nx y
r=
x y
i =1
nx y
(n 1) s x s y
11
Si bien esta es la forma ms sencilla para calcular manualmente el coeficiente de correlacin de Pearson,
cabe mencionar que muchas calculadoras cientficas lo pueden arrojar directamente al ingresar los datos de
ambas variables en el modo estadstico de regresin lineal; este dato tendr un valor muy parecido al que se
obtiene haciendo los clculos manualmente con 4 decimales.
138
Imprescindible resulta mencionar que el valor de este coeficiente slo puede encontrarse
en el rango ( 1 < r < 1) y de acuerdo a ello debe interpretarse:
VALOR DEL COEFICIENTE
(r 1)
(r 0)
(r 1)
INTERPRETACIN
Existe asociacin lineal inversa entre las variables.
No existe asociacin entre las variables.
Existe asociacin lineal directa entre las variables.
26
24
22
20
18
16
12
14
16
Ejemplos de aplicacin
18
20
22
1.
Los siguientes datos corresponden las longitudes de hmero y fmur de restos
seos masculinos de la Cueva de La Candelaria, Coahuila.
HMERO
329
311
297
323
323
290
297
287
333
336
313
322
321
315
309
304
300
FMUR
444
426
449
427
428
427
417
414
417
440
416
408
420
443
472
466
422
es posible afirmar que existe una relacin lineal entre la longitud del hmero y del fmur?
139
460
Fmur
450
440
430
420
410
400
280
290
300
310
320
330
340
Hmero
, En esta grfica podemos observar que no existe una linealidad clara entre las
variables.
Pero es necesario comprobar lo que los sentidos nos dicen con un poco de estadstica.
En este primer ejemplo desarrollaremos todos los datos necesarios para calcular
manualmente el coeficiente de correlacin; no obstante, en los prximos casos
recurriremos simplemente a los valores obtenidos con ayuda de una calculadora.
HMERO
329
311
297
323
323
290
297
287
333
336
313
322
321
315
309
304
FMUR
444
426
449
427
428
427
417
414
417
440
416
408
420
443
472
466
X i Yi
146076
132486
133353
137921
138244
123830
123849
118818
138861
147840
130208
131376
134820
139545
145848
141664
140
300
422
126600
2291339
TOTAL
DATOS GENERALES
n = 17
x = 312.3529
EXPRESIN DEL
COEFICIENTE DE
CORRELACIN
DE PEARSON
CLCULO
MANUAL
s x = 14.8195
y = 431.5294
r=
r=
x y
i =1
s y = 18.2384
nx y
(n 1) s x s y
VALOR EN
r = 0.0190
CALCULADORA
, El signo negativo indica que la asociacin entre la longitud del hmero y la del
fmur sera inversa, pero su cercano valor a cero nos da una segunda prueba para
afirmar que la asociacin entre estas variables es casi nula.
ESTATURA
1715
1701
1652
1691
1611
1620
1701
1655
1734
1635
1598
1635
1684
1622
1674
141
Puede afirmarse que existe asociacin entre la longitud del miembro superior y la
estatura?
1740
1720
1700
Estatura
1680
1660
1640
1620
1600
1580
710
720
730
740
750
760
770
780
, Aunque existe dispersin en los datos, puede entre verse una linealidad entre estas
variables y, por ende, una posible asociacin.
n = 15
DATOS GENERALES
r = 0.5310
, El valor del coeficiente de correlacin de Pearson nos indica una asociacin lineal
directa aunque no parece ser importante.
Regresin Lineal
El anlisis de regresin lineal consiste en aplicar una serie de tcnicas para encontrar si
hay causalidad entre dos variables cuantitativas; es decir, si el valor de una variable (Y )
depende y puede explicarse a partir de otra variable
independiente.
(X ) ,
Fundamentos
La regresin es un mtodo que permite encontrar relaciones lineales entre las variables
de un fenmeno. Por ende, primero debemos revisar cmo, a partir de una serie de datos
(como los a continuacin que se grafican) podemos encontrar la recta que los define:
Se toman dos coordenadas
[(x1 , y1 ), (x2 , y 2 )]
142
m=
Se calcula la pendiente
Teniendo ese valor y el de un punto, se puede
aplicar la ecuacin punto-pendiente
Que se desarrolla de la siguiente forma
Como el objetivo es encontrar la ordenada al
origen; es decir, el valor de Y cuando X es igual a
cero, despejamos Y
y 2 y1
x 2 x1
y y1 = m( x x1 )
y y1 = mx mx1
y = y1 + mx mx1
y = y1 + m(0) mx1
b = y1 mx1
y = mx + b
y = a + bx
26
24
22
20
18
16
12
14
16
18
20
22
143
fenmeno de este tipo es la que une las medias de los valores posibles de Y para cada
X i y x ; sin dejar de reconocer como error en este modelo la desviacin que cada dato
( )
y = 0 + 1 x + e
y i = 0 + 1 x i + ei
ei = y i 0 1 x i
e = ( y i 0 1 xi )
2
i
i =1
i =1
ei2 = ( yi 0 1 xi )
f ( 0 , 1 ) = ( y i 0 1 xi )
i =1
Por lo cual hay que encontrar la forma en que esta funcin sea mnima. El punto es
que, al haber dos variables, mantendremos a la vez una constante; esto es,
haremos derivadas parciales de la funcin.
Empecemos por derivar la funcin respecto a 0 :
n
f ( 0 , 1 ) = ( y i 0 1 xi )
i =1
144
n
df ( 0 , 1 )
= 2 ( y i 0 1 xi )( 1)
d 0
i =1
d [ f ( x )]
n 1
= n[ f ( x )] f ( x )
dx
n
Porque
2 ( y i 0 1 xi )( 1) = 0
n
i =1
2 ( y i 0 1 xi ) = 0
n
i =1
(y
n
i =1
0 1 xi ) = 0
0 =0
#
Como
(y
n
i =1
0 1 xi ) = 0
y x
i =1
i =1
i =1
1 i
=0
ny n 0 1 nx = 0
n
Porque
y=
yi
i =1
y i = yn
x=
i =1
x
i =1
xi = x n
i =1
ny n0 1 nx
=0
n
n
n
C = nC
y 0 1 x = 0
0 = y 1 x
Ahora bien, resta hacer lo mismo con 1 :
145
f ( 0 , 1 ) = ( y i 0 1 xi )
i =1
n
df ( 0 , 1 )
= 2 ( y i 0 1 xi )( xi )
d1
i =1
d [ f ( x )]
n 1
= n[ f ( x )] f ( x )
dx
n
Porque
Igualamos a cero:
2 ( y i 0 1 xi )( xi ) = 0
n
i =1
(x y
0 xi 1 xi2 ) = 0
2 xi y i 0 xi 1 xi2 = 0
i =1
i =1
i =1
i =1
xi yi 0 xi 1 xi2 = 0
n
x y
i
i =1
i =1
i =1
i =1
0 xi 1 xi2 = 0
i =1
i =1
i =1
1 xi2 = xi y i 0 xi
1 xi2 = xi y i ( y 1 x )(nx )
n
i =1
i =1
Porque
0 = y 1 x
x=
x
i =1
xi = x n
i =1
i =1
i =1
1 xi2 = xi y i nx y + 1 nx 2
146
i =1
i =1
1 xi2 1 nx 2 = xi y i nx y
i =1
1 xi2 nx 2 = xi y i nx y
i =1
1 =
x y
i =1
n
x
i =1
Puede
2
i
nx y
nx 2
decirse
basta calcular los estimadores de 0 y 1 12 que por mnimos cuadrados se definen como:
EXPRESIN PARA CALCULAR
EL ESTIMADOR 0
0 = y 1 x
n
1 =
x y
i =1
n
x
i =1
2
i
nx y
nx 2
Si bien ambos datos son fundamentales para construir el modelo de regresin lineal, el
valor de 0 slo indica el punto donde la recta corta el eje de las Y ; esto es, el valor de
y = 0 + 1 x
y = 0 1 x
y = 0 1 (x 1)
y = 0 1 (x + 1)
y = 0 + 1 ( x 1)
y = 0 + 1 x 1
y = 0 + 1 ( x + 1)
y = 0 + 1 x + 1
12
Igual que en el caso del coeficiente de correlacin de Pearson, el valor de la ordenada a la origen y la
pendiente de la recta pueden obtenerse sin hacer manualmente los clculos, pues son ya muchas las
calculadoras cientficas que arrojan sus valores (a,b) al ingresar los datos de la muestra en el modo estadstico
de regresin lineal.
147
y = 0 1 x + 1
y = 0 1 x 1
Por tanto:
Si la pendiente es:
( )
negativa ( )
y X aumenta una
unidad:
Y disminuye 1 unidades
Y aumenta 1 unidades
Y aumenta 1 unidades
Y disminuye 1 unidades
positiva 1
Ejemplos de aplicacin
1.
Los siguientes datos de altura y peso en jvenes adultos son parte de la muestra
recolectada durante la investigacin en Cholula, Puebla (1968-1970).
ESTATURA
1649
1635
1611
1622
1583
1613
1636
1650
1579
1568
1522
1554
1627
1535
1565
PESO
49.5
57.5
50.0
53.5
43.0
57.5
50.5
56.0
50.0
50.0
44.5
48.0
51.0
46.0
49.5
Comprobemos entonces si existe asociacin lineal entre estas variables por medio de un
diagrama de dispersin y el coeficiente de correlacin.
148
58
56
54
52
50
48
46
44
42
1520
1540
1560
1580
1600
1620
1640
1660
COEFICIENTE DE PEARSON
r = 0.6786
a.2) , El valor del coeficiente de correlacin de Pearson nos indica una asociacin
lineal directa considerable entre la estatura y el peso de esta poblacin.
A continuacin saquemos los datos necesarios para calcular los estimadores 1 y 0 a
fin de establecer el modelo de regresin.
DATOS GENERALES
n = 15
x = 1596.6000
x y
i =1
s x = 41.5379
y = 50.4333
= 1209525 .000
i =1
2
i
s y = 4.3006
= 38261129.00
1 =
x y
i =1
n
x
i =1
1 =
2
i
nx y
nx 2
= 0.0703
0 = y 1 x
149
CLCULO
MANUAL
CALCULADORA
0 = 61.7390
y = 0 + 1 x + e
peso = 61.7390 + 0.0703estatura
MODELO TERICO
MODELO AJUSTADO
b) , Segn el modelo ajustado, por cada milmetro que cambia la estatura, el peso
cambia 0.0703 kilogramos.
Los siguientes datos de altura y peso tambin son parte de la muestra recolectada
durante la investigacin en Cholula, Puebla (1968-1970), pero pertenecen a adolescentes
hombres:
ESTATURA
1674
1672
1710
1651
1702
1656
1672
1590
1612
1652
1594
1566
1645
1678
1740
PESO
58.5
53.5
58.0
57.0
58.0
58.0
56.5
51.5
56.0
57.5
51.5
47.0
54.5
54.0
62.0
64
62
Peso adolescentes
60
58
56
54
52
50
48
46
1500
1600
1700
1800
Estatura adolescentes
a.1) , Pese a la dispersin de algunos datos puede verse una asociacin lineal entre
150
r = 0.8382
0 = 51.3759
1 = 0.0646
peso = 51.3759 + 0.0646 estatura
b) , De acuerdo al modelo ajustado, por cada milmetro que cambia la estatura, el
peso cambia 0.0646 kilogramos.
Ejercicios de Repaso
I. Definir los siguientes trminos estadsticos:
11. Mediana.
12. Moda.
13. Varianza.
14. Desviacin estndar.
15. Coeficiente de variacin.
16. Percentil.
17. Cuartel.
18. Modelo de regresin lineal.
19. Coeficiente de correlacin.
20. Pendiente de la recta de regresin
lineal
II. Clasificar las siguientes variables como categrica nominal, categrica ordinal,
numrica discreta o numrica continua:
1. Poblacin.
2. Muestra.
3. Variable.
4. Variable categrica nominal.
5. Variable categrica ordinal.
6. Variable numrica discreta.
7. Variable numrica continua.
8. Medida de tendencia central.
9. Medida de dispersin.
10. Media aritmtica.
151
152
Aplanamient
o
por mecapal
1
2
Ausencia
Ausencia
Insercin
en
msculo
suboccipita
l
Ligera
Moderada
Ausencia
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Longitud
mxima
de
hmero
Cas
o
Aplanamient
o
por mecapal
Insercin
en msculo
suboccipita
l
Longitud
mxima
de
hmero
254
254
33
34
Ausencia
Ausencia
Moderada
Ligera
310
313
Moderada
262
35
Ausencia
Ligera
Moderada
Moderada
Ligera
Marcada
Ligera
Ligera
Moderada
Ligera
Moderada
Moderada
Marcada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Ligera
Marcada
Marcada
Moderada
Moderada
Moderada
Marcada
Moderada
Moderada
270
271
272
275
278
279
279
280
280
280
280
282
282
282
283
284
285
285
288
289
290
291
294
295
295
297
300
301
307
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Marcada
Moderada
Marcada
Moderada
Marcada
Marcada
Marcada
Moderada
Moderada
Moderada
Marcada
Marcada
Marcada
Marcada
Marcada
Moderada
Moderada
Marcada
Marcada
Marcada
.
.
.
.
.
.
.
.
.
262
264
270
271
272
283
283
284
287
290
293
295
302
302
317
.
.
.
.
.
c.v.
153
Permetro de cintura
Permetro de cadera
a fin de realizar una grfica de de caja para comparar los valores de este ndice
por sexo.
VIII. En varias ocasiones ciertos problemas de salud no permiten que un
individuo se coloque en posicin para poder medir directamente su estatura
total; para estimar su valor se utilizan entonces medidas indirectas, como la
altura de rodilla, que se suponen estn fuertemente correlacionadas con dicha
variable.
1. Utilizando los datos recolectados para mujeres, considerando la estatura
total como variable dependiente y la altura a la rodilla como variable
independiente:
a) Graficar los datos en un diagrama de dispersin.
Se observa una tendencia lineal en los datos?
b) Calcular el coeficiente de correlacin lineal.
c) Ajustar el modelo de regresin lineal.
d) Es un modelo adecuado? Calcular R 2 .
e) Ejemplificar el uso del modelo prediciendo dos valores y graficando la recta
sobre el diagrama de dispersin.
2. Repetir el ejercicio con los datos de hombres.
154
Turno
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
M
M
M
M
M
M
M
M
V
V
V
V
V
V
V
Edad
20.9
20.4
18.2
22.1
21.4
18.7
24.0
29.8
21.5
24.0
18.9
24.1
21.0
19.8
20.1
19.0
19.5
22.3
26.6
25.7
24.4
17.8
21.2
25.2
20.7
18.3
22.8
23.6
18.4
21.7
18.4
20.2
30.7
18.3
19.4
19.6
20.3
32.2
27.5
21.4
18.8
18.7
26.9
22.1
21.8
21.0
37.8
23.6
19.8
21.8
20.9
24.5
25.0
29.5
30.6
PIC
1
5
2
3
7
2
7
4
4
5
2
3
3
6
6
4
2
5
3
3
3
3
3
2
3
5
4
7
3
5
3
6
3
6
6
4
3
7
3
3
5
3
3
4
2
3
2
7
2
3
3
4
2
5
4
3
Estatura
1.39
1.61
1.55
1.55
1.56
1.58
1.62
1.54
1.53
1.55
1.60
1.54
1.68
1.68
1.53
1.53
1.65
1.69
1.70
1.60
1.55
1.52
1.47
1.62
1.56
1.60
1.60
1.50
1.58
1.52
1.57
1.57
1.56
1.72
1.54
1.56
1.60
1.58
1.55
1.62
1.67
1.77
1.83
1.68
1.67
1.84
1.62
1.80
1.64
1.65
1.73
1.78
1.75
1.65
1.76
1.74
Peso
44.00
63.00
50.00
58.00
62.00
49.90
70.00
51.00
54.00
70.00
50.00
49.00
57.00
69.00
54.00
49.00
68.00
65.00
51.00
50.00
51.00
40.00
53.40
52.80
61.00
57.00
63.00
58.00
47.50
60.00
52.00
62.00
65.00
56.00
53.00
70.00
54.00
48.00
64.00
71.00
77.00
82.00
67.50
72.00
61.00
90.00
60.00
66.00
75.00
68.00
66.00
66.50
72.00
70.00
Rel_sex
Si
No
Si
Si
Si
Si
Edad_rel_sex
16
P13
Mayor
P14
Novio (a)
P15
Si
P16
Condones
P17
A veces
P18
5
18
19
18
17
Misma edad
Misma edad
Mayor
Misma edad
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Si
Si
Si
Si
Condones
Condones
Condones
Condones
Siempre
Siempre
Siempre
Siempre
1
1
2
1
Si
Si
Si
No
Si
23
16
15
Menor
Misma edad
Mayor
Novio (a)
Novio (a)
Amigo (a)
Si
Si
No
Condones
Condones
Siempre
Siempre
A veces
1
1
7
17
Misma edad
Novio (a)
Si
Condones
A veces
Si
Si
No
Si
Si
Si
Si
Si
Si
Si
No
Si
Si
Si
Si
Si
No
No
Si
15
18
Misma edad
Mayor
Amigo (a)
Novio (a)
No
Si
Pastillas de emergencia
Siempre
A veces
13
3
17
16
19
14
23
16
19
Misma edad
Misma edad
Misma edad
Mayor
Misma edad
Mayor
Misma edad
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Novio (a)
No
No
Si
Si
Si
Si
Si
Condones
Condones
Condones
otro
Condones
Siempre
Siempre
Siempre
A veces
Siempre
Siempre
A veces
4
9
2
3
1
3
1
17
16
15
20
15
Mayor
Mayor
Mayor
Mayor
Mayor
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Si
Si
Si
Si
Si
Condones
Pastillas de emergencia
Condones
Condones
Condones
Siempre
Siempre
Siempre
Siempre
Siempre
3
3
2
2
1
16
Mayor
Novio (a)
Si
Condones
A veces
Si
No
Si
Si
Si
Si
Si
Si
No
Si
Si
Si
Si
No
Si
Si
Si
Si
Si
No
Si
Si
Si
17
Misma edad
Novio (a)
Si
Condones
Siempre
15
15
16
19
18
18
Mayor
Mayor
Mayor
Mayor
Misma edad
Mayor
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Esposo (a)
Si
Si
Si
Si
Si
Si
Pastillas
Condones
Condones
Condones
Condones
Pastillas de emergencia
Siempre
Siempre
Siempre
Siempre
Siempre
Siempre
3
999
3
5
2
3
16
16
17
21
Mayor
Conocido (a)
Misma edad Conocido (a)
Mayor
Novio (a)
Menor
Novio (a)
Si
Si
Si
No
Condones
Pastillas de emergencia
Condones
A veces
Siempre
A veces
30
21
1
1
18
18
15
17
18
Misma edad
Menor
Misma edad
Mayor
Misma edad
Novio (a)
Novio (a)
Amigo (a)
Novio (a)
Novio (a)
Si
Si
No
Si
Si
Ritmo
Condones
99
Condones
Condones
Siempre
A veces
Siempre
Siempre
Siempre
35
16
2
3
2
17
21
18
Mayor
Mayor
Misma edad
Novio (a)
Amigo (a)
Novio (a)
No
Si
Si
Retiro
Condones
Condones
A veces
A veces
A veces
4
3
5
Estatura_total
1,547
1,594
1,573
1,538
1,553
1,560
1,524
1,525
1,544
1,594
1,521
1,666
1,513
1,494
1,630
1,625
1,676
1,586
1,518
1,500
1,475
1,604
1,512
1,581
1,560
1,465
1,542
1,516
1,557
1,575
1,724
1,505
1,534
1,569
1,584
1,538
1,610
1,638
1,736
1,812
1,662
1,668
1,780
1,617
1,790
1,617
1,632
1,716
1,771
1,697
1,614
1,729
1,725
Peso_corp
36.00
63.50
47.00
54.00
58.50
43.00
Peri_cint
548
920
680
749
650
630
Est_sent
814
822
804
804
819
824
Alt_rod
422
444
440
424
434
430
Peri_cad
790
982
860
945
1,000
835
1.52
1.53
1.54
1.59
1.52
48.50
54.00
69.00
44.00
52.00
723
680
860
623
680
809
826
830
844
797
448
405
404
425
439
939
940
1,077
883
990
1.67
1.51
1.49
1.63
1.63
1.68
1.59
1.52
1.50
1.48
1.60
1.51
1.58
1.56
1.47
1.54
1.52
1.56
1.58
75.00
48.00
51.50
46.00
64.50
65.00
45.00
48.50
47.00
41.00
48.00
46.00
56.00
53.00
65.00
46.00
41.50
46.00
64.50
845
712
853
620
823
823
649
679
660
640
667
632
740
705
903
671
650
706
866
871
784
801
841
871
869
851
794
791
765
808
841
805
829
801
838
804
821
801
465
425
404
456
479
454
423
421
416
430
452
396
442
451
430
425
426
452
452
1,054
907
921
850
986
1,032
865
885
802
830
894
930
960
915
998
870
860
864
994
1.72
1.51
1.53
1.57
1.58
1.54
1.61
1.64
1.74
1.81
1.66
1.67
1.78
1.62
1.79
1.62
1.63
1.72
1.77
1.70
1.61
1.73
1.73
62.00
68.00
53.50
49.50
68.00
51.00
47.00
58.50
65.50
71.00
89.00
62.50
76.50
54.50
90.50
52.00
60.50
71.50
68.50
71.00
55.00
65.50
66.00
800
840
775
695
850
688
656
743
745
774
997
850
897
700
1,050
770
755
846
857
911
755
810
815
920
750
821
825
845
826
830
859
931
971
857
878
917
831
926
840
892
861
895
885
839
904
910
485
441
414
451
424
439
454
458
481
483
499
434
528
484
501
495
464
512
525
504
469
491
495
1,010
1,084
920
880
1,030
841
863
982
950
1,014
1,097
1,020
1,003
857
1,069
860
914
973
983
1,023
907
932
927
(Tipo),
La variable sexo tiene dos posibles valores F para las mujeres y M para los
hombres. Convendremos la siguiente codificacin: 1=Femenino, 2=Masculino. Por
lo tanto el nombre de la variable ser sexo, ser numrica de ancho 2, con 0
decimales y la etiqueta ser Sexo del individuo. Al introducir estos valores y
dndole clic en la columna Valores, y enseguida en el botn
siguiente pantalla:
se muestra la
existe un men al dar clic en l. Realizando esta accin nos queda el siguiente
men:
En Valor se introduce el valor numrico o cdigo y en Etiqueta el significado de
ese cdigo. Hay que dar clic en el botn Aadir para adicionar la codificacin. En
nuestro caso tenemos 1=Femenino y 2=Masculino. Por lo que debe quedar como
se ve en el siguiente cuadro:
f_nacimiento,
2. Turno
mes
ao
3) Una ciudad
1) S
2) No
1) S
2) No
3) Inyecciones
6) vulos, espumas, jaleas
9) Otro
17. Cundo tienes relaciones sexuales acostumbras usar alguno de los mtodos
anteriores para evitar un embarazo?
1) Siempre
2) A veces
3) Nunca
18. Durante toda tu vida con cuntas personas
diferentes has tenido relaciones sexuales?
Estatura total:
Peso corporal:
Permetro de cintura:
DATOS ANTROPOMTRICOS
Estatura sentado:
Altura de rodilla:
Permetro de cadera:
Estadstica
Prctica II: Construccin de variables e ndices y estadstica descriptiva con SPSS
Elabor: Jos Luis Castrejn Caballero
La prctica utiliza la base de datos contenida en el archivo cedula estadistica.sav creada en la
prctica I, y utiliza la versin 15 del SPSS en espaol.
Edad exacta
A) A partir de la variable fecha de nacimiento y considerando que la fecha de toma de
informacin fue el 16 de enero del 2008 determinar la edad exacta de cada elemento de la
muestra.
Razonamiento: Si determinamos el nmero de das entre las dos fechas y dividimos esta cifra
entre 365 tendremos una aproximacin a la edad exacta. En SPSS existe una funcin que
determina el nmero de das entre dos fechas, llamada CTIME.DAYS(time), donde time es un
intervalo de tiempo, que en nuestro caso es la diferencia entre la fecha de toma y la fecha de
nacimiento. Por lo tanto el procedimiento ser el siguiente:
1. Crear una variable tipo fecha llamada fechat, tipo fecha, que tenga el valor 16-01-2008 en
todos los casos. Lo haremos en el ambiente de variables (Variable View) insertando la nueva
variable despus de la fecha de nacimiento (fecha_nac) lo cual puede realizarse colocndonos
despus de esta variable y despus seleccionar del men Edicin la opcin Insertar variable o
rpidamente con el icono
. Despus de esta variable insertaremos una nueva variable
llamada edad, numrica con dos decimales, la ventana de variables debe quedar como sigue:
2. En el ambiente Vista de Datos, llenamos todas las celdas de la nueva variable fechat con el
valor de la fecha de toma: 16-01-2008 (usando copiar, pegar), quedando como se muestra en la
figura siguiente:
3.
Utilizaremos
las
variables fechat y f_nac
con
la
funcin
CTIME.DAYS. Damos
clic
en
el
men
Transformar luego en
Calcular variable, tal
como se muestra en la
figura de al lado.
Nombre de la nueva
variable.
Expresin
matemtica.
Ahora
estamos
en
condiciones de calcular el
IMC. En el mismo men,
introducimos la expresin
matemtica,
llamaremos
imca a esta nueva variable.
El botn
es el operador
que
permite
elevar
a
cualquier potencia un valor
determinado.
Nombre de la nueva variable.
Expresin matemtica.
Lo que sigue es clasificar los valores del IMC segn la propuesta de Luis Vargas y que hemos
explicitado en el cuadro anterior. Para lograr esto construiremos una nueva variable llamada
CIMC la cual tendr valores que van de 1 a 6 segn el valor del IMC.
En el cuadro de
dialogo
resultante,
primero activamos la
opcin Incluir si el
caso satisface la
condicin:
En el cuadro pasamos
la variable imca y
escribimos
la
condicin usando los
botones
de
calculadora.
Dar
clic
en
Continuar.
Dar clic en Aceptar.
Ahora
la
nueva
condicin se escribe
como se indica en el
cuadro.
El smbolo & indica
el conector lgico y,
es decir que se
cumple al mismo
tiempo. Para la opcin
o utilizaremos el
smbolo |
De
una
manera
similar se construyen
los cdigos 3 a 6,
situacin que queda
como ejercicio para el
estudiante.
Estadstica descriptiva
En este apartado obtendremos algunos estadsticos descriptivos con el auxilio del SPSS.
Tablas de frecuencias
1. Obtendremos las tablas de
frecuencias de las variables sexo,
turno e imca.
En el opcin Analizar del men
principal
seleccionar
Estadsticos Descriptivos y
luego Frecuencias, apareciendo
al cuadro que se muestra a un
lado.
Seleccionaremos
las
variables Sexo, Turno y CIMC
pasndolas
al
cuadro
de
Variables, como se muestra en la
figura. Dar clic en el botn
.
Vlidos
Femenino
Masculino
Total
Frecuencia
41
25
66
Porcentaje
62.1
37.9
100.0
Porcentaje
vlido
62.1
37.9
100.0
Porcentaje
acumulado
62.1
100.0
Porcentaje
vlido
59.1
40.9
100.0
Porcentaje
acumulado
59.1
100.0
Turno
Vlidos
Matutino
Vespertino
Total
Frecuencia
39
27
66
Porcentaje
59.1
40.9
100.0
Vlidos
Bajo peso
Normal
Soberpeso
Obesidad
Total
Frecuencia
7
40
16
3
66
Porcentaje
10.6
60.6
24.2
4.5
100.0
Porcentaje
vlido
10.6
60.6
24.2
4.5
100.0
Porcentaje
acumulado
10.6
71.2
95.5
100.0
Tablas cruzadas
Se desea establecer si existe o no relacin entre entre las variables sexo y has tenido relaciones
sexuales? En SPSS utilizaremos el men Analizar, de donde seleccionaremos la opcin
Estadsticos Descriptivos y luego Tablas de contingencia
En el cuadro Filas introducir la variable
sexo y en el de Columnas la variable que
tiene que ver con la primera relacin
sexual como se muestra en la figura que se
presenta a un lado.
Dar clic en el botn
y
seleccionar de la opcin Porcentajes la
opcin Fila para obtener porcentajes por
rengln, como se muestra en el cuadro de
abajo. Dar clic en Continuar y despus en
Aceptar.
Sexo
Femenino
Masculino
Total
Recuento
% de Sexo
Recuento
% de Sexo
Recuento
% de Sexo
Has tenido
relaciones sexuales?
S
No
28
13
68.3%
31.7%
22
3
88.0%
12.0%
50
16
75.8%
24.2%
Total
41
100.0%
25
100.0%
66
100.0%
Grficas de barras
Realizaremos una grfica de barras para cada sexo de la variable Durante toda tu vida con
cuntas personas diferentes has tenido relaciones sexuales?
10
11
Sexo: Masculino
40.0%
40.0%
30.0%
30.0%
Porcentaje
Porcentaje
Sexo: Femenino
20.0%
10.0%
20.0%
10.0%
0.0%
0.0%
1
15
10
17
12
Estadsticos
Sexo
Femenino
Masculino
Media
Mediana
Moda
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
N
Media
Mediana
Moda
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
Vlidos
Perdidos
Vlidos
Perdidos
Grficas de caja
Recordemos que las grficas de caja se construyen con base en los cuartiles y permiten
comparar dos o ms grupos respecto a los valores de una variable cuantitativa. Ilustraremos el
uso del SPSS creando una figura que permita comparar el IMC respecto al sexo y turno de los
alumnos.
13
Para realizar la grfica, del men Grficos elegimos la opcin Cuadros de dialogo antiguos y
Diagramas de caja. Seleccionamos el tipo Agrupado y damos clic en el botn
, con lo
cual aparece la ventana que se ve abajo a la derecha, donde introducimos las variables como se
indica en la ventana. Dar clic en Aceptar.
14
35.00
Matutino
Vespertino
imca
30.00
25.00
20.00
15.00
Femenino
Masculino
Sexo
Tarea
3. Realiza una tabla de frecuencias para las variables: En tu primera relacin sexual t o
tu pareja hicieron algo para evitar tener un embarazo? Qu fue lo que hicieron para
evitar un embarazo? Y Clasificacin del ndice de masa corporal.
4. Realiza una grfica de barras para la variable Clasificacin del ndice cadera-cintura
(CICC) para todos los casos.
5. Realiza una tabla cruzada entre las variables Sexo del individuo y La persona con la que
tuviste la primera relacin sexual era.
6. Realiza una grfica de caja para la variable ICC comparando por sexo.
7. Realiza grficas de caja para las variables Estatura autopercibida y Peso autopercibido
comparando por sexo.
8. Calcula media, mediana, mnimo, mximo y desviacin estndar comparando por sexo
para las variables altura de rodilla, estatura sentado, peso corporal, ndice de masa
corporal e ndice cintura-cadera.
9. Realiza histogramas para las variables estatura total y estatura sentado para cada sexo.
10. Considerando la estatura total como variable dependiente y la altura a la rodilla como
variable independiente:
a) Graficar los datos en un diagrama de dispersin. Se observa una tendencia lineal en
los datos?
b) Calcular el coeficiente de correlacin lineal. Interpretar
c) Ajustar el modelo de regresin lineal. Interpretar
d) Es un modelo adecuado? Calcular R 2 .