You are on page 1of 180

ESTADSTICA

ParaAntroplogosFsicos

JosLuisCastrejnyDianaTroncoso
Versindeagostode2009

Notas para el curso de Estadstica impartido en el primer semestre de la licenciatura en


AntropologaFsicadelaEscuelaNacionaldeAntropologaeHistoria.Versinpreliminar.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

UNIDAD I
1. ELEMENTOS BASICOS DE PROBABILIDAD
1.1.
Concepto de Probabilidad
Desde el punto de vista matemtico la probabilidad es una medida de la incertidumbre.
Se ha convenido que dicha medida tome como valores entre cero y uno. Hablar de
incertidumbre nos refiere al trmino azar. En la vida cotidiana estamos a menudo
rodeados de fenmenos donde el azar est impregnado a los que grosso modo se les
ha denominado fenmenos aleatorios. A diferencia de otro conjunto de fenmenos que
se modelan por ecuaciones determinsticas, como los estudiados por la fsica, la
probabilidad intenta modelar los fenmenos aleatorios a partir de la observancia de
ciertas regularidades en los eventos involucrados. Precisando, llamaremos fenmeno
aleatorio a todo aquel fenmeno en que se involucran factores fortuitos, provocando
que su desenlace est sujeto al azar. De hecho, aun cuando todos sus posibles
resultados pueden conocerse de antemano, la conclusin particular de un ensayo no
puede determinarse exactamente con anterioridad. Sin embargo, la probabilidad es
una medida para cuantificar el grado de certeza o incertidumbre de que ocurra cierto
resultado. La forma de asignar probabilidades da lugar a diferentes enfoques. Ms all
de un mtodo matemtico, la forma de determinar la probabilidad de un evento
depende del tipo de fenmeno aleatorio al que se relaciona.
1.1.1. Probabilidad clsica o a priori
ste enfoque slo puede utilizarse cuando los posibles resultados simples de un
fenmeno aleatorio son EQUIPROBABLES; es decir, tienen la misma probabilidad de
ocurrir.
Dicha caracterstica permite que, sin necesidad de realizar el experimento, las
probabilidades de los eventos puedan ser asignadas a travs del razonamiento
abstracto con simplemente dividir el nmero de elementos del evento entre el nmero
de elementos del espacio muestral:
ENFOQUE CLSICO
Permite calcular la probabilidad de un
evento antes de que ocurra, pues los
resultados del fenmeno son equiprobables.

EXPRESIN

P (E ) =

#E
#

EJEMPLO
(lanzamiento de dado balanceado)
Nmero de elementos del espacio
Espacio muestral del fenmeno
muestral

= {1,2,3,4,5,6}

# = 6

Sea U el evento en que, al lanzar un dado, se obtiene el nmero uno.


Sea D el evento en que, al lanzar un dado, se obtiene el nmero dos.
Sea T el evento en que, al lanzar un dado, se obtiene el nmero tres.
Sea C el evento en que, al lanzar un dado, se obtiene el nmero cuatro.
Sea Q el evento en que, al lanzar un dado, se obtiene el nmero cinco.
Sea S el evento en que, al lanzar un dado, se obtiene el nmero seis
Espacio muestral del
Nmero de elementos
Probabilidad
evento
del espacio muestral

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
#U = 1

P (U ) = 1

D = {2}

#D =1

P ( D) = 1

T = {3}

#T = 1

P (T ) = 1

C = {4}

#C = 1

P (C ) = 1

Q = {5}

#Q =1

P (Q ) = 1

S = {6}

#S =1

P(S ) = 1

U = {1}

Confirmado est entonces que el enfoque clsico es la mejor forma de asignar


probabilidades a priori cuando los eventos de un fenmeno son equiprobables.
1.1.2.

Probabilidad frecuentista o a posteriori

El enfoque anterior, empero, resulta inoperante cuando la probabilidad de los eventos


de un fenmeno aleatorio no es la misma o no se conoce. Es debido a ello que surge
el enfoque frecuentista, que propone repetir el experimento u observar el fenmeno un
gran nmero de ocasiones para designar como probabilidad de un evento su
frecuencia relativa.
ENFOQUE FRECUENTISTA
Permite calcular la probabilidad de un
evento despus de haber observado el
fenmeno repetidamente.

EXPRESIN

P ( E ) = Frecuencia relativa

P(E) =

# de eventos observados
# de repeticiones del fenmeno

EJEMPLO
(sexo de un recin nacido)
Sea M el evento en que el recin nacido es mujer.
Sea H el evento en que el recin nacido es hombre.
La probabilidad de estos eventos, sin embargo, no puede calcularse mediante el
enfoque clsico pues, como atestiguan varias investigaciones, en prcticamente todas
las poblaciones del mundo, nacen ms hombres que mujeres.
Segn el reporte Mujeres y hombres en Mxico, 20071, en el grupo de 0 a 15 aos
hay 103 hombres por cada 100 mujeres, que en trminos porcentuales se traduce en
50.7% de nios y 49.3% de nias. Si sta es la frecuencia relativa del fenmeno sexo
de un recin nacido, podemos determinar que la probabilidad de los eventos M y H
son:

P ( M ) = 0.493

P ( H ) = 0.507

Es decir, antes de asignar probabilidades a los resultados de un fenmeno (cuyos


eventos no son equiprobables) es necesario haber registrado la conclusin de
ensayos anteriores.
1.1.3.

Probabilidad subjetiva o bayesiana

Instituto Nacional de Estadstica, Geografa e Informtica, 2007. Estructura de la poblacin por edad y
sexo y Relacin hombres-mujeres por entidad federativa y grupos de edad en Mujeres y hombres en
Mxico, 2007. 6, 8 p.p. Documento electrnico:
http://www.inegi.gob.mx/prod_serv/contenidos/espanol/bvinegi/productos/integracion/sociodemografico/
mujeresyhombres/2007/MyH_2007_1.pdf

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Pese a lo anterior, el enfoque frecuentista tampoco es til cuando no hay posibilidad
de atestiguar el fenmeno gran nmero de ocasiones, ya sea por falta de tiempo o
simplemente porque el fenmeno ocurrir una sola vez. El ltimo mtodo disponible
para asignar probabilidades es, por ende, atender la opinin de un experto en el
fenmeno, confiando en que ste tiene la habilidad para juzgar correctamente la
situacin.
Dado que ello implica definir probabilidades de manera subjetiva, muchos de esos
juicios se expresan comparando la credibilidad entre los diferentes resultados.
ENFOQUE SUBJETIVO
Asigna probabilidades de acuerdo al
conocimiento de un experto.

EJEMPLOS DE EXPRESIN

P ( E ) = x P ( Ec )

P ( C ) = creencia en C (factor de apuesta)

EJEMPLO
(terremoto en California)
Sea S el evento en que se da un terremoto en el sur de California.
Sea T el evento en que se da un terremoto tanto en el sur como en el norte de
California.
Bajo rdenes del gobierno de California y a peticin de las aseguradoras privadas
estadounidenses, expertos de tres observatorios geolgicos (el Servicio Geolgico
Estadounidense, el Centro de Observacin de Temblores de la Universidad del Sur de
California y el Servicio Geolgico Estatal de California) investigaron basndose en
observaciones satelitales la posibilidad de que ocurra un terremoto en el territorio
de California.
Comparando su pronstico con el temblor que hubo en 1994 en la zona de Northridge
(6.7 grados Richter), el reporte entregado afirma que es "virtualmente cierto que
California experimente por lo menos un temblor mayor para el ao 2028", y que uno
de mayor magnitud que ese ocurrir entre los aos 2037 y 2038.
Segn la informacin, hay un 97% de probabilidades de que ocurra un terremoto
mayor en el sur de California en ese periodo, y un 93% de posibilidades de que el
movimiento incluya tambin al norte de California.2

P ( S ) = 0.97

P (T ) = 0.93

ste caso es, sin duda alguna, ejemplar para explicar que en muchas ocasiones no
hay forma de atestiguar repetidamente un fenmeno para calcular las probabilidades
de sus eventos. Por ende, es necesario acercarse a los conocimientos de un
especialista para realizar tal tarea.

Prevn un gran terremoto en California entre 2008 y 20038 en El Universal, Secc. El Mundo. Martes
15 de abril del 2008. Formato electrnico: http://www.eluniversal.com.mx/notas/498716.html

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

2. EVENTOS Y SUS PROBABILIDADES


2.1.

Espacio muestral y eventos

Revisemos ahora algunos conceptos bsicos de probabilidad ejemplificndolos con el


lanzamiento de un dado regular de seis caras.
Por un lado, se llama espacio muestral al conjunto de todos los posibles resultados
de un fenmeno aleatorio; el cual se denota por la letra griega omega: .

= {1,2,3,4,5,6}

EJEMPLO
(lanzamiento de dado)
Y al definir dicho espacio muestral
reconocemos el nmero de resultados
que tiene este fenmeno aleatorio:

# = 6

Por otro, se denomina evento (denotado por cualquier letra mayscula) al resultado
del ensayo de un fenmeno aleatorio. Dado que todo evento es un subconjunto del
espacio muestral, existen diversos tipos de eventos:
a) Eventos simples: Son aquellos que los que se da slo un resultado.
EJEMPLO
(lanzamiento de dado)
Sea D el evento en que, al lanzar un dado, se obtiene el nmero dos.

D = {2}

Donde comprobamos que el evento


D tiene slo un resultado posible:

#D =1

b) Eventos compuestos: Son eventos que comprenden ms de un resultado


(secuencia de puntos muestrales).
EJEMPLO
(lanzamiento de dado)
Sea P el evento en que, al lanzar un dado, se obtiene un nmero par.

P = {2,4,6}

Donde observamos que el evento P


tiene ms de un resultado posible:

#P = 3

Dos eventos particulares, deben sealarse con ms atencin:


Evento imposible: No denotado por una letra, sino por el smbolo de conjunto vaco
( ) , el evento imposible es un evento que no contiene elementos.
EJEMPLO
(lanzamiento de dado)
Sea N el evento en que, al lanzar un dado, se obtiene el nmero nueve.

N ={

}
={ }

Ya que ninguna de las caras del dado


regular posee el nmero nueve, el
evento N es imposible ( ) :

#N =0
# = 0

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Evento seguro: Es un evento que comprende los mismos elementos que el espacio
muestral; razn por la cual es denotado tambin mediante .
EJEMPLO
(lanzamiento de dado)
Sea O el evento en que, al lanzar un dado, se obtiene un nmero menor a ocho.

O = {1, 2,3, 4,5, 6}


= {1,2,3,4,5,6}

El evento O posee los mismos


elementos que el espacio muestral.
Como todos los resultados posibles
del lanzamiento del dado son
menores a seis, se trata de un evento
seguro ( ) ;

#O = 6
# = 6

Eventos ajenos (mutuamente excluyentes): Son eventos que no tienen elementos


en comn.
EJEMPLO
(lanzamiento de dado)
Sea C el evento en que, al lanzar un dado, se obtiene un nmero primo y D , el
evento en que se obtiene un nmero no primo.

C = {1, 2,3,5}
D = {4, 6}

Como puede verse, los eventos A y


B no poseen elementos en comn.

#C = 4
#D = 2

Finalmente, se conoce como -lgebra al conjunto de todos los subconjuntos del


espacio muestral. El smbolo con que se le denota, 2 , sirve adems para calcular el
nmero de eventos que comprende un fenmeno aleatorio. Basta con sustituir con
el nmero de elementos que tiene el espacio muestral de dicho fenmeno.
EJEMPLO
(lanzamiento de dado)
Como el espacio muestra contiene
6
6 elementos, el nmero total de
# = 6
2 = 64
eventos es 64.

,
1
,
2
,
3
,
4
,
5
,
6
,

( )()( )( )( )( )( )

(1, 2 ) , (1,3) , (1, 4 ) , (1,5 ) , (1, 6 ) , ( 2,3) , ( 2, 4 ) , ( 2,5 ) , ( 2, 6 ) , ( 3, 4 ) , ( 3,5 ) , ( 3, 6 ) , ( 4,5 ) , ( 4, 6 ) , ( 5, 6 ) ,


1, 2,3 , 1, 2, 4 , 1, 2,5 , 1, 2, 6 , 1,3, 4 , 1,3,5 , 1,3, 6 , 1, 4,5 , 1, 4, 6 , 1,5, 6 , 2,3, 4 ,
)(
)(
)(
)(
)(
)(
)(
)(
)(
)(
)
(

( 2,3,5) , ( 2,3, 6 ) , ( 2, 4,5) , ( 2, 4, 6 ) , ( 2,5, 6 ) , ( 3, 4,5 ) , ( 3, 4, 6 ) , ( 3,5, 6 ) , ( 4,5, 6 ) ,

(1, 2,3, 4 ) , (1, 2,3,5 ) , (1, 2,3, 6 ) , (1, 2, 4,5 ) , (1, 2, 4, 6 ) , (1, 2,5, 6 ) , (1,3, 4,5 ) , (1,3, 4, 6 ) , (1,3,5, 6 ) ,

(1, 4,5, 6 ) , ( 2,3, 4,5 ) , ( 2,3, 4, 6 ) , ( 2,3,5, 6 ) , ( 2, 4,5, 6 ) , ( 3, 4,5, 6 ) ,

(1, 2,3, 4,5 ) , (1, 2,3, 4, 6 ) , (1, 2,3,5, 6 ) , (1, 2, 4,5, 6 ) , (1,3, 4,5, 6 ) , ( 2,3, 4,5, 6 ) , (1, 2,3, 4,5, 6)

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
EJEMPLOS DE APLICACIN
1.
Sea la extraccin de una carta (de una baraja con 52 cartas) el fenmeno a
estudiar.
a) Defina el espacio muestral de dicho fenmeno aleatorio.
b) Calcule el nmero de nmero de subconjuntos del espacio muestral (-lgebra).
c) Determine el nmero de elementos que contienen los eventos estipulados y, a partir
de ello, clasifique los eventos (individuales o por parejas) que se mencionan.
De entrada tenemos que el espacio muestral deL fenmeno aleatorio extraccin de
una carta de una baraja es el siguiente:

, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,

=
# = 52
A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R,
, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R
a) Gracias a lo cual podemos observar las 52 posibles cartas que pueden ser
extradas de dicha baraja.
Ahora bien, calculemos el total de subconjuntos de dicho espacio muestral:

2 = 252 = 4.5036x1015
b) Como podemos ver, el nmero de eventos posibles para este fenmeno es
inmenso: 4.5036x1015 .
Finalmente determinemos el nmero y tipo de los siguientes eventos:

Sea A el evento en que sale un as de corazones:

A = {} # A = 1
, El evento sale un as de corazones tiene slo un elemento, por ende es un
EVENTO SIMPLE.

Sea D el evento en que se obtiene un diez de diamantes:

D = {10} # D = 1
, El evento se obtiene un diez de diamantes contiene un elemento, por lo cual
es un EVENTO SIMPLE.

Sea E el evento en que se extrae una carta de espadas:

E = {, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R} # E = 13


, El evento se extrae una carta de espadas posee 13 elementos; razn por la
que es un EVENTO COMPUESTO.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Sea C el evento en que sale un cuatro:

C = {4, 4, 4, 4} # C = 4
, El evento sale un cuatro comprende 4 elementos. Debido a ello es un
EVENTO COMPUESTO.

Sea U el evento en que se obtiene una carta con un uno:

U ={

} #U = 0

, El evento se obtiene una carta con un uno es un EVENTO IMPOSIBLE, ya


que este tipo de barajas, en vez de tener unos, poseen ases.

Sea J el evento en que se extrae un comodn:

J ={

} #J =0

, El evento se obtiene una carta con un uno no tiene elemento alguno, por lo
cual es un EVENTO IMPOSIBLE.

Sea P el evento en que sale un diamante, un corazn, un trbol o una


espada:

, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,

P=
# P = 52
J
,Q
,R
A
,
2,
3,
4,5,
6,
7,8,
9,10,

, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R


, El evento sale un diamante, un corazn, un trbol o una espada es un
EVENTO SEGURO, pues las 52 cartas de la baraja cumplen con tales requisitos.

Sea Q el evento en que se obtiene una reina:


Sea T el evento en que se extrae un trbol:

Q = {Q,Q,Q,Q} # Q = 4
T = { A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R,} # T = 13
, Tanto el evento Q como el T tienen ms de un elemento (4 y 13,
respectivamente). Si bien esto hace a cada uno un EVENTO COMPUESTO, es
ms importante notar que, como pareja, NO SON EVENTOS AJENOS, pues

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
tienen en comn a la reina de trboles.

Sea R el evento en que sale una carta de palo rojo:


Sea N el evento en que se obtiene una carta de palo negro:

, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,
R=
# R = 26
, 2, 3, 4, 5, 6, 7, 8, 9,10, J,Q,R,
A, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R,
N =
# N = 26
, 2, 3, 4,5, 6, 7,8, 9,10, J,Q,R
, Si bien estos eventos son tambin COMPUESTOS (ya que comprenden 13
elementos), como pareja s son EVENTOS EXCLUYENTES, ya que ninguno de
sus puntos muestrales es igual.

PROPIEDADES ELEMENTALES DE LA PROBABILIDAD


Ya revisadas las diferentes formas que existen para calcular la probabilidad de un
evento, resta estudiar las bases que sustentan la teora probabilstica. Empero, ms
all de los axiomas, debe verse en estas propiedades una forma ms de asignar
probabilidades y de corroborar los resultados.
1. La probabilidad de cualquier evento E
es un nmero no negativo.
2. La probabilidad de cualquier evento E
es un nmero igual o menor a uno.
3. Por ende, la probabilidad de cualquier
evento E est entre cero y uno.
4. La suma de las probabilidades de
todos los resultados posibles de un
fenmeno es igual a uno.
5. Si E es un evento cualquiera, el
evento que contiene todos los elementos
del espacio muestral que no estn en E
es su EVENTO COMPLEMENTO: E c .
Por tanto, la suma de sus probabilidades
es igual a uno.

P(E) 0
P(E) 1
0 P(E) 1
k

P ( E1 ) + ... + P ( Ek ) = P ( Ei ) =P ( ) = 1
i =1

P ( E ) + P ( Ec ) = 1

C. EJEMPLOS DE APLICACIN
1.
Defina, justificando su respuesta, el enfoque necesario para asignar
probabilidad a los siguientes eventos:

Se est apostando por color en una ruleta europea (que adems de 36


nmeros tiene una casilla para el cero, que es verde). Cul es la probabilidad
de que la bola caiga en una casilla roja?

Dado que los resultados de la ruleta son equiprobables, podemos utilizar el

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
enfoque clsico:

0,1, 2, 3, 4, 5, 6, 7,8, 9,10,11,12,13,14,15,16,17,18,19, 20,


=
# A = 37
21, 22, 23, 24, 25, 26, 27, 28, 29, 30,31, 32,33, 34,35, 36
R = {1, 3, 5, 7, 9,12,14,16,18,19, 21, 23, 25, 27, 30, 32, 34, 36} # R = 18
P ( R) =

18
= 0.4865 , Segn ste enfoque, la probabilidad de que la bola caiga
37
en una casilla roja es de 48.65%.

Se lanza una moneda. Cul es la probabilidad de que caiga sol si en 80 de


200 lanzamientos anteriores ha cado dicha cara.

La notable diferencia de resultados en ensayos anteriores nos indica que la


moneda no est bien balanceada. Por ende es mejor utilizar el enfoque
frecuentista para asignar probabilidad a este evento:

P(S ) =

80
= 0.4000 , Gracias a l sabemos que la probabilidad de que salga
200
sol en el prximo lanzamiento es de 40.00%.

Cul es de que uno infante padezca una enfermedad alrgica si:


a) Ambos padres fueron alrgicos ( D ) .
b) Slo uno de sus padres fue alrgico (U ) .

Si bien podran averiguarse las frecuencias relativas de dichos eventos, el


desarrollo de una enfermedad alrgica se relaciona con factores genticos. Por
ende, es mejor confiar en juicios como el del doctor Gerardo Lpez Prez, mdico
adscrito al servicio de Alergia del Instituto Nacional de Pediatra (INP) de la
Secretara de Salud, quien afirma que si ambos padres fueron alrgicos, el
nio tiene hasta 50% de posibilidad de serlo, si es uno de ellos, el riesgo es de
30%...3

P ( D ) = 0.5000

P (U ) = 0.3000

Cul es la probabilidad de que, en un juego de perinola, alguien o todos


pongan una ficha?

Bajo el supuesto de que dicha perinola no est trucada, podemos aplicar el


enfoque clsico:

= {pon una, pon dos, todos ponen (una), toma una, toma dos, toma todo} # = 6
P = {pon una,todos ponen (una),} # P = 2

El 30% de la poblacin presenta durante su vida algn tipo de alergia en Comunicado de prensa No.
318. Secretara de Salud. 7 de junio del 2006. Documento electrnico:
http://www.salud.gob.mx/ssa_app/noticias/datos/2006-06-07_2254.html

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

P ( P) =

2
= 0.3333 , Segn lo cual, la probabilidad de que alguien o todos
6
pongan una ficha es de 33.33%.

Cul es la probabilidad de que una denuncia presentada ante la Procuradura


General de Justicia del Distrito Federal (PGJDF) se relacione a un delito
ambiental de tala, cometido en nuestra ciudad?

Samuel Ibarra Vargas, titular de la Fiscala Especial para la Atencin de Delitos


Ambientales de la PGJDF, precisa: de 38 a 40 por ciento de las denuncias que
tenemos en la Fiscala son de tala4.
Dicha afirmacin implica ya una observacin repetida del evento (denuncia por
tala), razn por la cual podemos aplicar el enfoque frecuentista:

P (T ) =

38
= 0.3800
100

P (T ) =

40
= 0.4000
100

, Por tanto, la probabilidad de que una denuncia se relacione a la tala es de 38 a


40%.

Cul es la probabilidad de que llueva durante las ceremonias de inauguracin


y clausura de los Juegos Olmpicos en China (2008)?

Si bien no hay forma de aqu tampoco hay forma de repetir el evento, los
registros histricos muestran una probabilidad del 50 por ciento de que haya
precipitaciones en los das en que se llevarn a cabo las citadas ceremonias, el 8
y el 24 de agosto, respectivamente.5
Por ende, la probabilidad del evento lluvia durante las ceremonias ( L ) es de:

P ( L ) = 0.5000
2. Compruebe con ayuda de los siguientes fenmenos las reglas de probabilidad:
a) El lanzamiento de una moneda balanceada.
b) La tirada de un dado no trucado.
Definamos primero el espacio muestral de ambos eventos:
MONEDA
DADO

= {guila, sol}
= {1,2,3,4,5,6}

# = 2
# = 6

Aumentan denuncias por delitos ambientales en el DF en El Universal, Secc. DF. 1 de junio del
2008. Formato electrnico: http://www.eluniversal.com.mx/notas/511216.html
5
Controlarn clima en JO 2008 con cohetes en El Siglo de Durango. 2 de enero del 2008. Direccin
electrnica: http://www.elsiglodedurango.com.mx/noticia/152651.controlaran-clima-en-jo-2008-concohetes.siglo

10

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Comprobemos ahora que la probabilidad de todos los eventos de dichos fenmenos
es mayor a cero y menor a uno:
MONEDA
Salga guila ( A )

A = {guila}

# A =1

Salga sol ( S )

S = {sol}

#S =1

P ( A ) = 1 = 0.5000
2
P ( S ) = 1 = 0.5000
2

DADO
Caiga uno (U )

U = {1}

#U = 1

Caiga dos ( D )

D = {2}

#D =1

Caiga tres (T )

T = {3}

#T = 1

Caiga cuatro ( C )

C = {4}

#C = 1

Caiga cinco ( Q )

Q = {5}

#Q =1

Caiga seis ( S )

S = {6}

#S =1

P (U ) = 1 = 0.1667
6
P ( D ) = 1 = 0.1667
6
P (T ) = 1 = 0.1667
6
P ( C ) = 1 = 0.1667
6
P ( Q ) = 1 = 0.1667
6
P ( S ) = 1 = 0.1667
6

Ahora confirmemos que la suma las probabilidades de todos los eventos de cada
fenmeno es igual a uno:
MONEDA
Salga guila ( A )
Salga sol ( S )

P ( A ) = 1 = 0.5000
2
P ( S ) = 1 = 0.5000
2

P ( A) + P ( S ) = 1 + 1 = 2 = 1
2
2
2

DADO
Caiga uno (U )
Caiga dos ( D )
Caiga tres (T )
TOTAL

P (U ) = 1 = 0.1667 Caiga cuatro ( C ) P ( C ) = 1 = 0.1667


6
6
P ( D ) = 1 = 0.1667 Caiga cinco ( Q )
P ( Q ) = 1 = 0.1667
6
6
1
1
Caiga seis ( S )
P (T ) =
= 0.1667
P(S ) =
= 0.1667
6
6
P (U ) + P ( D ) + P (T ) + P ( C ) + P ( Q ) + P ( S )
= 1 + 1 + 1 + 1 + 1 + 1 = 6 =1
6
6
6
6
6
6
6

Finalmente, elijamos o estipulemos algunos eventos para comprobar la propiedad


relativa a los eventos complementos:
MONEDA
Sea A el evento en que sale un guila.

A = {guila}

# A =1

P ( A ) = 1 = 0.5000
2

Como el lanzamiento de una moneda slo tiene dos resultados, el evento


complementos es sale sol

S = {sol}

#S =1

P ( S ) = 1 = 0.5000
2

La suma de estos eventos debe ser, por tanto, igual a uno:

11

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

P ( A) + P ( S ) = 1 + 1 = 2 = 1
2
2
2
DADO
Sea N el evento en que cae un nmero non.

N = {1,3,5}

P ( N ) = 3 = 0.5000
6

#N =3

El evento complemento de tal evento es: cae un nmero par

P = {2, 4, 6}

P ( P ) = 3 = 0.5000
6

#P =3
Eventos cuya suma es igual a uno:

P ( N ) + P ( P) = 3 + 3 = 6 = 1
6
6
6
Ya estudiados los enfoques y axiomas de la teora probabilstica, en este captulo
analizaremos cmo se aplican dichos principios al clculo de probabilidades de
diversos tipos de eventos.
Como anteriormente mencionamos, un evento imposible ( ) es aqul que no
contiene elementos. Dado que dicho suceso no puede ocurrir, la probabilidad de un
evento imposible siempre ser la mnima P ( E ) 0 ; es decir, cero:
EXPRESIN PARA ASIGNAR
PROBABILIDAD A UN EVENTO
IMPOSIBLE

P () = 0

Por el contrario, dijimos que el evento seguro ( ) es aqul que contiene los mismos
elementos que el espacio muestral. El hecho de que este suceso comprenda todos los

eventos posibles P ( E1 ) + ... + P ( Ek ) =

P ( E ) =P ( )
i =1

implica, por tanto, que la

probabilidad del evento seguro siempre sea la mxima P ( E ) 1 ; esto es, igual a
uno:
EXPRESIN PARA ASIGNAR
PROBABILIDAD A UN EVENTO
SEGURO

P () = 1

Evento complemento
Por otro lado, revisamos que un evento complemento

(E )
c

es aqul que contiene

todos los elementos del espacio muestral que no estn en el evento E . Si la suma de

( )

sus probabilidades es igual a uno P ( E ) + P E c = 1 , la probabilidad del evento

complemento puede calcularse restando a uno la probabilidad del evento E :


EXPRESIN PARA ASIGNAR
PROBABILIDAD A UN EVENTO
COMPLEMENTO

P ( Ec ) = 1 P ( E )

12

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Evento interseccin y unin
Las cosas cambian, no obstante, cuando un evento comprende dos o ms eventos
( E1 , E2 , E3 ,..., Ek ) . Por ello es que estudiando la teora de conjuntos recordaremos:
1. Que el conjunto que contiene los elementos comunes a dos conjuntos ( A y B ) es
llamado interseccin y denotado por A B .
2. Que el conjunto que contiene todos los elementos de A y B es llamado unin y
denotado por A B .
Ahora bien, igual que en la teora de conjuntos, en probabilidad se denomina evento
interseccin al evento que comprende slo los elementos comunes a dos o ms
eventos ( E1 , E2 , E3 ,..., Ek ) :

I = ( E1 E2 )

EVENTO INTERSECCIN

Por otro lado, se llama evento unin al evento que contiene los elementos de dos o
ms eventos ( E1 , E2 , E3 ,..., Ek ) :

U = ( E1 E2 )

EVENTO UNIN

Interseccin y unin de eventos cualesquiera


La ocurrencia de estos eventos y la asignacin de probabilidad son, por ende, distintas
a las de otros sucesos:
1) Un evento interseccin ocurre cuando se dan uno y otro evento; es decir,
ambos. Debido a ello, la probabilidad del evento interseccin se puede calcular
dividiendo el nmero de elementos que comparten los eventos entre el nmero
de elementos del espacio muestral:
EVENTO INTERSECCIN

I = ( E1 E2 )

Evento en que suceden todos


los eventos.
EXPRESIN PARA ASIGNAR
PROBABILIDAD A LA
INTERSECCIN DE
EVENTOS CUALESQUIERA

P ( I ) = P ( E1 E2 )

P ( E1 E2 ) =

# de elementos comunes entre E1 y E 2


# de elementos del espacio muestral

2) Un evento unin sucede cuando se da uno u otro evento. Por tal motivo, la
probabilidad de un evento unin se puede calcular sumando las probabilidades
individuales de los eventos y restando a ello la probabilidad de su interseccin:
EVENTO UNIN

Evento en que sucede al menos


uno u otro de los eventos.
EXPRESIN PARA ASIGNAR
PROBABILIDAD A LA
UNIN DE EVENTOS
CUALESQUIERA

U = ( E1 E2 )
P (U ) = P ( E1 E2 ) = P ( E1 ) + P ( E2 ) P ( E1 E2 )

13

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Interseccin y unin de eventos ajenos
Los eventos ajenos son, sin embargo, un caso especial de las expresiones anteriores.

Dado que no tienen elementos en comn ( E3 E4 ) = , la probabilidad de


interseccin entre dos o ms de ellos es siempre igual a cero; adems, por deduccin,
la probabilidad de su evento complemento es igual a uno:
PROBABILIDAD DE
EVENTO INTERSECCIN
ENTRE EVENTOS AJENOS

P ( E3 E4 ) = 0

PROBABILIDAD DE EVENTO
COMPLEMENTO RESPECTO A UN
EVENTO INTERSECCIN
ENTRE EVENTOS AJENOS

P ( E3 E4 ) = 1
c

Asimismo, como su interseccin es igual a cero, su probabilidad de unin es


simplemente igual a la suma de las probabilidades individuales de sus eventos:

P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 ) P ( E3 E4 )
P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 ) 0
P (U ) = P ( E3 E4 ) = P ( E3 ) + P ( E4 )
EXPRESIN PARA ASIGNAR PROBABILIDAD A LA
UNIN DE EVENTOS AJENOS

P ( E3 E4 ) = P ( E3 ) + P ( E4 )

P ( E1 E2 E3 ... EK ) = P Ei
i =1
k

P ( E1 E2 E3 ... EK ) = P ( Ei )
i =1

Leyes de probabilidad
Habiendo revisado los eventos interseccin y unin, podemos mencionar ya otras de
las leyes que se aplican al clculo de probabilidad.
Leyes DMorgan

P ( A B) = P ( A B
c

LEYES DMORGAN

P ( A B ) = P ( Ac B c )
c

Leyes distributivas
LEYES DISTRIBUTIVAS

P ( A ( B C )) = P (( A B ) ( A C ))

P ( A ( B C )) = P (( A B ) ( A C ))

Revisemos y apliquemos ahora todo lo anterior utilizando, una vez ms, un sencillo
fenmeno aleatorio: el lanzamiento de un dado.

14

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Ejemplos de aplicacin
1.
Si se lanza un dado no trucado, cul es la probabilidad de los siguientes
eventos:
Lanzamiento de un dado balanceado
Nmero de elementos del espacio
muestral

Espacio muestral del fenmeno

= {1,2,3,4,5,6}

# = 6

Sea el evento D en que se obtiene un nmero mayor a ocho:

D ={

} #D = 0

El evento es imposible; por tanto: P ( ) = 0


, La probabilidad de que se obtenga un nmero mayor a ocho es nula (0.00%).

Sea E el evento en que aparece un nmero menor a diez:

E = {1, 2,3, 4,5, 6} # E = 6


El evento es seguro; por tanto: P ( ) = 1
, La probabilidad de que aparezca un nmero menor a diez es de 100.00%.

Sea F el evento en que sale el nmero uno:

F = {1} # F = 1

P ( F ) = 1 = 0.1667
6

, La probabilidad de que salga el nmero uno es de 16.67%.

Sea G el evento en que se obtiene un nmero diferente al uno:

G = {2,3, 4,5, 6} # G = 5

P ( G ) = 5 = 0.8333
6

No obstante, como el evento G = nmero 1 es complemento del evento


F = nmero 1 , podemos tambin calcular su probabilidad mediante la siguiente
expresin:

P ( G ) = 1 P ( F ) = 1 0.1667 = 0.8333
, La probabilidad de que se obtenga un nmero diferente al uno es de 83.33%.
Ahora veamos un poco sobre la probabilidad de interseccin y unin entre eventos
cualesquiera y ajenos con tres diferentes sucesos:

15

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Sea H el evento en que aparece el nmero cinco:

H = {5} # H = 1

P ( H ) = 1 = 0.1667
6

, La probabilidad de que aparezca el nmero cinco es de 16.67%.

Sea I el evento en que sale un nmero non:

I = {1,3,5} # I = 3

P ( I ) = 3 = 0.5000
6

, La probabilidad de que salga un nmero non es de 50.00%.

Sea J el evento en que se obtiene un nmero menor a cuatro:

J = {1, 2,3} # J = 3

P ( J ) = 3 = 0.5000
6

, La probabilidad de que se obtenga un nmero menor a cuatro es de 50.00%.


Interseccin de los eventos:

Determine la probabilidad del evento ( H I ) :

H = {5}

I = {1,3,5}

Los eventos H e I comparten un elemento: el cinco ( H I ) = {5} ; por lo cual:

P ( E1 E2 ) =

# de elementos comunes entre E1 y E 2


P ( H I ) = 1 = 0.1667
6
# de elementos del espacio muestral

, La probabilidad del evento ( H I ) es de 16.67%.

Determine la probabilidad del evento ( H J ) :

H = {5}

J = {1, 2,3}

Los eventos H e J son ajenos, ya que no tienen elementos en comn

( H J ) = { } . Debido a ello: P ( H J ) = 0

, La probabilidad del evento ( H J ) es nula (0.00%).

16

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Por deduccin, determine la probabilidad del complemento para el evento


(H J ) :

P ( H J ) = 1 P ( H J ) = 1 0 = 1
c

, La probabilidad del complemento del evento ( H J ) es de 100.00%.

Unin de los eventos:

Determine la probabilidad del evento ( H I ) :

Sabemos que: H = {5} y que I = {1,3,5} . Por tanto, al unir los dos eventos
tenemos:

( H I ) = {1,3,5,5} .

eliminar el elemento comn:

Pero, para calcular la probabilidad, hay que

( H I ) = {5} ( H I ) = {1,3,5} ,

resultando en:

P ( H I ) = 3 = 0.5000
6
Esto, claro est, es ms sencillo aplicando la expresin para probabilidad de unin
de eventos cualesquiera (no ajenos):
FRMULA

DATOS PARA SUSTITUIR

P ( E1 E2 ) = P ( E1 ) + P ( E2 ) P ( E1 E2 )
P(H I ) = P(H ) + P(I ) P(H I )
P ( H I ) = 1 + 3 1 = 3 = 0.5000
6
6
6
6

H = {5} # H = 1 P ( H ) = 1

6
3
I = {1,3,5} # I = 3 P ( I ) =
6
1
( H I ) = {5} P ( H I ) = 6

, La probabilidad del evento ( H I ) es de 50.00%.

Determine la probabilidad del evento ( H J ) :

Sabemos que: H = {5} y que J = {1, 2,3} . Por tanto, al unir los dos eventos
tenemos:

( H J ) = {1, 2,3,5} .

As que: P ( H J ) = 4 = 0.6667 . Pero ya que

existe una expresin para calcular la probabilidad de unin de eventos ajenos,


ocupmosla:
FRMULA

P ( E3 E4 ) = P ( E3 ) + P ( E4 )
P(H J ) = P(H ) + P(J )
P ( H J ) = 1 + 3 = 4 = 0.6667
6
6
6

DATOS PARA SUSTITUIR

H = {5} # H = 1 P ( H ) = 1

6
3
J = {1, 2,3} # J = 3 P ( J ) =
6

, La probabilidad del evento ( H J ) es de 66.67%.

17

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Finalmente comprobemos las leyes DMorgan y las leyes distributivas con ayuda de
tres eventos:

Sea A el evento en que aparece un nmero par:

A = {2, 4, 6} # A = 3

P ( A ) = 3 = 0.5000
6

, La probabilidad de que aparezca un nmero par es de 50.00%.

Sea B el evento en que sale un nmero mayor a tres:

B = {4,5, 6} # B = 3

P ( B ) = 3 = 0.5000
6

, La probabilidad de que salga un nmero mayor a tres es de 50.00%.

Sea C el evento en que se obtiene un nmero primo:

C = {1, 2,3,5} # C = 4

P ( C ) = 4 = 0.6667
6

, La probabilidad de que se obtenga un nmero primo es de 66.67%.


Leyes DMorgan:

P ( A B ) = P ( Ac B c )
c

P ( A B ) = P ( Ac B c )
c

Elementos para comprobar

A = {2, 4, 6} # A = 3
Ac = {1,3,5}

P ( A) = 3

c
P ( A) = 1 P ( A) = 1 3 = 3
6
6

B = {4,5, 6} # B = 3
B c = {1, 2,3}

P ( B) = 3

( A B ) = {2, 4,5, 6}

c
P ( B) = 1 P ( B) = 1 3 = 3
6
6

P ( A B) = 2

( A B ) = {4, 6}
,

P ( A B) = 1 P ( A B) = 1 2 = 4
6
6
c

P ( A B ) = P ( A) + P ( B ) P ( A B )

no ajenos

P ( A B) = 3 + 3 2 = 4
6
6
6
6

P ( A B) = 1 P ( A B) = 1 4 = 2
6
6
c

18

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

(A

(A

B c ) = {1,3}

P ( Ac B c ) = 2

P ( Ac B c ) = P ( Ac ) + P ( B c ) P ( Ac B c )

B c ) = {1, 2,3,5}
no ajenos

P ( A B) = 4
c

6
P( A B ) = 4
6
c

P ( A B ) = P ( Ac B c )

P ( Ac B c ) = 3 + 3 2 = 4
6
6
6
6
c
P ( A B) = 2
6
c
c
P( A B ) = 2
6
P ( A B ) = P ( Ac B c )

= 4 = 0.6667
6

= 2 = 0.3333
6

,
, Finalmente, si sustituimos letras por eventos y elementos, podemos concluir que:
1. Por un lado, la probabilidad de que aparezca un 1, 2, 3 5

P ( A B )c = P ( Ac B c ) es de 66.67%.

c
2. Por otro, la probabilidad de que salga 1 y 3 P ( A B ) = P Ac B c es de

33.33%.
Leyes distributivas:

P ( A ( B C )) = P (( A B ) ( A C ))

P ( A ( B C )) = P (( A B ) ( A C ))

Elementos para comprobar

A = {2, 4, 6} # A = 3

P ( A) = 3

B = {4,5, 6} # B = 3

P ( B) = 3

C = {1, 2,3,5} # C = 4

P (C ) = 4

( A B ) = {4, 6}

P ( A B) = 2

( A B ) = {2, 4,5, 6}

P ( A B ) = P ( A) + P ( B ) P ( A B )

no ajenos

P ( A B) = 3 + 3 2 = 4
6
6
6
6

( A C ) = {2}

P( AC) = 1

( A C ) = {1, 2,3, 4,5, 6}

P ( A C ) = P ( A) + P ( C ) P ( A C )

no ajenos

( ( A B ) ( A C ) ) = {2, 4,5, 6}

( ( A B ) ( A C ) ) = {2, 4, 6}
ajenos

P( AC) = 3 + 4 1 = 6
6
6
6
6

P (( A B ) ( A C )) = 4

P (( A B ) ( A C )) = P ( A B ) + P ( A C )
P (( A B ) ( A C )) = 2 + 1 = 3
6
6
6

19

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

( B C ) = {5}

P(B C) = 1

( B C ) = {1, 2,3, 4,5, 6}

P ( B C ) = P ( B ) + P (C ) P ( B C )
P(B C) = 3 + 4 1 = 6
6
6
6
6

no ajenos

( A ( B C ) ) = {2, 4, 6}

P ( A ( B C )) = 3

P ( A ( B C ) ) = P ( A) + P ( B C )

( A ( B C ) ) = {2, 4,5, 6}

P ( A ( B C )) = 3 + 1 = 4
6
6
6
P ( A ( B C )) = 4
6
P (( A B ) ( A C )) = 4
6

ajenos

P ( A ( B C )) = 3

6
P (( A B ) ( A C )) = 3

6
P ( A ( B C )) = P (( A B ) ( A C ))

P ( A ( B C )) = P (( A B ) ( A C ))

= 3 = 0.5000
6

= 4 = 0.6667
6

, Es decir:
1. La probabilidad de que se obtenga un 2, 4 6

P ( A ( B C ) ) = P ( ( A B ) ( A C ) ) es de 50.00%.

2. La probabilidad de que aparezca un 2, 4, 5 6


P A ( B C ) = P ( A B ) ( A C ) es de 66.67%.

Probabilidad condicional
Otra forma de analizar dos o ms eventos es investigar si la ocurrencia de uno
depende de otro. En vistas de tal objetivo, la teora probabilstica ha desarrollado la
probabilidad condicional, que por definicin es la probabilidad de que suceda un

evento dado que haya ocurrido otro y se denota por: P A B .


Probabilidad condicional de eventos cualesquiera
Para asignar dicha probabilidad, basta dividir la probabilidad de interseccin de los
eventos entre la probabilidad del evento que debi haberse dado:
EXPRESIN PARA DETERMINAR LA
PROBABILIDAD CONDICIONAL DE DOS EVENTOS CUALESQUIERA

P ( A B) =

P ( A B)
P ( B)

P ( B A) =

P ( A B)
P ( A)

Pese a su parecido, la operacin probabilidad condicional no tiene propiedad


conmutativa. Por ello debe vigilarse con atencin cul es la probabilidad del evento
causante y cul es la de evento consecuencia.
Probabilidad condicional de eventos ajenos

20

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Dicho esto, podemos hacer otra excepcin a la frmula general: al ser la probabilidad
de interseccin de eventos ajenos igual a cero, su probabilidad condicional deviene
tambin cero:
PROBABILIDAD CONDICIONAL DE EVENTOS AJENOS

P (C D ) =

P (C D )
0
=
=0
P ( D)
P ( D)

P(D C) =

P (C D )
0
=
=0
P (C )
P (C )

Eventos independientes
Si bien la operacin probabilidad condicional proporciona la probabilidad de que
suceda un evento dado otro, tambin nos permite identificar cuando los eventos
analizados son eventos independientes: eventos cuya probabilidad de suceso no se
ve afectada por la ocurrencia de otros.
Para ello basta simplemente comprobar si, y slo si, la probabilidad condicional
calculada es igual a la probabilidad de evento consecuencia:

P ( A B ) = P ( A)

EVENTOS INDEPENDIENTES

A y B son eventos independientes

P ( B A) = P ( B )

Interseccin de eventos independientes


Sabiendo que la probabilidad condicional se calcula mediante la expresin

P ( A B) =

P ( A B)
y que la probabilidad condicional de eventos independientes es
P ( B)

igual a P A B = P ( A ) ; dada la relacin entre elementos podemos aplicar la


propiedad transitiva de igualdad y deducir lo siguiente:

P ( A B)
= P ( A ) . Por ende:
P ( B)

P ( A B ) = P ( A) P ( B ) .

P ( A B)
P ( A B) =
P ( B)
P ( A B ) = P ( A)

P ( A B)
= P ( A)
P ( B)

REGLA DE LA
MULTIPLICACIN DE
EVENTOS
INDEPENDIENTES

P ( A B ) = P ( A) P ( B )

Es debido a ello que la probabilidad de interseccin de eventos independientes es, no


igual a la suma de sus probabilidades individuales, sino a la multiplicacin de stas:
EXPRESIN PARA ASIGNAR PROBABILIDAD A LA
INTERSECCIN DE EVENTOS INDEPENDIENTES

21

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

P ( E1 E2 ) = P ( E1 ) P ( E2 )
P ( E1 E2 E3 ... EK ) = P ( E1 ) P ( E2 ) P ( E3 ) ... P ( EK )
k

P ( E1 E2 E3 ... EK ) = P ( Ei )
i =1

Ejemplos de aplicacin
1.
Veamos primero un ejemplo abstracto de la probabilidad condicional de
eventos cualesquiera y eventos ajenos con algunos de los casos que estudiamos
sobre el lanzamiento de un dado:

Sea H el evento en que aparece el nmero cinco:


Sea I el evento en que sale un nmero non:
Sea J el evento en que se obtiene un nmero menor a cuatro:
Elementos para clculo de probabilidad condicional

H = {5} # H = 1

P(H ) = 1

I = {1,3,5} # I = 3

P(I ) = 3

J = {1, 2,3} # J = 3

P(J ) = 3

( H I ) = {5}
(H J ) = { }
P(H I ) 1 6 6
P(H I ) =
=
= = 0.3333
P(I )
3 6 18
P(H J )
0
P(H J ) =
=
=0
P(J )
36

6
P(H I ) = 1

6
P(H J ) = 0

P(I H ) =

P(H I ) 1 6 6
=
= =1
P(H )
16 6

P(J H ) =

P(H J ) 0
=
=0
P(H )
16

, De dichos clculos concluimos que:


1. La probabilidad de que en el prximo lanzamiento aparezca el nmero cinco,
dado que sali un nmero non, es de 33.33%
2. La probabilidad de que en el prximo lanzamiento salga un nmero non, dado
que apareci previamente el nmero cinco, es de 100.00%.
Por otra parte, como los eventos H y J son ajenos:
3. La probabilidad de que en el prximo lanzamiento aparezca el nmero cinco,
dado que se obtuvo un nmero menor a cuatro, es nula (0.00%).
4. La probabilidad de que en el prximo lanzamiento se obtenga un nmero
menor a cuatro, dado que apareci el nmero cinco, es nula (0.00%).

2.
Considrense ahora los siguientes datos correspondientes a crneos
clasificados por sexo y grado de criba orbitaria:

22

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
AUSENCIA

( A)

FEMENINO
SEXO

(F )

MASCULINO

(M )

TOTAL

CRIBA
INCIPIENTE

(I )

SEVERA

(S )

TOTAL

21

34

52

107

36

20

17

73

57

54

69

180

Si se selecciona un caso de la poblacin, cul es la probabilidad de que


a) sea femenino?
b) presente criba incipiente?
c) sea femenino y presente criba incipiente?
d) sea femenino o presente criba incipiente?
e) presente criba incipiente dado que es femenino?
f) presente criba dado que es masculino?
Veamos cmo, al registrar la informacin en una tabla de contingencia, la asignacin
de probabilidades es mucho ms sencilla, especialmente en los casos de probabilidad
condicional.
a) sea femenino?
Probabilidad que requiere observar
la frecuencia relativa de dicho
evento:

P(F ) =

107
= 0.5944
180

, La probabilidad de que el caso sea femenino es de 59.44%.


b) presente criba incipiente?
54
Se trata, igualmente, de una
P(I ) =
= 0.3000
probabilidad por frecuencia relativa:
180
, La probabilidad de que el caso presente criba incipiente es de 30.00%.
c) sea femenino y presente criba incipiente?
Esto implica, por tanto, buscar la
34
P(F I ) =
= 0.1889
interseccin de los eventos
180
femenino y criba incipiente:
, La probabilidad de que el caso sea femenino y presente criba incipiente es de
18.89%.
d) sea femenino o presente criba incipiente?
Esto implica, por tanto, buscar la
unin de los mismos eventos, que
comprobamos no son ajenos:

P ( F I ) = P ( F ) + P (U ) P ( F I )
P(F I ) =

107 54 34 127
+

=
= 0.7056
180 180 180 180

, La probabilidad de que el caso sea femenino o presente criba incipiente es de


70.56%.

23

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

OPCIN 2

OPCIN 1

e) presente criba incipiente dado que es femenino?


Para tal probabilidad
condicional necesitamos las
P ( F I ) 34 180
6120
probabilidades individuales
P I F =
=
=
= 0.3178
de ambos eventos y la
P(F )
107 180 19260
probabilidad de su
interseccin:

Para su clculo slo es


necesario tomar en cuenta
los casos femeninos con
criba incipiente:

P(I F ) =

34
= 0.3178
107

, La probabilidad de que el caso presente criba incipiente dado que es femenino es


de 31.78%.

OPCIN 2

e) presente criba severa dado que es masculino?


Por ser ms fcil, slo
consideramos los casos que
cumplen ambos requisitos:

P(S M ) =

17
= 0.2329
73

, La probabilidad de que el caso presente criba severa dado que es masculino es de


23.29%.
3. Supongamos que se contesta al azar una quiniela Progol (con 14 partidos y 3
resultados). Cul es la probabilidad de ganar as el premio mayor?
De entrada tenemos que, al haber tres casillas posibles (local, empate y visita), la
probabilidad de atinarle al resultado de cada partido es:

P ( Ai ) =

1
3

Ahora bien, sabemos que para ganar el premio mayor deben marcarse correctamente
el resultado de todos los encuentros. Esto es:

P ( G ) = P ( A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 )


Finalmente, como el resultado de los partidos es independiente, podemos aplicar la
regla de la multiplicacin de eventos independientes y calcular la probabilidad de
ganar:
P ( A1 ) P ( A2 ) P ( A3 ) P ( A4 ) P ( A5 ) P ( A6 ) P ( A7 )
P (G ) =

P ( A8 ) P ( A9 ) P ( A10 ) P ( A11 ) P ( A12 ) P ( A13 ) P ( A14 )


1 1 1 1 1 1 1 1 1 1 1 1 1 1
P ( G ) =
3 3 3 3 3 3 3 3 3 3 3 3 3 3
14

1
P ( G ) = = 2.0908 x107
3

24

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
, Gracias a esto sabemos que la probabilidad de ganar el premio mayor de Progol
(contestando la quiniela al azar), es casi nula: de 0.000020908%.
4.
Ante la decepcin anterior, intentamos ahora con el Melate. Cul es la
probabilidad de que la combinacin elegida sea idntica a la que sale en el sorteo?
Primero que nada observemos que el Melate consiste en
seleccionar 6 nmeros entre el 1 y el 56. Es por ello que con
cada eleccin hay menos nmeros que se pueden escoger,
provocando que las probabilidades de acertar cambien:

P (U ) =

1
56

P ( D) =

1
55

P (T ) =

1
54

P (C ) =

1
53

P (Q ) =

1
52

P(S ) =

1
51

Dado que la aparicin de los nmeros en el sorteo es


tambin independiente:

P ( G ) = P (U D T C Q S )

P ( G ) = P (U ) P ( D ) P (T ) P ( C ) P ( Q ) P ( S )
1
1 1 1 1 1 1
P ( G ) = =
10
56 55 54 53 52 51 2.3377 x10

P ( G ) = 4.2777 x1011
, Y as nos percatamos de que atinarle al Melate es mucho ms difcil; de hecho, la
probabilidad de acertar por azar a los seis nmeros es de 0.0000000042777%.
5.
Resignados ante la improbabilidad de conquistar los juegos de Pronsticos, los
amigos han decidido ganar dinero apostando entre ellos. Su objetivo: acertar el
resultado de una moneda, un dado y una ruleta. Si uno de ellos apuesta a sol,
nmero primo y nmero par, respectivamente, cul es la probabilidad de que
gane?
Analicemos primero los espacios muestrales de dichos fenmenos y la probabilidad de
tales eventos:
MONEDA

= {guila, sol}

# = 2

Aparece sol

S = {sol}

#S =1

P(S ) = 1

25

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
DADOS

= {1,2,3,4,5,6}

# = 6

Sale nmero primo

R = {1, 2,3,5}

#R = 4

P ( R) = 4

RULETA

0,1, 2, 3, 4, 5, 6, 7,8, 9,10,11,12,13,14,15,16,17,18,19, 20,


=

21, 22, 23, 24, 25, 26, 27, 28, 29, 30,31, 32,33, 34, 35, 36

# = 37

Cae nmero par

A = {2, 4, 6,8,10,12,14,16,18, 20, 22, 24, 26, 28, 30, 32, 34, 36}

# A = 18

P ( A ) = 18

37

Dado que los resultados de estos juegos son independientes:

P ( G ) = P ( R S A)
P ( G ) = P ( R ) P ( S ) P ( A )
1 4 18 72
P ( G ) = =
= 0.1622
2 6 37 444
, La probabilidad de que esa persona gane es de 16.22%
6.
Cambiando de tema, en una muestra de la Ciudad de Mxico se obtuvo que la
distribucin de grupos sanguneos es la siguiente:
GRUPO
A
B
AB
O

PORCENTAJE
20.00%
8.00%
1.00%
71.00%

Calcular la probabilidad de que una persona X pueda recibir sangre de una persona Y
(ambas elegidas al azar), a sabiendas de las siguientes limitaciones:
SANGRE
A
B
AB
O

PUEDE RECIBIR DONACINES DE:


AyO
ByO
A, B, AB y O
O

Observemos primero el espacio muestral para el tipo de sangre de dos personas:

( A, A) , ( A, B ) , ( A, AB ) , ( A, O ) , ( B, A ) , ( B, B ) , ( B, AB ) , ( B, O ) ,
=

( AB, A ) , ( AB, B ) , ( AB, AB ) , ( AB, O ) , ( O, A ) , ( O, B ) , ( O, AB ) , ( O, O ) ,


Ahora definamos los puntos muestrales para el evento de la posible donacin:

D = {( A, A), ( A, O ), (B, B ), (B, O ), ( AB, A), ( AB, B ), ( AB, AB ), ( AB, O ), (O, O )}


Si la donacin puede realizarse con cualquiera de esos sub-eventos:

26

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

P ( D ) = P ( ( A, A ) ( A, O ) ( B, B ) ( B, O ) ( AB, A ) ( AB, B ) ( AB, AB ) ( AB, O ) ( O, O ) )


P ( A, A ) + P ( A, O ) + P ( B, B ) + P ( B, O ) + P ( AB, A )
P ( D) =

+ P ( AB, B ) + P ( AB, AB ) + P ( AB, O ) + P ( O, O )


Y el tipo de sangre de una persona es independiente del grupo sanguneo que tiene la
otra:

( P ( A ) P ( A ) ) + ( P ( A ) P ( O ) ) + ( P ( B ) P ( B ) ) + ( P ( B ) P ( O ) ) + ( P ( AB ) P ( A ) )

P ( D) =
+ ( P ( AB ) P ( B ) ) + ( P ( AB ) P ( AB ) ) + ( P ( AB ) P ( O ) ) + ( P ( O ) P ( O ) )

)
)

P ( A )2 + ( P ( A ) P ( O ) ) + P ( B )2 + ( P ( B ) P ( O ) ) + ( P ( AB ) P ( A ) )

P ( D) =
2
2

+ ( P ( AB ) P ( B ) ) + P ( AB ) + ( P ( AB ) P ( O ) ) + P ( O )

Simplemente sustituimos, multiplicamos los sub-eventos y sumamos la probabilidad de


los eventos:

( 0.2 )2 + ( ( 0.2 ) ( 0.71) ) + ( 0.08 )2 + ( ( 0.08 ) ( 0.71) ) + ( ( 0.01) ( 0.2 ) )

P ( D) =
2
2

+ ( ( 0.01) ( 0.08 ) ) + ( 0.01) + ( ( 0.01) ( 0.71) ) + ( 0.71)

P ( D ) = [ 0.0400 + 0.1420 + 0.0064 + 0.0568 + 0.0020 + 0.0008 + 0.0001 + 0.0071 + 0.5041]


P ( D ) = 0.7593
, La probabilidad de que una persona X pueda recibir sangre de una persona Y
(siendo ambas elegidas al azar) es de 75.93%.
7.
Revisemos por ltimo el caso de una familia mexicana que, a fin de llevar a
cabo una planificacin familiar, ha decidido tener descendientes hasta que nazca la
primer nia; claro est, con un mximo de cinco retoos. De acuerdo al INEGI la
probabilidad de que el recin nacido sea hombre es de 0.507, mientras que la
probabilidad de que nazca una mujer es de 0.493. Suponiendo que dichos eventos son
independientes, calcular las siguientes probabilidades:
a) Cul es la probabilidad de que finalmente haya ms nios que nias?
b) Si el primer hijo es varn, cul es la probabilidad de que finalmente tengan tres
hijos en total?
Como siempre, definamos primero el espacio muestral del fenmeno:

= {( F ) , ( M , F ) , ( M , M , F ) , ( M , M , M , F ) , ( M , M , M , M , F ) , ( M , M , M , M , M )}
a) Cul es la probabilidad de que finalmente haya ms nios que nias?

27

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

O = {( M , M , F ) , ( M , M , M , F ) , ( M , M , M , M , F ) , ( M , M , M , M , M )}
P (O ) = P (( M , M , F ) ( M , M , M , F ) ( M , M , M , M , F ) ( M , M , M , M , M ))
P ( O ) = P ( M , M , F ) + P ( M , M , M , F ) + P ( M , M , M , M , F ) + P ( M , M , M , M , M )

( P ( M ) P ( M ) P ( F )) + ( P ( M ) P ( M ) P ( M ) P ( F ))

P (O ) =
+ ( P ( M ) P ( M ) P ( M ) P ( M ) P ( F ) ) + ( P ( M ) P ( M ) P ( M ) P ( M ) P ( M ) )
( 0.507 0.507 0.493) + ( 0.507 0.507 0.507 0.493)

P (O ) =
+ ( 0.507 0.507 0.507 0.507 0.493) +

( 0.507 0.507 0.507 0.507 0.507 )

) (

) (

) (

) (

) (

) (

2
3
4
5
P ( O ) = ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 )

2
3
4
5
P ( O ) = ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 ) 0.493 + ( 0.507 )

P ( O ) = ( 0.257 0.493) + ( 0.130 0.493) + ( 0.066 0.493) + ( 0.033)


P ( O ) = ( 0.127 ) + ( 0.064 ) + ( 0.033) + ( 0.033) = 0.257
, La probabilidad de que esta familia tenga ms nios que nias es de 25.7%.
b) Si el primer hijo es varn, cul es la probabilidad de que finalmente tengan tres
hijos en total?

P (T ) = P ( ( M , M , F ) M ) =

P (( M , M , F ) M )
P(M )

P (( M , M , F ))
P(M )

0.127
= 0.250
0.507

,La probabilidad de que, dado que el prime hijo es varn, la familia tenga finalmente
tres hijos es de 25.00%
Ley de probabilidad total y teorema de Bayes
Veamos por ltimo otro par de formas para analizar la probabilidad de eventos
relacionados: 1) la ley de probabilidad total, que tomando en cuenta la probabilidad de
todas las causas posibles, permite determinar la probabilidad de un evento
consecuencia y 2) el teorema de Bayes, que habiendo observado un evento
consecuencia, hace posible deducir la probabilidad de los diferentes eventos
causantes.

28

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Ley de probabilidad total
Considrese primero un conjunto finito de eventos

({ B }

i i =1...k

diferentes al vaco,

mutuamente excluyentes y que conforman un espacio muestral ( ) :

( B1 B2 B3 ... Bk ) =
k

( B1 B2 B3 ... Bk ) = Bi =
i =1

k
P ( B1 B2 B3 ... Bk ) = P Bi = P ( )
i =1
P ( B1 ) + P ( B2 ) + P ( B3 ) + ... + P ( Bi ) = 1

Imagnese ahora un evento cualquiera

( A)

relacionado con el mismo espacio

muestral:

( A ) = A
( A ) =

Si los eventos ajenos ( Bi ) tienen partes en comn con A , dicho evento cualquiera, su
tamao y probabilidad pueden ser descritos de la siguiente manera:

A = A ( B1 B2 B3 ... Bk )
A = ( A B1 ) ( A B2 ) ( A B3 ) ... ( A Bk )
P ( A ) = P ( A B1 ) + P ( A B2 ) + P ( A B3 ) + ... + P ( A Bk )

29

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Ahora bien, si vemos cada evento desde la perspectiva de la probabilidad condicional:

P ( A Bi ) =

P ( A Bi )
P ( A Bi ) = P ( A Bi ) P ( Bi )
P ( Bi )

Podemos afirmar que:

P ( A ) = P ( A B1 ) P ( B1 ) + P ( A B2 ) P ( B2 ) + P ( A B3 ) P ( B3 ) + ... + P ( A Bk ) P ( Bk )
Expresin que, al ser resumida, da origen a la ley de probabilidad total:

P ( A) = P A B j P ( B j )
j =1

LEY DE PROBABILIDAD TOTAL

Como su nombre lo dice, dicha ley permite calcular la probabilidad total de un evento
cualquiera ( A ) tomando en cuenta su probabilidad condicional P A B , as como

la existencia y probabilidad a priori de otros sucesos P ( Bi ) .

Gracias a ello, la ley de probabilidad total permite determinar la contribucin de cada


uno de los posibles eventos causa ( Bi ) a la probabilidad de un evento
consecuencia ( A ) .
Teorema de Bayes
Sabiendo que:

P ( A Bj ) = P A Bj P ( Bj )
Podemos considerar a la probabilidad condicional como:

P ( B j A) =

P ( A Bj )
P ( A)

P A Bj P ( Bj )
P ( A)

Empero, si un fenmeno cumple con las condiciones para que la ley de probabilidad
total se verifique:

P ( A) = P A B j P ( B j )
j =1

La anterior probabilidad condicional se puede definir como:

P ( B j A) =

P A Bj P ( Bj )
P ( A)

P A Bj P ( Bj )

P( A B ) P(B )
k

i =1

Expresin que corresponde al Teorema de Bayes:

30

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
P ( B j A) =

TEOREMA DE BAYES

P A Bj P ( Bj )

P( A B ) P(B )
k

i =1

Que, al suponer que la probabilidad de ocurrencia del evento A es distinta segn el


suceso Bi que haya ocurrido, permite determinar la probabilidad de las causas a partir
del efecto observado.
Ejemplos de aplicacin
1.
Defina, en abstracto, los elementos necesarios para desarrollar la ley de
probabilidad total y el teorema de Bayes en un fenmeno cuyo espacio muestral est
compuesto por slo dos eventos ajenos:

= ( B Bc )

Dado que slo hay dos eventos causa, la probabilidad total del evento consecuencia
conlleva dos sumandos donde lo que cambia en la probabilidad condicional y en la
individual es el evento ajeno que se utiliza:
LEY DE
PROBABILIDAD
TOTAL
APLICACIN

P ( A) = P A B j P ( B j )
j =1

P ( A) = P ( A B ) P ( B ) + P A Bc P ( Bc )

En lo que respecta al teorema de Bayes hay dos expresiones posibles: una para
calcular la probabilidad de cada causa, y aunque los denominadores son iguales entre
ellos e iguales a la expresin para la ley de probabilidad total, el numerador difiere de
nuevo en el evento ajeno que se busca:

TEOREMA DE
BAYES

P ( B j A) =

P( A B ) P(B )
P ( A B) P ( B)
P ( B A) =
P ( A B) P ( B) + P ( A B ) P ( B )
k

i =1

APLICACIN

P A Bj P ( Bj )
j

31

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

P ( B A) =
c

P A Bc P ( Bc )

P ( A B ) P ( B ) + P A Bc P ( Bc )

2.
Supongamos que en la ENAH, la estatura del 8.0% de los hombres y del 1.0%
de las mujeres es mayor de 1.75 metros ( E ) . Si el 60.0% de los estudiantes son
mujeres y se selecciona un alumno cuya estatura es mayor de 1.75 m.: cul es la
probabilidad de que el estudiante sea:
a) mujer ( M ) ?

b) hombre ( H ) ?

Vemos primero los datos que nos aporta el problema:


DATOS
Probabilidad de que el alumno mida
P E H = 0.08
ms de 1.75 m. dado que es hombre:
Probabilidad de que el alumno mida
P E M = 0.01
ms de 1.75 m. dado que es mujer:
Probabilidad de que el alumno sea
P ( M ) = 0.60
mujer:
, Se infiere la probabilidad de que el P H = P M c = 1 P M = 1 0.60 = 0.40
( )
( )
alumno sea hombre:

(
(

)
)

( )

Al buscar la probabilidad condicional inversa (de que el estudiante sea hombre o mujer
dado que mide ms de 1.75m.) aplicamos el teorema de Bayes:

P ( B j A) =

TEOREMA DE
BAYES

P( A B ) P(B )
k

i =1

a) Sea mujer:

P(M E) =
P(M E) =

P A Bj P ( Bj )
j

P(E M ) P(M )

P(E M ) P(M ) + P(E H ) P(H )

( 0.01)( 0.60 )
= 0.1579
( 0.01)( 0.60 ) + ( 0.08 )( 0.40 )

, La probabilidad de que el estudiante de ms de 1.75 metros escogido al azar sea


mujer es de 15.79%.
a) Sea hombre:

P(H E) =
P(H E) =

P(E H ) P(H )

P(E M ) P(M ) + P(E H ) P(H )

( 0.08 ) ( 0.40 )
= 0.8421
( 0.01)( 0.60 ) + ( 0.08 )( 0.40 )

, Dicho resultado tambin puede alcanzarse por evento complemento gracias a que
el fenmeno posee slo dos eventos ajenos:

P ( H E ) = P ( M c E ) = 1 P ( M E ) = 1 0.1579 = 0.8421

32

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
, En conclusin, dado que el estudiante elegido al azar mide ms de 1.75 m., la
probabilidad de que sea hombre es de 84.21%.
3.
Supngase ahora que la proporcin de personas que en una comunidad
padece cierta enfermedad ( E ) es muy pequea (0.005); no obstante, se ha
desarrollado una prueba para diagnosticarla. Si un individuo le padece, la probabilidad
de que la prueba d positivo ( + ) es de 0.99, mientras que, si la persona no est
enferma, la probabilidad de que la prueba d una seal positiva ( + ) es de 0.01. Cul
es entonces la probabilidad de que:
a) el sujeto est realmente enfermo porque la prueba dio positivo?
b) la persona no est enferma, aunque la prueba haya resultado positiva?
c) el individuo padezca la enfermedad, pese a que la prueba sea negativa?
d) el sujeto no est enfermo, pues la prueba sali negativa?
DATOS
Probabilidad de que una persona
P( E ) = 0.005
padezca la enfermedad:
, Se infiere la probabilidad de que una
P( E c ) = 1 P ( E ) = 1 0.005 = 0.995
persona NO padezca la enfermedad:
Probabilidad de que, dado que el
P (+ | E ) = 0.99
individuo est enfermo, aparezca una
prueba positiva:
, Se infiere la probabilidad de que la
prueba sea negativa, aunque el sujeto
P (+ c | E ) = 1 P(+ | E ) = 1 0.99 = 0.01
padezca la enfermedad:
Probabilidad de que, dado que el
individuo NO est enfermo, aparezca una
P (+ | E c ) = 0.01
prueba positiva:
, Se infiere la probabilidad de que la
prueba sea negativa, dado que el sujeto P (+ c | E c ) = 1 P (+ | E c ) = 1 0.01 = 0.99
no est enfermo:
En vistas de que buscamos de nuevo la probabilidad condicional, aplicamos el
teorema de Bayes:

P ( B j A) =

TEOREMA DE
BAYES

P A Bj P ( Bj )

P( A B ) P(B )
k

i =1

a) el sujeto est realmente enfermo porque la prueba dio positivo?

P( E | +) =
P( E | +) =

P(+ | E ) P( E )
P(+ | E ) P( E ) + P(+ | E c ) P( E c )

( 0.99 )( 0.005)
= 0.3322
( 0.99 )( 0.005) + ( 0.01)( 0.995 )

, La probabilidad de que el sujeto est realmente enfermo dado que la prueba dio
positivo es de 33.22%.

33

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
b) la persona no est enferma, aunque la prueba haya resultado positiva?

P( E c | +) =
P( E c | +) =

P(+ | E c ) P( E c )
P(+ | E c ) P( E c ) + P(+ | E ) P( E )

( 0.01)( 0.995)
= 0.6678
( 0.01)( 0.995) + ( 0.99 )( 0.005)

O bien, por evento complemento:

P( E | + ) = 1 P( E | + ) = 1 0.3322 = 0.6678
c

, La probabilidad de que la persona no est enferma, aunque la prueba haya


resultado positiva, es de 66.78%. Es decir, la probabilidad de un falso positivo es
bastante alta y debera buscarse una forma de confirmar el resultado de la prueba.
c) el individuo padezca la enfermedad, pese a que la prueba sea negativa?

P( E | + c ) =
P( E | + c ) =

P(+ c | E ) P( E )
P(+ c | E ) P( E ) + P(+ c | E c ) P( E c )

( 0.01)( 0.005)
= 0.00005
( 0.01)( 0.005) + ( 0.99 )( 0.995)

, La probabilidad de que el individuo padezca la enfermedad, pese a un resultado


negativo en la prueba, es de 0.005%. Por lo cual podemos afirmar que la probabilidad
de un falso negativo es muy pequea.
d) el sujeto no est enfermo, pues la prueba sali negativa?

P ( E c | + c ) = 1 P ( E | + c ) = 1 0.00005 = 0.99995
, La probabilidad de que el sujeto no est enfermo dado que la prueba sali negativa
es de 99.99%.
4.

Digamos que una poblacin est conformada por tres grupos tnicos

= ( X , Y , Z ) en la siguiente proporcin: 0.30, 0.10 y 0.60. Si el porcentaje de


personas con ojos claros ( C ) en cada grupo es, respectivamente, de 20%, 40% y 5%,
calcular la probabilidad de que:
a) Un sujeto de dicha comunidad entrevistado al azar tenga los ojos claros.
b) Un individuo de esa comunidad (elegido al azar) tenga los ojos oscuros y sea del
grupo X.
c) La persona seleccionada sea de uno de los tres grupos, si tiene los ojos claros.
DATOS
Probabilidad de que el sujeto pertenezca
al grupo X:
Probabilidad de que el sujeto pertenezca
al grupo Y:
Probabilidad de que el sujeto pertenezca
al grupo Z:
Probabilidad de que tenga los ojos claros,
dado que pertenece al grupo X:

P ( X ) = 0.3
P (Y ) = 0.1

P( Z ) = 0.6
P (C | X ) = 0.2

34

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Probabilidad de que tenga los ojos claros,
dado que pertenece al grupo Y:
Probabilidad de que tenga los ojos claros,
dado que pertenece al grupo Z:

P(C | Y ) = 0.4
P(C | Z ) = 0.05

Para contestar el primer inciso requerimos la probabilidad total del evento ojos claros,
por ende aplicamos la ley de probabilidad total:

LEY DE PROBABILIDAD TOTAL

P ( A) = P A B j P ( B j )
j =1

a) Un sujeto de dicha comunidad entrevistado al azar tenga los ojos claros:

P ( C ) = P ( C X ) P ( X ) + P ( C Y ) P (Y ) + P ( C Z ) P ( Z )

P ( C ) = ( 0.2 )( 0.3) + ( 0.4 )( 0.1) + ( 0.05 )( 0.6 ) = 0.1300


, La probabilidad de que el sujeto entrevistado tenga los ojos claros es de 13.00%.
Y a partir de ello podemos calcular la probabilidad de que tenga ojos oscuros:

P ( C c ) = 1 P ( C ) = 1 0.1300 = 0.8700

, La probabilidad de que el sujeto tenga los ojos oscuros es de 87.00%.


Ahora bien, como el problema nos especifica la probabilidad de que un individuo tenga
los ojos claros y sea del grupo X, basta calcular el evento complemento para asignar la
siguiente probabilidad:
b) Un individuo de esa comunidad (elegido al azar) tenga los ojos oscuros y sea
del grupo X:

P (C c | X ) = 1 P(C | X ) = 1 0.2 = 0.8000


, La probabilidad de que el individuo tenga los ojos oscuros y sea del grupo X es de
80.00%.
Finalmente buscamos las probabilidades condicionales inversas. No obstante, cabe
observar que hemos simplificado el denominador, pues la probabilidad total del evento
consecuencia fue ya determinada:
c) La persona seleccionada sea de uno de los tres grupos, si tiene los ojos
claros:

P( X | C ) =

P(C | X ) P ( X ) ( 0.2 )( 0.3)


=
= 0.4615
P(C )
( 0.13)

P(Y | C ) =

P(C | Y ) P(Y ) ( 0.4 )( 0.1)


=
= 0.3077
P(C )
( 0.13)

P(Z | C ) =

P (C | Z ) P( Z ) ( 0.05 )( 0.6 )
=
= 0.2308
P(C )
( 0.13)

, La probabilidad de que una persona sea del grupo X, Y o Z es, respectivamente:


46.15%, 30.77% y 23.08%. Por tanto, es ms probable que una persona de ojos
claros sea del grupo X.

35

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

3. VARIABLES ALEATORIAS
Una variable aleatoria es una caracterstica en la cual los valores que toma dependen
de los resultados de un fenmeno aleatorio. Las variables aleatorias pueden ser slo
de dos clases:
1. Discretas: Si la variable aleatoria tiene un nmero finito de valores posibles.
2. Continuas: Si existe un nmero infinito de valores posibles para dicha variable.
Por ejemplo:
FENMENO

= {guila,sol}

Se lanza una moneda

VARIABLE ALEATORIA (discreta)


Sea X la variable aleatoria discreta
que toma los siguientes valores:
X = 0,1

X = 0 si cae guila, 1 si cae sol

FENMENO

= {mujer,hombre}

Nace un beb

VARIABLE ALEATORIA (discreta)


Sea X la variable aleatoria discreta
que toma los siguientes valores:
X = 0,1

X = 0 si es mujer, 1 si es hombre

Caracterizacin de una variable aleatoria discreta


Funcin de distribucin de probabilidades
Se denomina funcin de probabiidades a la tabla donde se especifican todos los
valores que la variable aleatoria discreta puede tomar, as como sus correspondientes
probabilidades (cuya suma siempre es igual a uno
P ( x ) = 1 ).

Dichos valores pueden ser adems representados mediante una grfica de


distribucin de probabilidad, en cuyos ejes ( X , Y ) se ubican los valores de la
variable y sus valores de probabilidad, respectivamente; razn por la cual, a diferencia
del eje Y , el eje X s puede tomar valores negativos.
Siguiendo con los ejemplos, su tabla y grfica distribucin de probabilidades seran:
FUNCIN

LANZAMIENTO DE UNA MONEDA


GRFICA

P ( x)

x=0

P ( x = 0 ) = 0.5

x =1

P ( x = 1) = 0.5

Grfica de distribucin de probabilidades


1.0

36

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

TOTAL

P ( x ) = P ( x = 0 ) +P ( x = 1)
P ( x ) = 0.5 + 0.5
P ( x) = 1
NACIMIENTO DE UN BEB
FUNCIN

GRFICA

P ( x)

x=0

P ( x = 0 ) = 0.493

x =1

P ( x = 1) = 0.507

Grfica de distribucin de probabilidades


0.510

TOTAL

P(x)

0.505

P ( x ) = P ( x = 0 ) +P ( x = 1)
P ( x ) = 0.493 + 0.507
P ( x) = 1

0.500

0.495

0.490
-5

-4

-3

-2

-1

Esperanza matemtica: promedio o valor esperado


Ahora bien, la esperanza de una variable aleatoria discreta es el promedio de los
valores de X que toma en cuenta la probabilidad de que stos ocurran. Por ello es
que, a fin de calcular la esperanza de una variable aleatoria, sus valores deben
ponderarse de acuerdo a sus probabilidades.
Para el caso de la moneda:
LANZAMIENTO DE UNA MONEDA

x=

0 +1 1
= = 0.5
2
2

Que tambin puede entenderse como:

x=

ESPERANZA

0 +1 0 1 1
= + = = 0.5
2
2 2 2

Lo cual es igual a:

x=

0 +1 0 1
1 1 1
= + = 0 + 1 = = 0.5
2
2 2
2 2 2

De ah que, para obtener el promedio, podemos multiplicar el valor de X por su


probabilidad:
NACIMIENTO DE UN BEB
ESPERANZA

x = 0 ( 0.493) + 1( 0.507 ) = 0.507

37

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
La esperanza de una variable aleatoria discreta cualquiera es, por ende:
ESPERANZA DE UNA
VARIABLE ALEATORIA X CON
FUNCIN DE PROBABILIDAD P ( x )

E ( x ) = x = x P ( x )
x

Comprobemos su aplicacin con los ejemplos anteriores:


LANZAMIENTO DE UNA MONEDA

E ( x ) = x = x P ( x )
x

E ( x) = x P ( x)

ESPERANZA

x =0

E ( x ) = 0 ( 0.5 ) + 1( 0.5 ) = 0.5


NACIMIENTO DE UN BEB

E ( x ) = x = x P ( x )
x

E ( x) = x P ( x)

ESPERANZA

x =0

E ( x ) = 0 ( 0.493) + 1( 0.507 ) = 0.507


Varianza
Igual que la varianza de una variable cualquiera, la varianza de una variable aleatoria
discreta X con funcin de probabilidad P ( x ) es el promedio de la resta de los
valores con respecto a su media (en este caso, esperanza) elevada al cuadrado para
evitar signos:
Varianza de una variable cualquiera
n

s =
2

(x
i =1

x)

n 1

Varianza de una variable aleatoria

Var ( x ) = E x E ( x )

Y se puede demostrar que ello deviene en:

VARIANZA DE UNA
VARIABLE ALEATORIA X CON
FUNCIN DE PROBABILIDAD P ( x )

Var ( x ) = E ( x 2 ) E ( x )

( ) x

Donde: E x 2 =

P ( x)

38

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Apliqumoslo a nuestros ejemplos:
LANZAMIENTO DE UNA MONEDA

Var ( x ) = E ( x 2 ) E ( x )

VARIANZA

Elementos que la componen

E ( x2 ) = x2 P ( x )
x

E ( x2 ) = x2 P ( x )
1

E(x

E(x

x =0

) = 0 ( 0.5) + 1 ( 0.5)
2

E ( x 2 ) = 0 ( 0.5 ) + 1( 0.5 ) = 0.5

E ( x )

E ( x ) = ( 0.5 ) = 0.25
Var ( x ) = 0.5 0.25 = 0.25

VARIANZA ,

NACIMIENTO DE UN BEB

Var ( x ) = E ( x 2 ) E ( x )

VARIANZA

Elementos que la componen

E ( x2 ) = x2 P ( x )
x

E ( x2 ) = x2 P ( x )
1

E(x

E(x

x =0

) = 0 ( 0.493) + 1 ( 0.507 )
2

E ( x 2 ) = 0 ( 0.493) + 1( 0.507 ) = 0.507

E ( x )

E ( x ) = ( 0.507 ) = 0.257
Var ( x ) = 0.507 0.257 = 0.250

VARIANZA ,

Recapitulando, se dice que se conoce una variable aleatoria (cuyo valor est sometido
al azar y recibe una asignacin numrica en el contexto de los resultados de un
fenmeno aleatorio) si se le caracteriza mediante:
1. Su funcin de probabilidades P ( x ) , donde
2. Su esperanza E ( x ) =

x P(x ) .
x

( )

P(x ) = 1 .

( ) x

3. Su varianza Var ( x ) = E x 2 [E ( x )] , donde E x 2 =


2

P ( x) .

Ejemplos de aplicacin
1.
Se tiran dos dados no trucados. Sea X la variable aleatoria que denota los
valores resultantes de:
a) La suma de sus puntos.
b) La resta de sus puntos.
c) El producto de sus puntos.

39

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Caracterizar la variable aleatoria X para cada caso.
Dado que el fenmeno es el mismo, conviene primero analizar su espacio muestral:

(1,1), (1,2 ), (1,3), (1,4 ), (1,5), (1,6 ), (2,1), (2,2 ), (2,3), (2,4 ), (2,5), (2,6 ),

= (3,1), (3,2 ), (3,3), (3,4 ), (3,5), (3,6 ), (4,1), (4,2 ), (4,3), (4,4 ), (4,5), (4,6 ),
(5,1), (5,2 ), (5,3), (5,4 ), (5,5), (5,6 ), (6,1), (6,2 ), (6,3), (6,4 ), (6,5), (6,6 ),

# = 36

Ahora, para resolver el primer inciso, observemos los valores que toma la variable
aleatoria:
X = Suma de puntos de dos dados.
Puntos muestrales
Valor de X
(1,1)
2
(1,2), (2,1)
3
(1,3), (2,2), (3,1)
4
(1,4), (2,3), (3,2), (4,1)
5
(1,5), (2,4), (3,3), (4,2), (5,1)
6
(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)
7
(2,6), (3,5), (4,4), (5,3), (6,2)
8
(3,6), (4,5), (5,4), (6,3)
9
(4,6), (5,5), (6,4)
10
(5,6), (6,5)
11
(6,6)
12
TOTAL

No. de eventos
1
2
3
4
5
6
5
4
3
2
1
36

Hecho esto, podemos construir ya su tabla y grfica de funcin de probabilidades:


2
1/36

3
2/36

P(x) para X = Suma de puntos de dos dados.


4
5
6
7
8
9
10
11
3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36

12
1/36

36/36
=1

Distribucin de probabilidad (SUMA)


1/5
1/6

3/20
P(x)

x
P(x )

5/36

5/36

1/9

1/10

1/9

1/12

1/12

1/18

1/20

1/18

1/36

1/36

0
0

10

12

14

40

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Resta entonces calcular su esperanza y varianza:
ESPERANZA: X = Suma de puntos de dos dados.
12

E ( x) = x P ( x)
x=2

1 2 3 4 5 6
2 36 + 3 36 + 4 36 + 5 36 + 6 36 + 7 36

E ( x) =

5 4
3
2
1
+8 + 9 + 10 + 11 + 12
36 36
36
36
36

E ( x) =

2 + 6 + 12 + 20 + 30 + 42 + 40 + 36 + 30 + 22 + 12 252
=
=7
36
36

VARIANZA: X = Suma de puntos de dos dados.


Elementos que la componen

E ( x2 ) = x2 P ( x )
12

x=2

2 1 2 2 2 3 2 4 2 5 2 6
2 36 + 3 36 + 4 36 + 5 36 + 6 36 + 7 36






2
E(x ) =

2 5
2 4
2 3
2 2
2 1
+8 + 9 + 10 + 11 + 12
36
36
36
36
36

E ( x2 )

1 2
4
5
6
3
4 36 + 9 36 + 16 36 + 25 36 + 36 36 + 49 36





E ( x2 ) =

5
4
3
2
1
+64 + 81 + 100 + 121 + 144
36
36
36
36
36

E ( x2 ) =

4 + 18 + 48 + 100 + 180 + 294 + 320 + 324 + 300 + 242 + 144


36

E ( x2 ) =
E ( x )
,

1974
= 54.83
36

E ( x ) = ( 7 ) = 49
Var ( x ) = 54.83 49 = 5.83
2

Claro est que tanta operacin no sirve de nada si los resultados no son
adecuadamente interpretados:
CONCLUSIONES: X = Suma de puntos de dos dados.
a) , A partir de todo lo anterior comprendemos que, de los treinta y seis resultados
posibles, su suma puede tomar 11 valores, siendo el mnimo 2 y el mximo 12.

41

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Empero, como puede verse en la funcin de probabilidades y en la esperanza, el
valor que mayor posibilidad tiene de salir al repetir varias veces el experimento es el 7
(6/36); no por nada se es el nmero de la casa en los casinos. Por su parte, la
varianza nos indica que la dispersin de los valores con respecto al 7 es de 5.83.
Resolvamos ahora los otros dos incisos:
X = Resta de puntos de dos dados.
Puntos muestrales
Valor de X
(1,6)
-5
(1,5), (2,6)
-4
(1,4), (2,5), (3,6)
-3
(1,3), (2,4), (3,5), (4,6)
-2
(1,2), (2,3), (3,4), (4,5), (5,6)
-1
(1,1), (2,2), (3,3), (4,4), (5,5), (6,6)
0
(2,1), (3,2), (4,3), (5,4), (6,5)
1
(3,1), (4,2), (5,3), (6,4)
2
(4,1) (5,2), (6,3)
3
(5,1) (6,2)
4
(6,1)
5
TOTAL

No. de eventos
1
2
3
4
5
6
5
4
3
2
1
36

P(x) para X = Resta de puntos de dos dados.

x
-5
-4
-3
-2
-1
0
1
2
3
4
5
2
25
16
9
4
1
0
1
4
9
16
25 36/36
x
=1
P( x ) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Distribucin de probabilidad (RESTA)


1/6
5/36

5/36

P(x)

1/9

1/9

1/12

1/12

1/18

1/18

1/36
-6

-4

1/36
-2

0
x

ESPERANZA: X = Resta de puntos de dos dados.


E ( x) =

x P ( x)

x =5

1
2
3
4
5 6
5 36 + 4 36 + 3 36 + 2 36 + 1 36 + 0 36





E ( x) =

5 4 3 2 1
+1 + 2 + 3 + 4 + 5

36 36 36 36 36

E ( x) =

( 5) + ( 8) + ( 9 ) + ( 8) + ( 5) + 0 + 5 + 8 + 9 + 8 + 5 =
36

0
=0
36

42

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
VARIANZA: X = Resta de puntos de dos dados.
Elementos que la componen

E ( x2 ) = x2 P ( x )
12

x=2

1
2 3 4 5 6
25 36 + 16 36 + 9 36 + 4 36 + 1 36 + 0 36


E ( x2 ) =

5 4 3
2
1
+1 + 4 + 9 + 16 + 25

36 36 36
36
36

E ( x2 )

E ( x2 ) =

25 + 32 + 27 + 16 + 5 + 0 + 5 + 16 + 27 + 32 + 25
36

E ( x2 ) =
E ( x )
,

210
= 5.83
36

E ( x ) = ( 0 ) = 0
2

Var ( x ) = 5.83 0 = 5.83

CONCLUSIONES: X = Resta de puntos de dos dados.


b) , De los treinta y seis resultados posibles, su resta puede tomar 11 valores (el
mnimo -5 y el mximo 5). Si bien existe una variabilidad de 5.83 en los valores
posibles, el valor esperado en la repeticin del ensayo es 0.
P(x) de X = Producto de puntos de dos dados.
x
Puntos muestrales
No. de eventos
x2
(1,1)
1
1
1
(1,2), (2,1)
4
2
2
(1,3), (3,1)
9
2
3
(1,4), (2,2), (4,1)
16
3
4
(1,5), (5,1)
25
2
5
(1,6), (2,3), (3,2), (6,1)
36
4
6
(2,4), (4,2)
64
2
8
(3,3)
81
1
9
(2,5), (5,2)
100
2
10
(2,6), (3,4), (4,3), (6,2)
144
4
12
(3,5), (5,3)
225
2
15
(4,4)
256
1
16
(3,6), (6,3)
324
2
18
(4,5), (5,4)
400
2
20
(4,6), (6,4)
576
2
24
(5,5)
625
1
25
(5,6), (6,5)
900
2
30
(6,6)
1296
1
36
TOTAL
36

P(x)
1/36
2/36
2/36
3/36
2/36
4/36
2/36
1/36
2/36
4/36
2/36
1/36
2/36
2/36
2/36
1/36
2/36
1/36
36/36=1

43

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Distribucin de probabilidad (PRODUCTO)
3/25
1/10
P(x)

2/25
3/50
1/25
1/50
0
0

10

15

20

25

30

35

40

ESPERANZA: X = Producto de puntos de dos dados.


36

E ( x) = x P ( x)
x =1

1 2 2 3 2 4 2
1 36 + 2 36 + 3 36 + 4 36 + 5 36 + 6 36 + 8 36

1
2
4
2
1
2
E ( x ) = +9 + 10 + 12 + 15 + 16 + 18
36
36
36
36
36
36

2
2
1
2
1
+20 + 24 + 25 + 30 + 36

36
36
36
36
36

E ( x) =

1 + 4 + 6 + 12 + 10 + 24 + 16 + 9 + 20 + 24 + 30 + 16 + 36 + 40 + 48 + 25 + 60 + 36
36
E ( x) =

417
= 11.58
36

44

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
VARIANZA: X = Producto de puntos de dos dados.
Elementos que la componen

E ( x2 ) = x2 P ( x )
36

x =1

1 2 2
3
2
4
2
1 36 + 4 36 + 9 36 + 16 36 + 25 36 + 36 36 + 64 36




1
2
4
2
1
2
E ( x 2 ) = +81 + 100 + 144 + 225 + 256 + 324
36
36
36
36
36
36

1
2
1
2
2
+400 + 576 + 625 + 900 + 1296

36
36
36
36
36

E ( x2 )

1 + 8 + 18 + 48 + 50 + 144 + 128 + 81 + 200 + 576

+450 + 256 + 648 + 800 + 1152 + 625 + 1800 + 1296

2
E(x ) =
36
E ( x2 ) =

E ( x )

8281
= 230.03
36

E ( x ) = (11.58 ) = 134.10

Var ( x ) = 230.03 134.10 = 95.93

CONCLUSIONES: X = Producto de puntos de dos dados.


c) , De los treinta y seis resultados posibles, su producto puede tomar 18 valores (el
mnimo 1 y el mximo 36). El valor esperado es, no obstante, 11.58, con una varianza
de 95.93.
2.
Se lanzan una moneda y un dado. Sea X = 0 si la moneda cae sol y X = 1 si
cae guila. Asimismo, sea Y = # de puntos obtenidos al tirar el dado. Caractercese
entonces a la variable aleatoria W , definida como W = X + Y .
Si:

X = {0,1}

Y = {1,2,3,4,5,6}

W = X +Y

El espacio muestral de la variable aleatoria es:

= {( 0,1) , ( 0, 2 ) , ( 0,3) , ( 0, 4 ) , ( 0,5 ) , ( 0, 6 ) , (1,1) , (1, 2 ) , (1,3) , (1, 4 ) , (1,5) , (1, 6 )} # = 12


Y los valores que puede tomar (con su respectiva probabilidad) son:

x
x2
P(x )

P(w) de W = Suma del resultado de una moneda y un dado lanzados


1
2
3
4
5
6
7
12/12
1
4
9
16
25
36
49
=1
1/12
2/12
2/12
2/12
2/12
2/12
1/12

45

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Distribucin de probabilidad
1/5

P(w)

3/20
1/10
1/20
0
0

ESPERANZA: W = Suma del resultado de una moneda y un dado lanzados


7

E ( w) = w P ( w)
w =1

1 2 2 2 2 2 1
E ( w ) = 1 + 2 + 3 + 4 + 5 + 6 + 7
12 12 12 12 12 12 12
E ( w) =

1 + 4 + 6 + 8 + 10 + 12 + 7
12
E ( w) =

48
=4
12

VARIANZA: W = Suma del resultado de una moneda y un dado lanzados


Elementos que la componen

E ( w 2 ) = w2 P ( w )
7

w =1

1 2 2
2
2
2
1
E ( w2 ) = 1 + 4 + 9 + 16 + 25 + 36 + 49
12 12 12
12
12
12
12

E ( w2 )

E ( w2 ) =

1 + 8 + 18 + 32 + 50 + 72 + 49
12

E ( w2 ) =

E ( w )
,

230
= 19.17
12

E ( w ) = ( 4 ) = 16
2

Var ( x ) = 19.7 16 = 3.17

46

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
CONCLUSIONES: W = Suma del resultado de una moneda y un dado lanzados
, Gracias a esto comprendemos que, de los doce resultados posibles al mezclar los
puntos del dado y la moneda, su suma puede tomar 7 valores, siendo el mnimo 1 y el
mximo 7. Las probabilidades de estos dos (1/12) son menores a la de los
intermedios (2/12), pero, como su nombre lo dice, la esperanza nos indica que 4 es el
promedio o nmero esperado a obtener si se repite muchas veces el experimento,
mientras que la varianza nos seala que la dispersin del resto de los valores es de
3.17.

EJERCICIOS DE REPASO DE LA UNIDAD I


1. Escribe la definicin de los siguientes conceptos:
a)
d)
g)
j)
m)
p)

Fenmeno aleatorio
Probabilidad
Probabilidad subjetiva
Probabilidad condicional
Variable aleatoria
Funcin de probabilidad

b)
e)
h)
k)
n)
q)

Evento
Probabilidad clsica
Eventos ajenos
Ley de probabilidad total
Variable aleatoria discreta
Esperanza

c)
f)
i)
l)
o)
r)

Espacio muestral
Probabilidad frecuentista
Eventos independientes
Teorema de Bayes
Variable aleatoria continua
Varianza

2. Escribe las propiedades de probabilidad


3. Se lanza una moneda y se observa si es sol o guila. Si resulta sol, la moneda se
lanza por segunda ocasin. Si resulta guila se tira un dado.
a) Escribe el espacio muestral para este experimento
b) Cul es la probabilidad de que en la segunda parte de este experimento se lance
un dado?
4. Determinar la probabilidad para cada uno de los siguientes eventos
a) La aparicin de un nmero impar en una tirada de un dado.
b) La aparicin de un sol en dos lanzamientos de una moneda.
c) La aparicin de un as, o el diez de diamantes, o el dos de corazones en una
extraccin de una baraja de 52 cartas.
d) La obtencin de 7 puntos en una tirada de un par de dados.
e) La aparicin de sol en el siguiente lanzamiento de una moneda, si en 100
lanzamientos previos aparecieron 56 guilas.
5. Determinar si cada una de las siguientes parejas de eventos son o no
mutuamente excluyentes (ajenos):
a) Se tiran cinco monedas: se observa un sol; se observa al menos un sol
b) Un antroplogo fsico toma la estatura de una persona: la estatura es superior a
165 cm.; la estatura es mayor de 175 cm.
c) Un estudiante es seleccionado en la ENAH: la persona elegida es hombre; la
persona elegida es mayor de 21 aos.
d) Se lanzan dos dados. El total de puntos obtenidos es:
d.1) menor que 7; mayor que 9
d.2) es par; es impar
d.3) siete; nueve
6. Supngase que el 80% de todos los capitalinos que vacacionan en alguna playa
visitan Acapulco, 80% visitan Veracruz y 70% visitan tanto Acapulco como
Veracruz.
a) Cul es la probabilidad de que un turista capitalino vacacione en Acapulco o
Veracruz?
b) Cul es la probabilidad de que el turista no visite ninguna de estas ciudades?
7. Determine si las siguientes parejas de eventos son independientes o no:

47

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

a) Lanzar un par de dados y observar un punto en el primer dado y un punto en el


segundo dado.
b) Ser propietario de un automvil rojo y tener el cabello rubio.
c) Ser propietario de un automvil rojo y sufrir una picadura de llanta.
d) Estudiar para un examen y aprobarlo.
8. Si p(A)=0.3, p(B)=0.4 y si A y B son eventos independientes, cul es el valor de
cada una de las siguientes probabilidades?
a) p(AB)
b) p(A|B)
c) p(B|A)
9. Si p(A)=0.3, p(B)=0.5 y p(AB)=0.15, calcular:
a) p(A|B) b) p(B|A)
c)son independientes A y B?
10. Si p(A)=0.4, p(B)=0.7 y p(AB)=0.22, calcular:
a) p(A|B) b) p(B|A)
c)son independientes A y B?
11. En la siguiente tabla se presentan los resultados de una encuesta durante una
investigacin para estudiar las opiniones de los habitantes de cierta ciudad
respecto a la legalizacin del aborto. Los datos estn clasificados de acuerdo
con el rea en la que fue aplicada la entrevista. Si un cuestionario es elegido
aleatoriamente,
I. cul es la probabilidad de que:
a) El entrevistado vote a favor de la legalizacin del aborto?
b) El entrevistado vote en contra de la legalizacin?
c) El entrevistado se abstenga?
d) Que el entrevistado viva en el rea A? B? C? D? E?
e) El entrevistado vote a favor de la legalizacin del aborto dado que vive en el
rea B?
II) Calcular las siguientes probabilidades
a) P(AR)
b)P(QR)
c) P(D)
d) P(Q|D)
e)P(B|R)
f)P(R)
g)P(A)
h)P(FE)
i)P(R|A)
j) P(FQR)
k)P(BE)
rea de la ciudad A favor (F)
100
A
115
B
50
D
35
E

En contra (Q)
20
5
60
50

Indecisos (R)
5
5
15
125

12. Por descuido se colocan dos pastillas para el resfriado en un frasco que
contiene dos aspirinas. Las cuatro pastillas son idnticas en apariencia. Del
frasco se selecciona una tableta al azar y se le administra al primer paciente. De
las tres tabletas restantes se selecciona una al azar y se administra al segundo
paciente.
a) Escribir el espacio muestral
Calcula la probabilidad de que:
b) El primer paciente tom una pastilla para el resfriado
c) Uno de los dos pacientes tom una tableta para el resfriado
d) Ningn paciente tom una tableta contra el resfriado
13. Supngase que la Cd. de Mxico se divide en tres zonas A, B y C de acuerdo al
nivel de contaminacin. El 50% de la poblacin vive en la zona A, el 40% en B
y el resto en C. El nivel de contaminacin influye en la incidencia de cierta
enfermedad pulmonar, dicha enfermedad afecta a 10 de cada 100 personas que
viven en A, mientras que slo afecta a 1 de cada 100 de los que viven en B y a 5
de cada 1000 de los que viven en C. Calcular:

48

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

a) La probabilidad de que una persona elegida al azar sufra la enfermedad y viva en


la zona A.
b) La probabilidad de que una persona elegida al azar viva en la zona B sabiendo
que est afectada por dicha enfermedad.
14. Una prueba sangunea para detectar hepatitis tiene los siguientes niveles de
precisin: si el individuo tiene hepatitis, la prueba da positivo con probabilidad
0.9, mientras que en el 99% de los individuos sin hepatitis la prueba da
negativo.
a) La tasa de incidencia de la enfermedad en la poblacin estudiada es de un
enfermo por cada 10,000 personas. Calcular la probabilidad de que un individuo
que ha dado positivo en la prueba tenga hepatitis.
b) Un individuo es enviado a hacerse la prueba porque tiene prdida de apetito e
ictericia. El mdico sabe que el 50% de los individuos con dichos sntomas
presentan hepatitis. Si la prueba da positivo, cul es la probabilidad de que el
paciente tenga hepatitis?
15. Una variable aleatoria x puede asumir cinco valores: 0, 1,2 3 y 4. Se muestra
enseguida una parte de de la distribucin de probabilidad:
0
1
2 3
4
x
p(x) 0.1 0.3 0.3 ? 0.05
a) Encuentra p(3)
b) Realiza una grfica de probabilidad para describir p(x)
c) Calcula esperanza y varianza
d) Cul es la probabilidad de que x sea mayor de 2?
e) Cul es la probabilidad de que x sea 3 o menos?
16. Verifique si las siguientes expresiones son o no funciones de probabilidad:
5 x
a) p ( x) =
para x=1,2,3,4
10
x2 1
para x=1,2,3,4
b) p( x) =
50
17. Sea X la variable aleatoria que representa el nmero de nios varones en
familias de tres hijos, sabiendo que la probabilidad de que nazca un nio varn
es de 0.45:
a) Encontrar la funcin de distribucin de probabilidades.
b) Graficar la funcin de probabilidad
c) Calcular Esperanza y Varianza.

49

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

UNIDAD II
4. FUNCIONES DE DISTRIBUCIN DE PROBABILIDAD
Introduccin
A fin de explicar las variables aleatorias y su caracterizacin, en el captulo anterior
vimos el ejemplo del nacimiento de un beb:
FENMENO: Nacimiento de un beb

X = 0 si es mujer, 1 si es hombre
X = 0,1

= {mujer,hombre}

FUNCIN DE PROBABILIDAD [P(x)] de X = Nacimiento de un beb

P ( x)

x=0

P ( x = 0 ) = 0.493

x =1

P ( x = 1) = 0.507

TOTAL

P ( x ) = P ( x = 0 ) +P ( x = 1)
P ( x ) = 0.493 + 0.507
P ( x) = 1

Otra forma de expresar su funcin de probabilidades P ( x ) es mediante una expresin


matemtica:

P ( x ) = 0.493x ( 0.507 )

1 x

; x = 0,1

Puesto que, si le sustituimos con los valores de la variable aleatoria, tambin


obtenemos la probabilidad correspondiente a cada valor de X :

P ( x = 0 ) = 0.4930 ( 0.507 )

1 0

P ( x = 1) = 0.4931 ( 0.507 )

11

Porque

= 1 ( 0.507 ) = 1 ( 0.507 ) = 0.507


1

= 0.493 ( 0.507 ) = 0.493 (1) = 0.493


0

a0 = 1

a1 = a

Ahora bien, igual que en este caso, la funcin de probabilidades de todas las variables
aleatorias dicotmicas (que toman dos valores: 0 y 1), puede expresarse a travs del
siguiente modelo:

P(x p ) = p x (1 p ) ; x = 0,1
1 x

De hecho, el estudio de muchos fenmenos ha permitido formular modelos tericos


para determinar la funcin de probabilidad, la esperanza y la varianza de muchos tipos
de variables aleatorias (discretas y continuas).
Los que veremos a continuacin son slo algunos, pero deber recordarse que cada
uno est fundamentado en un criterio; motivo por el cual se afirmar que cada variable
posee un tipo de distribucin con cierto parmetro. Por ejemplo:
A~B(C)

La variable A posee una distribucin B con parmetro C.

50

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
De entrada, veamos entonces tres modelos de distribucin de probabilidad para
variables aleatorias discretas dicotmicas que pueden utilizarse en tres casos: cundo
se desea calcular probabilidades de slo un ensayo, cuando se realizan varios
ensayos y cuando el nmero de ensayos es muy grande.
Distribucin Bernoulli

X ~ Be ( p )

Cuando la variable aleatoria de un fenmeno tiene slo dos resultados posibles


mutuamente excluyentes (0 y 1) y se realiza un ensayo, se designa arbitrariamente
xito1 a la aparicin de la caracterstica de inters y fracaso a la ausencia de dicha
caracterstica.
Por convencin, el valor de la variable aleatoria en el xito es 1 y su probabilidad es p,
mientras que su valor en el fracaso es 0 y su probabilidad es q, que (al ser eventos
ajenos) es igual a 1-p.
Dicho esto podemos afirmar que las variables aleatorias discretas que cumplen con
tales condiciones tienen una distribucin de probabilidad Bernoulli con parmetro p :

X = {0,1}

Variable aleatoria:
Valores y
probabilidades:
Distribucin de
probabilidad

P ( x = 1) = p

P ( x = 0) = q = 1 p
X ~ Be ( p )

Cuya funcin de distribucin de probabilidad obedece al siguiente modelo:

P(x p ) = p x (1 p ) ; x = 0,1
1 x

Funcin de probabilidad:

P ( x = 0 ) = p 0 (1 p )

1 0

P ( x = 1) = p1 (1 p )

= 1(1 p ) = 1(1 p ) = 1 p

11

Porque:

= p (1 p ) = p (1) = p
0

P ( x ) =P ( x = 0 ) + P ( x = 1) = (1 p ) + p = 1
x =0

Esperanza
Si el valor esperado de una variable aleatoria discreta cualquiera es:

E ( x) = x P ( x)
x

El valor esperado de una variable aleatoria discreta con distribucin Bernoulli es:
1

E ( x p ) = x P ( x ) = 0 (1 p ) + 1( p ) = p
x =0

Varianza
De igual forma, si la varianza de una variable aleatoria cualquiera es:

( )

Var ( x ) = E x 2 [E ( x )]

Debemos remarcar que esta asignacin es arbitraria y no tiene ninguna connotacin positiva. Baste el
ejemplo de los estudios de mortalidad, en que el xito es igual a la muerte de un individuo.

51

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
La varianza de una variable aleatoria discreta con distribucin Bernoulli es:

( )

Var ( x ) = E x 2 [ p ]

Y slo nos falta deducir el valor de E x 2 p para calcularle:


1

E ( x2 p ) = x2 P ( x )
x =0

E ( x p ) = 0 (1 p ) + 12 ( p )
2

E ( x 2 p ) = 0 (1 p ) + 1( p )
E ( x2 p ) = p
Por ende, la varianza de una variable aleatoria discreta con distribucin Bernoulli se
puede calcular como:

Var ( x ) = p [ p ] = p p 2 = p (1 p )
2

En resumen, para calcular las probabilidades de una variable discreta dicotmica en


un ensayo podemos utilizar el modelo de distribucin de probabilidad Bernoulli
(basado en el parmetro p ):

X ~ Be ( p )

FUNCIN DE PROBABILIDAD

P(x p ) = p x (1 p ) ; x = 0,1
1 x

E (x ) = p
Var( x ) = p(1 p )

ESPERANZA
VARIANZA

Realicemos ahora unos cuantos ejemplos:


Ejemplos de aplicacin
1.
Por se materia curricular, todos los alumnos de antropologa fsica cursan la
materia de estadstica, pero se sabe que slo el 85% de ellos aprueban. Angustiado,
un estudiante le pide ayuda para comprender cmo se comporta dicha variable.
Dado que la calificacin (aprobatoria o no) es una variable dicotmica, podemos
utilizar el modelo de distribucin Bernoulli para caracterizarle, suponiendo que aprobar
es XITO ( x = 1) y reprobar es FRACASO ( x = 0 ) :
Aprobar = XITO

CARACTERIZACIN
Reprobar = FRACASO
(
P
x
= 0) = 1 p = 1 0.85 = 0.15
=

= P(x = 1) = p = 0.85
TIPO DE
X ~ Be ( p ) X ~ Be ( p = 0.85)
VARIABLE

P ( x p ) = p x (1 p )

1 x

FUNCIN DE
PROBABILIDAD

; x = 0,1

P ( x p = 0.85 ) = 0.85 x ( 0.15 )

1 x

; x = 0,1

52

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
ESPERANZA

VARIANZA

E ( x) = p
E ( x ) = 0.85

Var ( x ) = p (1 p )
Var ( x ) = 0.85 ( 0.15 ) = 0.1275

, Aprobar o no la clase de estadstica es una variable con distribucin Bernoulli, con


un valor esperado de 0.85 y una varianza de 0.1275.
2.
Expertos consideran que la probabilidad de que Mxico pase a la final de la
prxima Copa Amrica es del 20%. Caracterice la variable (considerando un xito el
que nuestra seleccin pase) para definir la variabilidad de este resultado.
CARACTERIZACIN
Pase = XITO
No pase = FRACASO
= P(x = 1) = p = 0.20
= P( x = 0) = 1 p = 1 0.20 = 0.80
TIPO DE VARIABLE
FUNCIN DE PROBABILIDAD
ESPERANZA

X ~ Be ( p = 0.20 )
P ( x p = 0.20 ) = 0.20 x ( 0.80 )

1 x

; x = 0,1

E (x ) = 0.20
Var ( x ) = 0.20(0.80) = 0.1600

VARIANZA
, El pase de Mxico a la final de la Copa Amrica es una variable con distribucin
Bernoulli, con una verdadera esperanza de 0.20 y una variabilidad de 0.1600.
3.
Si se contesta al azar una pregunta con tres opciones, la probabilidad de elegir
la respuesta adecuada es de 1/3, y se considera al acierto como xito, cmo se
comporta esta variable?:
CARACTERIZACIN
Acertar = XITO
Errar = FRACASO
= P ( x = 1) = p = 1 3
= P ( x = 0) = 1 p = 1 1 3 = 2 3
TIPO DE VARIABLE
FUNCIN DE PROBABILIDAD
ESPERANZA
VARIANZA

X ~ Be ( p = 1 3)
P ( x p = 1 3) = (1 3) ( 2 3)
x

1 x

; x = 0,1

E ( x ) = 1 3 = 0.3333
Var ( x ) = 1 3 ( 2 3) = 2 9 = 0.2222

, Elegir al azar la respuesta correcta a una pregunta con 3 opciones es una variable
con distribucin Bernoulli, con un valor promedio de 0.3333 y una varianza de 0.2222.
4.
Durante una investigacin en la Sierra Norte de Puebla se encontr que la
probabilidad de hallar un nio en edad preescolar con algn tipo de desnutricin es del
65%. Si se selecciona al azar un individuo de esta poblacin, sea X la variable
aleatoria discreta tal que x = {0 con desnutricin, 1 sin desnutricin} :
Con desnutricin = XITO
= P(x = 1) = p = 0.65

TIPO DE VARIABLE

CARACTERIZACIN
Sin desnutricin = FRACASO
= P( x = 0 ) = 1 p = 1 0.65 = 0.35

X ~ Be ( p = 0.65)

53

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
FUNCIN DE PROBABILIDAD
ESPERANZA

P ( x p = 0.65 ) = 0.65x ( 0.35 )

1 x

; x = 0,1

E (x ) = 0.65
Var (x ) = 0.65(0.35) = 0.2275

VARIANZA
, El que un nio en edad preescolar de la Sierra Norte de Puebla presente
desnutricin es una variable con distribucin Bernoulli, con un promedio de 0.65 y
una varianza de 0.2275.
5.
Si la presencia de patologas o marcadores es considerado un XITO en el
estudio de restos osteolgicos, caracterice las siguientes variables aleatorias de
acuerdo a la informacin que se aporta:
a) Se tiene una coleccin de esqueletos donde la probabilidad de que un crneo
manifieste trepanacin es del 5%.
CARACTERIZACIN
Presencia = XITO
Ausencia = FRACASO
(
)
(
= P x = 1 = p = 0.05
= P x = 0) = 1 p = 1 0.05 = 0.95
TIPO DE VARIABLE
FUNCIN DE PROBABILIDAD
ESPERANZA

X ~ Be ( p = 0.05)
P ( x p = 0.05 ) = 0.05x ( 0.95 )

1 x

; x = 0,1

E (x ) = 0.05
Var (x ) = 0.05(0.95) = 0.0475

VARIANZA
, La presencia de trepanacin en un crneo de esta coleccin es una variable con
distribucin Bernoulli, con un valor esperado de 0.05 y una varianza de 0.0475.
b) Dentro de una muestra estudiada, la probabilidad de que un crneo presente criba
orbitaria es de 35%.
CARACTERIZACIN
Presencia = XITO
Ausencia = FRACASO
= P(x = 1) = p = 0.35
= P( x = 0) = 1 p = 1 0.35 = 0.65
TIPO DE FENMENO
FUNCIN DE PROBABILIDAD
ESPERANZA

X ~ Be ( p = 0.35)
P ( x p = 0.35 ) = 0.35x ( 0.65 )

1 x

; x = 0,1

E (x ) = 0.35
Var (x ) = 0.35(0.65) = 0.2275

VARIANZA
, La presencia de criba orbitaria en un crneo de esta muestra es una variable con
distribucin Bernoulli, con una esperanza de 0.35 y una varianza de 0.2275.
c) Supngase que el 28% de los crneos de una coleccin de esqueletos de Cholula
presentan deformacin.
CARACTERIZACIN
Presencia = XITO
Ausencia = FRACASO
= P(x = 1) = p = 0.28
= P( x = 0) = 1 p = 1 0.28 = 0.72
TIPO DE VARIABLE
FUNCIN DE PROBABILIDAD
ESPERANZA

X ~ Be ( p = 0.28)

P(x p = 0.28) = 0.28 x (0.72) ; x = 0,1


1 x

E (x ) = 0.28
Var ( x ) = 0.28(0.72) = 0.2016

VARIANZA
, La presencia de deformacin en un crneo de la coleccin de Cholula es una

54

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
variable con distribucin Bernoulli, con un valor promedio de 0.28 y una varianza de
0.2016.
d) Se cree que en la coleccin de esqueletos La Fuentes, procedente del estado de
Colima, 12% de los individuos presentan hiperostosis portica.
CARACTERIZACIN
Presencia = XITO
Ausencia = FRACASO
= P(x = 1) = p = 0.12
= P( x = 0) = 1 p = 1 0.12 = 0.88
TIPO DE VARIABLE
FUNCIN DE PROBABILIDAD
ESPERANZA

X ~ Be ( p = 0.12 )

P(x p = 0.12) = 0.12 x (0.88) ; x = 0,1


1 x

E (x ) = 0.12
Var ( x ) = 0.12(0.88) = 0.1056

VARIANZA
, La presencia de hiperostosis portica en un individuo de la coleccin de Las
Fuentes es una variable con distribucin Bernoulli, con un promedio de 0.12 y una
varianza de 0.1056.
Distribucin binomial X ~ Bin ( n, p )
Ahora bien, si la variable aleatoria discreta es dicotmica pero en vez de una sola
observacin tenemos n nmero de casos ( xi ) , cada observacin tiene una
distribucin de probabilidad de tipo Bernoulli:
Observacin

Valores posibles

x1 = {0,1}

Tipo de variable

x2 = {0,1}

x2 ~ B ( p )

x3 = {0,1}

x3 ~ B ( p )

xn = {0,1}

x1 ~ B ( p )

xn ~ B ( p )

La variable aleatoria X a estudiar debe entonces comprender todas estas


observaciones independientes:

X = x1 + x2 + x3 + ... + xn
Por lo cual la variable aleatoria X toma valores entre cero y n :

X = {0,1, 2,3,..., n}
Y su distribucin de probabilidad est definida por el siguiente modelo Binomial con
parmetros n y p :

P ( x n, p ) = n Cx p x (1 p )

n x

; x = 0,1, 2,3,..., n

55

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Analicemos paso a paso el porqu de dicha expresin con el ejemplo de hiperostosis
portica, cuya probabilidad de presencia en un esqueleto de la coleccin de Las
Fuentes era de 12%:
Presencia = XITO
= P ( xi = 1) = p = 0.12

CARACTERIZACIN
Ausencia = FRACASO
= P ( xi = 0 ) = 1 p = 1 0.12 = 0.88

X ~ Be ( p = 0.12 )

TIPO DE VARIABLE
FUNCIN DE PROBABILIDAD

P(x p = 0.12) = 0.12 x (0.88) ; x = 0,1


1 x

E ( xi ) = 0.12

ESPERANZA

Var ( xi ) = 0.12 ( 0.88 ) = 0.1056

VARIANZA

Si un investigador toma tres esqueletos, asignando 1 a todo caso que presente


hiperostosis y 0 a todo el que no le manifieste, las posibles observaciones seran:
Caso

Escenario posible
A
B
C
D
E
F
G
H

x1

x2

x3

0
1
0
0
1
1
0
1

0
0
1
0
1
0
1
1

0
0
0
1
0
1
1
1

Y la variable aleatoria X tendra 4 valores posibles entre 0 y 3: X = {0,1, 2,3}

x1

x2

x3

x1 + x2 + x3 = X

0
1
0
0
1
1
0
1

0
0
1
0
1
0
1
1

0
0
0
1
0
1
1
1

0+0+0=0
1+0+0=1
0+1+0=1
0+0+1=1
1+1+0=2
1+0+1=2
0+1+1=2
1+1+1=3

0
1
1
1
2
2
2
3

Ahora, si en cada caso la probabilidad de acierto es igual a p y la probabilidad de


fracaso es

(1 p ) ,

como las observaciones son independientes resulta que la

probabilidad de cada valor X sera:

x1

x2

x3

x1 + x2 + x3 = X

P ( x)

P ( x)

0+0+0=0

P ( x ) = (1 p ) (1 p ) (1 p )

P ( x = 0 ) = (1 p )

56

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
1

1+0+0=1

P ( x ) = p (1 p ) (1 p )

0+1+0=1

P ( x ) = (1 p ) p (1 p )

0+0+1=1

P ( x ) = (1 p ) (1 p ) p

1+1+0=2

P ( x ) = p p (1 p )

1+0+1=2

P ( x ) = p (1 p ) p

0+1+1=2

P ( x ) = (1 p ) p p

1+1+1=3

P ( x) = p p p

2
P ( x = 1) = 3 p (1 p )

P ( x = 2 ) = 3 p 2 (1 p )

P ( x = 3) = p 3

Que en trminos del valor del parmetro p seran:

P ( x)
P ( x = 0 ) = (1 p ) = 0.883 = 0.6815
3

2
P ( x = 1) = 3 p (1 p ) = 3 ( 0.12 0.882 ) = 0.2788

2
P ( x = 2 ) = 3 p (1 p ) = 3 ( 0.12 2 0.88 ) = 0.0380

P ( x = 3) = p 3 = 0.123 = 0.0017

P ( x ) = 0.6815 + 0.2788 + 0.0380 + 0.0017 = 1


x =0

Si bien la probabilidad de los eventos totales o extremos (donde en todos los casos se
presenta o no la caracterstica) es fcil de calcular sin necesidad de la tabla, pues
simplemente se eleva la probabilidad de xito o fracaso a la potencia del nmero de
casos; la probabilidad de los eventos combinados es ms complicada de predecir.
A fin de evitar tal desarrollo puede determinarse el nmero que anteceder a las
combinaciones a partir del desarrollo de binomios. Por ejemplo:

( a + b ) = a 2 + 2ab + b 2
3
( a + b ) = a 3 + 3a 2b + 3ab 2 + b3
4
( a + b ) = a 4 + 4a3b + 6a 2b2 + 4ab3 + b4
5
( a + b ) = a5 + 5a 4b + 10a3b2 + 10a 2b3 + 5ab4 + b5
2

donde el exponente es el nmero


de casos ( n ) , en tanto que a es

(1 p )

y b es p :

n = 3 (a + b)

De hecho, se dice que la variable tiene distribucin Binomial porque su probabilidad es


un binomio elevado a la potencia del nmero de casos ( n ) .
Ahora bien, si el desarrollo de binomios resulta igual de complicado, existen otras tres
formas para descubrir el nmero que antecede a las combinaciones: una es
observando el Tringulo de Pascal:

57

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

En el cual se busca el rengln cuyo


nmero de elementos sea igual al
nmero de valores que la variable
aleatoria X puede tomar:

X = {0,1, 2,3} # X = 4

Otra es, aplicando la expresin de combinaciones:

Cx =

n!
x !( n x ) !

Sabiendo que:

n ! = n (n 1) (n 2) (n 3) ... ( 3) ( 2 ) (1)

Donde n es el nmero total de casos y


x el nmero de observaciones sobre las
cuales se desea asignar probabilidad

y que:

0! = 1

Que para el ejemplo sera:

C1 =

3!
3!
3 2 1
6
6
=
=
=
= =3
2!( 3 2 ) ! 2!(1!) ( 2 1)(1) ( 2 )(1) 2

O finalmente est la opcin de acudir a la tecla n C x de la calculadora2, que permite


determinar el nmero de combinaciones de n observaciones en conjuntos de x
elementos.
Dicho todo esto podemos comprender ya el porqu de la expresin:

P ( x n, p ) = n Cx p x (1 p )

n x

; x = 0,1, 2,3,..., n

Porque, a fin de calcular probabilidades de xito en n casos de una variable aleatoria


discreta dicotmica, debemos considerar no slo la probabilidad de xito, sino tambin
las posibles combinaciones ( n Cx ) en que se puede manifestar.
Por ejemplo, para el caso de la hiperostosis portica:
HIPEROSTOSIS PORTICA X ~ Bin ( n = 3, p = 0.12 )
FUNCIN DE PROBABILIDAD

P ( x n = 3, p = 0.12 ) = 3 Cx ( 0.12 ) ( 0.88 )


x

3 x

; x = 0,1, 2,3

PROBABILIDADES
2

La tecla puede variar de acuerdo al modelo de la calculadora, sobre todo en la letra del segundo
subndice; no obstante, siempre incluye la letra C, que le distingue de la tecla para permutaciones

Pr .
58

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

P ( x n = 3, p = 0.12 ) = 3 C0 ( 0.12 ) ( 0.88 )


0

P ( x n = 3, p = 0.12 ) = 3 C1 ( 0.12 ) ( 0.88)


2

= 3 ( 0.12 )( 0.88) = 0.2788

3 2

= 3 ( 0.12 ) ( 0.88 ) = 0.0380

P ( x n = 3, p = 0.12 ) = 3 C3 ( 0.12 ) ( 0.88 )


3

= 1(1)( 0.88 ) = 0.6815

31

P ( x n = 3, p = 0.12 ) = 3 C2 ( 0.12 ) ( 0.88 )

3 0

3 3

= 1( 0.12 ) ( 0.88 ) = 0.0017


3

, Si se analizan tres restos, existe un 68.15% de probabilidad de que ninguno


presente hiperostosis portica; un 27.88% de que slo uno la manifieste; 3.80% que
dos y slo un remoto 0.17% de probabilidad de que todos le presenten.
Esperanza
Partiendo de nuevo de la esperanza de una variable aleatoria cualquiera, sabemos
que cada observacin tiene como valor promedio:

E ( xi ) = xi P ( xi )
x

Por lo que la esperanza de la variable que les comprende es:


n

E ( x ) = xi P ( xi )
x =0

E ( x ) = x1 P ( x1 ) + x2 P ( x2 ) + x3 P ( x3 ) + ... + xn P ( xn )
E ( x ) = x1 P ( x1 ) + x2 P ( x2 ) + x3 P ( x3 ) + ... + xn P ( xn )
E ( x ) = E ( x1 ) + E ( x2 ) + E ( x3 ) + ... + E ( xn )
Que, a sabiendas de que el valor esperado de cada observacin es la probabilidad de
xito E ( xi ) = p , deviene en:

E ( x ) = p + p + p + ... + p
E ( x) = n p

Que en nuestro ejemplo sera:


HIPEROSTOSIS PORTICA

X ~ Be ( p = 0.12 )

Esperanza de
cada observacin

E ( x1 ) = 0.12

E ( x2 ) = 0.12

E ( x3 ) = 0.12

X ~ Bin ( n = 3, p = 0.12 )
E ( x ) = E ( x1 ) + E ( x2 ) + E ( x3 )

Esperanza de la
variable

E ( x ) = 0.12 + 0.12 + 0.12


E ( x ) = 3 ( 0.12 ) = 0.3600

Varianza de una variable aleatoria


De manera similar, si la varianza de una variable aleatoria con distribucin Bernoulli
es:

Var ( x ) = p (1 p )

59

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
La varianza de una variable aleatoria con distribucin Binomial es3:
n

Var ( x ) = p (1 p ) Var ( x ) = n p (1 p )
x =0

Lo que en el caso del ejemplo es:


HIPEROSTOSIS PORTICA

X ~ Be ( p = 0.12 )

Varianza de
cada
observacin

Var ( x1 ) = 0.12 ( 0.88 )

Var ( x2 ) = 0.12 ( 0.88 )

Var ( x3 ) = 0.12 ( 0.88 )

X ~ Bin ( n = 3, p = 0.12 )
Var ( x ) = Var ( x1 ) + Var ( x2 ) + Var ( x3 )

Esperanza de
la variable

Var ( x ) = 0.12 ( 0.88 ) + 0.12 ( 0.88 ) + 0.12 ( 0.88 )


Var ( x ) = 3 ( 0.12 )( 0.88 ) = 0.3168

En conclusin, el modelo de distribucin Binomial (basado en los parmetros n y p )


nos permite caracterizar y calcular las probabilidades de xito de una variable aleatoria
discreta dicotmica cuando se tiene ms de una observacin:

X ~ Bin ( n, p )
P ( x n, p ) = n Cx p x (1 p )

FUNCIN DE PROBABILIDAD

n x

; x = 0,1, 2,3,..., n

E ( x) = n p

ESPERANZA

Var ( x ) = n p (1 p )

VARIANZA

Ejemplos de aplicacin
1.
Durante la clase se aplica un examen de 5 preguntas con tres opciones cada
una. Establecer la funcin de probabilidad de ste fenmeno y calcular su esperanza y
varianza. Posteriormente, calcular la probabilidad de obtener 0, 1, 2, 3 ,4 y 5 aciertos:
DATOS GENERALES

n=5

Acertar = P( x = 1) = p = 1

TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD

ESPERANZA

Errar = P( x = 0 ) = 1 p = 1 1 = 2

3
X ~ Bin ( n = 5, p = 1 3)

P ( x n, p ) = n C x p x (1 p )

P x n = 5, p = 1
E ( x) = n p

n x

; x = 0,1, 2,3,..., n

= C ( 1 ) (2 )
3)
3
3
x

5 x

; x = 0,1, 2,3, 4,5

( 3 ) = 5 3 = 1.6667

E ( x) = 5 1

Si los eventos no fueran independientes habra que restar la covarianza.

60

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
VARIANZA

Var ( x ) = n p (1 p )

( 3 )( 2 3 ) = 10 9 = 1.1111

Var ( x ) = 5 1

a) 5 aciertos:

( 3) (23)
5

P ( x = 5 ) = 5 C5 1

5 5

= 0.0041

, La probabilidad de obtener, al azar, 5 aciertos en un examen de 5 preguntas con


tres opciones es de 0.41%.
b) 4 aciertos:

( 3) (23)
4

P ( x = 4 ) = 5 C4 1

5 4

= 0.0412

, La probabilidad de obtener, al azar, 4 aciertos en un examen de 5 preguntas con


tres opciones es de 4.12%.
c) 3 aciertos:

( 3) (23)
3

P ( x = 3) = 5 C3 1

53

= 0.1646

, La probabilidad de obtener, al azar, 3 aciertos en un examen de 5 preguntas con


tres opciones es de 16.46%.
d) 2 aciertos:

( 3) ( 3)
2

P ( x = 2 ) = 5 C2 1

5 2

= 0.3292

, La probabilidad de obtener, al azar, 2 aciertos en un examen de 5 preguntas con


tres opciones es de 32.92%.
e) 1 acierto:

( 3) ( 3)

P ( x = 1) = 5 C1 1

5 1

= 0.3292

, La probabilidad de obtener, al azar, 1 acierto en un examen de 5 preguntas con


tres opciones es de 32.92%.
f) 0 aciertos:

( ) (23 )

P( y = 0)= 5 C 0 1
3

50

= 0.1317

, La probabilidad de obtener, al azar, 0 aciertos en un examen de 5 preguntas con


tres opciones es de 13.17%.
Si comparamos las probabilidades anteriores, obtener un acierto es lo ms probable,
seguido por 2, 3 y 0 aciertos. Empero, segn la esperanza, 1.667 ser el nmero de
aciertos esperados si aplicamos el examen muchas veces.
No. aciertos
(%)

5
0.41

4
4.12

3
16.46

2
32.92

1
32.92

0
13.17

Total
100.00

Como puede verse, la suma de probabilidades es 1 (100%). Veamos por qu esta


propiedad es tan importante:

61

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Cuando nos piden la probabilidad de ms de un valor de X , debemos sumar sus
probabilidades individuales:
g) Menos de 2 aciertos:

P ( x < 2 ) = P ( x = 0 ) + P ( x = 1) = 0.1317 + 0.3292 = 0.4609

Pero cuando nos piden el evento complementario, basta con restar a 1:


h) 2 o ms aciertos:

P ( x 2 ) = 1 P ( x < 2 ) = 1 0.4609 = 0.5391

, As, sabiendo que la probabilidad de tener menos de dos aciertos es de 46.09%,


fcilmente sabemos que la probabilidad de obtener 2 o ms aciertos es el resto:
53.91%.
2.
El examen de ingreso a la ENAH posee 120 preguntas, cada una con 5
opciones, pero una est cancelada. Si el examen fuera contestado completamente al
azar, cuntas preguntas con 5 y con 4 opciones seran contestadas en promedio?
a) Con 5 opciones:
Acertar =

DATOS GENERALES

Errar = P( x = 0 ) = 1 p = 1 1 = 4
5
5
P( x = 1) = p = 1
5
TIPO DE FENMENO X ~ Bin ( n = 120, p = 1 5 )

n = 120

FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA

P x n = 120, p = 1

FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA

( 5) (45)

Cx 1

120 x

; x = 0,1, 2,...,120

( 5 ) = 120 5 = 24.0000
Var ( x ) = 120(1 )(4 ) = 480 = 19.2000
5 5
25

P( x = 1) = p = 1

TIPO DE FENMENO

120

E ( x ) = 120 1

b) Con 4 opciones:
Acertar =

n = 120

=
5)

DATOS GENERALES
Errar = P( x = 0 ) = 1 p = 1 1 = 3

4
X ~ Bin ( n = 120, p = 1 4 )

P x n = 120, p = 1

( 4) ( 3 4)

= 120 Cx 1

120 x

; x = 0,1, 2,...,120

( 4 ) = 120 4 = 30.0000
Var ( x ) = 120(1 )(3 ) = 360 = 22.5000
4 4
16
E ( x ) = 120 1

, Si las 120 preguntas fueran contestadas al azar y tuvieran 5 opciones, el promedio


de respuestas correctas sera 24, pero como slo son 4 opciones, el promedio de
aciertos aumenta a 30, lo cual implica an una calificacin reprobatoria de 2.5.
3.
Habamos comentado que la quiniela de pronsticos deportivos Progol consiste
en adjudicar el resultado de catorce partidos: local, empate o visitante. Si la planilla se
contesta al azar, cul es el nmero promedio de aciertos y cul es su varianza?

62

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Por otro lado, cul es la probabilidad de adivinar los 14 resultados y cul es la
probabilidad de no adivinar ninguno?
DATOS GENERALES

n = 14

Acertar = P( x = 1) = p = 1

Errar = P( x = 0 ) = 1 p = 1 1 = 2

3
X ~ Bin ( n = 14, p = 1 3)

TIPO DE FENMENO

FUNCIN DE
PROBABILIDAD

P x n = 14, p = 1

( 3) ( 3)

= 14 Cx 1

14 x

; x = 0,1, 2,...,14

( 3 ) = 14 3 = 4.6667
Var ( x ) = 14(1 )(2 ) = 28 = 3.1111
3 3
9
E ( x ) = 14 1

ESPERANZA
VARIANZA

a) Adivinar todos los resultados:

( 3) (23)

14 14

14

P ( x = 14 ) = 14 C14 1

= 2.0908 x107

, Con otro procedimiento mucho ms sencillo hemos calculado de nuevo que la


probabilidad de acertar al azar los 14 resultados de la quiniela es nfima: de
2.0908x10-5%. Sabiendo de ftbol esto se puede modificar, pero as tampoco se evita
las posibles trampas en la liguilla que llegan a afectar los resultados.
a) No adivinar ningn resultado:

( 3) (23)
0

P ( x = 0 ) = 14 C0 1

14 0

= 3.4255 x103

, La probabilidad de no acertar ninguno de los 14 resultados de la quiniela es


tambin muy pequea: nfima: 3.4255x10-5%.
Veamos, empero, una forma de comparar estas probabilidades mediante razones de
momios:
e) Razn de momios ninguno/todos:

x = 0 2.0908 x107
P x = 14 = 3.4255 x103 = 0.0001


, La probabilidad de no acertar ningn resultado es 0.0001 veces la probabilidad de
adivinar todos el resultado de todos los partidos.
4.
Dentro de una coleccin de crneos, la probabilidad de encontrar trepanacin
en ellos es de 0.14. Si se toma una muestra de 6 crneos, cul es la probabilidad de
que se descubra el siguiente nmero de crneos con trepanacin?
a) 0 crneos

b) 6 crneos

c) 4 crneos

d) Ms de 4 crneos

e) Momios de ninguno/todos
DATOS GENERALES

n=6

Presencia

= P( x = 1) = p = 0.14

TIPO DE FENMENO

Ausencia = P( x = 0) = 1 p = 1 0.14 = 0.86

X ~ Bin ( n = 6, p = 0.14 )
63

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

P ( x n = 6, p = 0.14 ) = 6 Cx ( 0.14 ) ( 0.86 )

FUNCIN DE
PROBABILIDAD

6 x

; x = 0,1, 2,3, 4,5, 6

E ( x ) = 6 ( 0.14 ) = 0.8400

ESPERANZA

Var ( x ) = 6(0.14)(0.86) = 0.7224

VARIANZA
a) 0 crneos:

P ( x = 0 ) = 6 C0 ( 0.14 ) ( 0.86 )
0

60

= 0.4046

, La probabilidad de no encontrar ningn crneo con trepanacin en la coleccin es


de 40.46%
b) 6 crneos:

P ( x = 6 ) = 6 C6 ( 0.14 ) ( 0.86 )
6

66

= 7.5295 x10 6

, La probabilidad de encontrar 6 crneos con trepanacin en la coleccin es de


7.5295x10-4%.
c) 4 crneos:

P ( x = 4 ) = 6 C4 ( 0.14 ) ( 0.86 )
4

64

= 0.0043

, La probabilidad de encontrar 4 crneos con trepanacin en la coleccin es de


0.43%.
d) Ms de 4 crneos:
5
6 5
P ( x > 4 ) = P ( x = 5) + P ( x = 6) = 6 C5 ( 0.14 ) ( 0.86 ) + 7.5295 x106

4
6
P ( y > 4 ) = 2.7752 x10 + 7.5295 x10 = 2.8505 x104

, La probabilidad de encontrar ms de 4 crneos con trepanacin en la coleccin es


de 2.8505x10-2%.
e) Momios de ninguno/todos:

y = 0
0.4046
=
= 53735.3078
P
6
y = 6 7.5295 x10
, La probabilidad de no encontrar ningn crneo con trepanacin (40.46%) es
53735.3078 veces la probabilidad de encontrar 6 crneos con esta caracterstica
(7.5295x10-4%).
5.
Supongamos finalmente que, en una coleccin del posclsico originaria de
Cholula, la probabilidad de encontrar deformacin craneana es de 0.28. Si se analizan
15 crneos, cul es la posibilidad de hallar esta caracterstica en:
a) 0 crneos
d) Ms de 13 crneos

b) 15 crneos
c) 4 crneos
e) Menos de 3 crneos
f) Ms de 2 crneos
DATOS GENERALES

n=6

Presencia

= P( x = 1) = p = 0.14

TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD

Ausencia = P( x = 0) = 1 p = 1 0.14 = 0.86

X ~ Bin ( n = 15, p = 0.28)


P ( x n = 15, p = 0.28) = 15 Cx ( 0.28) ( 0.72 )
x

15 x

; x = 0,1, 2,...,15
64

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

E ( x ) = 15 ( 0.28 ) = 4.2000

ESPERANZA

Var ( x ) = 15 ( 0.28 )( 0.72 ) = 3.0240

VARIANZA
a) 0 crneos:

P ( x = 0 ) = 15 C0 ( 0.28 ) ( 0.72 )

15 0

= 0.0072

, La probabilidad de no encontrar ningn crneo con deformacin en la coleccin es


de %.
b) 15 crneos:

P ( x = 15 ) = 15 C15 ( 0.28 )

15

( 0.72 )

15 15

= 5.0977 x109

, La probabilidad de que los 15 crneos analizados de la coleccin presenten


deformacin es de 5.0977x10-7%.
c) 4 crneos:

P ( x = 4 ) = 15 C4 ( 0.28 ) ( 0.72 )
4

15 4

= 0.2262

, La probabilidad de encontrar cuatro crneos con deformacin en la coleccin es de


22.62%. Lo cual es un resultado coherente, ya que la probabilidad de casos exitosos
siempre ser ms alta mientras ms se acerque al valor de la esperanza de la
variable aleatoria, que en este caso era de 4.2.
d) Ms de 13 crneos:
14
15 14
+ 5.0977 x109
P ( x > 13) = P ( x = 14 ) + P ( x = 15 ) = 15 C14 ( 0.28 ) ( 0.72 )

7
9
P ( x > 13) = 1.9662 x10 + 5.0977 x10 = 2.0172 x10 7

, La probabilidad de descubrir deformacin en ms de trece crneos de la coleccin


es de 2.0172x10-5%.
e) Menos de 3 crneos:

P ( x < 3) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 )

1
15 1
2
15 2
P ( x < 3) = 0.0072 + 15 C1 ( 0.28 ) ( 0.72 ) + 15 C2 ( 0.28 ) ( 0.72 )

P ( x < 3) = 0.0072 + 0.0423 + 0.1150 = 0.1645

, La probabilidad de que tres de los crneos estudiados presenten deformacin es


de 16.45%.
f) Ms de 2 crneos:

P ( x > 2 ) = 1 P ( x 2 ) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) = 1 P ( x < 3)
P ( x > 2 ) = 1 0.1645 = 0.8355

, La probabilidad de hallar ms de dos crneos con deformacin es de 83.55%.

Distribucin Poisson

X ~ Po ( )
65

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Finalmente tenemos a la distribucin Poisson: un modelo particular de la distribucin
Binomial que permite analizar el comportamiento una variable aleatoria discreta
dicotmica cuando la probabilidad de xito es muy pequea ( p 0 ) y la muestra es
muy grande.
Si bien esto implicara que es posible usar tanto la distribucin Binomial como la
Poisson para asignar probabilidades cuando se tienen varias observaciones, es mejor
aplicar la segunda, ya que cuando la n tiende a infinito ( n N ) la distribucin de
probabilidades de la variable tiende a ser exponencial, provocando un cambio
importante en la funcin de probabilidades:
DISTRIBUCIN
BINOMIAL

P ( x n, p ) = n Cx p x (1 p )

n x

; x = 0,1, 2,3,..., n

Expresin donde se
especifican los
valores que toma X

DISTRIBUCIN
POISSON

e x
P(x ) =
; x = 0,1, 2,...
x!

Expresin en que no
se hacen explcitos
los valores de X
porque la muestra
( n ) es muy grande.

Debe notarse adems que en la segunda funcin de probabilidades los parmetros n


y p no aparecen, pues como no existen criterios universales para determinar cun
pequea debe ser la probabilidad de xito y cun grande debe ser la muestra, la
distribucin Poisson considera como parmetro al nmero promedio de ocurrencias
del evento, denotado por la letra .
Esperanza
Ahora bien, dado que la esperanza de una variable aleatoria discreta dicotmica con
distribucin Binomial era:

E ( x) = n p

Y si el valor promedio de una variable con distribucin Poisson es:

E ( x) =
Podemos concluir que:

= n p

Varianza
Por otro lado, si la varianza de una variable aleatoria discreta dicotmica con
distribucin Binomial era:

Var ( x ) = n p (1 p )

Pero sabemos que en la distribucin Poisson p 0 y que, por ende, (1 p ) 1 ; la


varianza de una variable con tal distribucin queda como:

Var ( x ) = n p (1 p )
Var ( x ) = (1) =

66

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
En resumidas cuentas: cuando se tiene una variable aleatoria discreta dicotmica de la
cual slo se sabe el nmero promedio de ocurrencias o se ha investigado, en una
muestra muy grande, que la probabilidad de xito es muy pequea, la mejor forma de
caracterizarla es a travs del modelo de distribucin Poisson:

X ~ Po ( )
FUNCIN DE PROBABILIDAD
ESPERANZA
VARIANZA

e x
P ( x) =
; x = 0,1, 2,...
x!
E (x ) =
Var(x ) =

Ejemplos de aplicacin
1.
Investigaciones indican que en nuestro pas 50 de cada 100 mil mexicanos
pueden desarrollar el mal de Parkinson4: trastorno degenerativo que afecta al sistema
nervioso central. Si se toma una muestra de 10 mil personas, cul es la probabilidad
de que dicho padecimiento est presente en:
a) Ningn sujeto b) Todos c) 5 individuos
d) Menos de 5 personas e) Ms de 5 personas
DATOS GENERALES

n = 10000

50
= 0.0005
100000
X ~ Po ( = 5)

Presencia = P ( x = 1) =

TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD

ESPERANZA
VARIANZA

P ( x) =

= (10000 )( 0.0005) = 5

e x
; x = 0,1, 2,...
x!

e5 ( 5 )
P ( x = 5) =
; x = 0,1, 2,...
x!
E (x ) =
x

E ( x) = 5

Var(x ) =

Var ( x ) = 5

a) Ningn sujeto:

e 5 ( 5 )
P ( x = 0) =
= 0.0067
0!
0

, La probabilidad de que ningn sujeto presente el mal de Parkinson es de 0.67%.


b) Todas las personas:

Se conmemora el Da Mundial del Mal del Parkinson por Monire Prez Lpez en Sistema e-once
noticias Internet. 11 de abril del 2007. Pgina: http://oncetvipn.net/noticias/index.php?modulo=despliegue&dt_fecha=2007-04-11&numnota=3

67

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

e 5 ( 5 )
P ( x = 10000 ) =
0
10000!
10000

, La probabilidad de que todas las personas manifiesten el mal de Parkinson es nula.


c) 5 individuos:

e 5 ( 5 )
P ( x = 5) =
= 0.1755
5!
5

, La probabilidad de que 5 individuos manifiesten el mal de Parkinson es de 17.55%.


d) Menos de 5 personas:

P ( x < 5 ) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) + P ( x = 4 )

e5 ( 5 )1 e 5 ( 5 )2 e5 ( 5 )3 e 5 ( 5 )4
P ( x < 5 ) = 0.0067 +
+
+
+

1! 2! 3! 4!

P ( x < 5 ) = 0.0067 + 0.0337 + 0.0842 + 0.1404 + 0.1755


P ( x < 5 ) = 0.4405
, La probabilidad de que menos de 5 personas manifiesten el mal de Parkinson es
de 44.05%.
e) Ms de 5 personas:

P ( x > 5) = 1 P ( x 5)

P ( x > 5 ) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3) + P ( x = 4 ) + P ( x = 5 )
P ( x > 5 ) = 1 P ( x < 5 ) + P ( x = 5 )
P ( x > 5 ) = 1 ( 0.4455 + 0.1755 )
P ( x > 5 ) = 1 0.6210 = 0.3790
, Por ende, la probabilidad de que ms de 5 personas manifiesten el mal de
Parkinson es de 37.90%.
El Instituto Mexicano del Seguro Social (IMSS), empero, ha informado que ms de 50
mil mexicanos padecen el mal de Parkinson5 y que tan slo durante 2007 otorg
24,587 consultas a nivel nacional por esta causa6. As que pese a nuestros clculos,
existe razn suficiente para seguir investigando los motivos y posibles tratamientos
para este padecimiento.
2.
La Secretara de Salud de Jalisco ha reportado que existen de 3 a 4 casos de
cncer de mam y cervicouterino por ao en su estado7. Al ser sta una de las causas
principales de muerte entre las mujeres, el gobierno ha decidido tomar una muestra
grande y calcular la probabilidad de que:
a) Ninguna mujer le presente
5

El IMSS Otorg ms de 24 mil consultas por mal de parkinson en un ao en CDN. 11 de abril de


2008. Pgina: http://www.cdn.com.mx/?c=118&a=22677
6
Padecen Parkinson casi 50 mil mexicanos: IMSS en El siglo de Durango. 23 de diciembre de 2007.
Pgina: http://www.elsiglodedurango.com.mx/noticia/151670.padecen-parkinson-casi-50-mil-mexicanosimss.siglo
7
El cncer es la principal causa de muerte en Tuxpan en Informativo del Sur de Jalisco. 8 de marzo del
2007. Nota en internet: http://www.periodicoelsur.com/noticias_tuxpan.aspx?idnoticia=8858

68

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
b) Menos 4 mujeres le padezcan

c) Ms de 4 lo presenten.

DATOS GENERALES
Presencia = P ( x = 1) = ?

n=?

=3

X ~ Po ( = 4 )

TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD

P ( x = 3) =

E ( x) = 3

ESPERANZA

e3 ( 3)
; x = 0,1, 2,...
x!
x

Var ( x ) = 3

VARIANZA
a) Ninguna mujer le presente

e 3 ( 3)
= 0.0498
P ( x = 0) =
0!
0

, La probabilidad de que ninguna mujer padezca cncer (de mama o cervicouterino)


es de 4.98%.
b) Menos de 3 le padezcan:

P ( x < 3) = P ( x = 0 ) + P ( x = 1) + P ( x = 2 )

e3 ( 3)1 e3 ( 3)2
P ( x < 3) = 0.0498 +
+

1! 2!

P ( x < 3) = 0.0498 + 0.1494 + 0.2240


P ( x < 3) = 0.4232
, La probabilidad de que menos de 3 mujeres le padezcan es de 42.32%.
c) Ms de 3 le presenten:

P ( x > 3) = 1 P ( x 3)

P ( x > 3) = 1 P ( x < 3) + P ( x = 3)

e 3 ( 3)3
P ( x > 3) = 1 0.4232 +

3!

P ( x > 3) = 1 [ 0.4232 + 0.2240]


P ( x > 3) = 1 0.6472 = 0.3528
, La probabilidad de que ms de 3 mujeres le presenten es de 35.28%.
3.
La monosoma del cromosoma X es la causante del denominado sndrome de
Turner que, por definicin, afecta exclusivamente a mujeres. Sus principales sntomas
son el retraso de crecimiento, el infantilismo sexual y la posesin de ovarios
rudimentarios sin epitelio germinativo8. Si bien el desarrollo psicomotor vara entre
8

Existen, no obstante, otros sntomas, por ejemplo: edema acentuado del dorso de los pies en el
nacimiento, trax saliente en escudo, pezones hipoplsicos y muy separados, acortamiento del IV
metacarpiano y un sinfn de signos que pueden ir desde una malformacin cardiaca a la abundancia de
nevus pigmentarios.

69

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
pacientes, las malformaciones suelen ser discretas y la supervivencia es normal. Si la
frecuencia de este cariotipo (45,X) es de 0.4 por cada 1,000 nias; dentro de una
muestra de 10,000 mujeres, qu probabilidad hay de que se encuentren el siguiente
nmero de casos con sndrome de Turner?
a) 0 casos

b) 1 caso

c) Ms de 3 casos

DATOS GENERALES

n = 10000

0.4
= 0.0004
1000
X ~ Po ( = 4 )

Presencia = P ( x = 1) =

TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA

= (10000 )( 0.0004 ) = 4

e4 ( 4 )
P ( x = 4) =
; x = 0,1, 2,...
x!
E ( x) = 4
x

Var ( x ) = 4

a) 0 casos:

e 4 ( 4 )
P ( x = 0) =
= 0.0183
0!
0

, La probabilidad de que ningn caso presente sndrome de Turner es de 1.83%.


b) 1 caso:

e4 ( 4 )
P ( x = 1) =
= 0.0733
1!
1

, La probabilidad de que aparezca un caso con sndrome de Turner es de 7.33%.


b) Ms de 3 casos:

P ( x > 3) = 1 P ( x 3)

P ( x > 3) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 ) + P ( x = 3)

e 4 ( 4 )2 e4 ( 4 )3
P ( x > 3) = 1 0.0183 + 0.0733 +
+

2! 3!

P ( x > 3) = 1 [ 0.0183 + 0.0733 + 0.1465 + 0.1954]


P ( x > 3) = 1 0.4335 = 0.5665
, La probabilidad de que aparezcan ms de tres casos con sndrome de Turner es
de 56.65%.
4.
1.18 de cada 1000 nios manifiestan el sndrome de Klinefelter, cuyo cariotipo
es 47,XXY. Los varones que lo padecen presentan ginecomastia (desarrollo de
mamas), atrofia testicular con azoospermia (sin atrofia de las clulas de Leydig) y
aumento de la excrecin de FSH. Asimismo, los sujetos poseen una talla elevada y, a
veces, cierta desproporcin. Si bien su aspecto puede ser masculino, en ciertos casos
la ausencia de barba y las caderas anchas les dan una morfologa femenina. Si
durante una investigacin se analizar a 5,000 varones, qu probabilidad hay de que
este sndrome se presente en el siguiente nmero de casos?

70

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
a) 2 casos

b) 0 casos

c) Ms de 2 casos

DATOS GENERALES

n = 5000

1.18
= 0.0012
1000
X ~ Po ( = 5.9 )

= ( 5000 )( 0.0012 ) = 5.9

Presencia = P ( x = 1) =

TIPO DE FENMENO
FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA

e5.9 ( 5.9 )
P ( x = 5.9 ) =
; x = 0,1, 2,...
x!
E ( x ) = 5.9
x

Var ( x ) = 5.9

a) 2 casos:

e 5.9 ( 5.9 )
P ( x = 2) =
= 0.0477
2!
2

, La probabilidad de que se presenten 2 casos con el sndrome de Klinefelter es de


4.77%.
b) 0 casos:

e 5.9 ( 5.9 )
P ( x = 0) =
= 0.0027
0!
0

, La probabilidad de que ningn caso presente el sndrome de Klinefelter es de


0.27%.
c) Ms de 2 casos:

P ( x > 2) = 1 P ( x 2)

P ( x > 2 ) = 1 P ( x = 0 ) + P ( x = 1) + P ( x = 2 )

e 5.9 ( 5.9 )1
P ( x > 2 ) = 1 0.0027 +
+ 0.0477

1!

P ( x > 2 ) = 1 [ 0.0027 + 0.0162 + 0.0477 ] = 1 0.0666 = 0.9334


, La probabilidad de que ms de dos casos presenten el sndrome de Klinefelter es
de 93.34%.
Distribuciones de probabilidad para variables continuas
Una vez revisadas las distribuciones de probabilidad para variables discretas, es turno
de revisar las enfocadas a las variables continuas, donde el rea total delimitada por la
curva y el eje de las X es igual a 1; la cual se fragmenta cuando se levantan lneas
perpendiculares para buscar la probabilidad en ciertos intervalos.
Distribucin uniforme:

X~U(a,b)

Tipo de distribucin en la que, dentro de un intervalo (a, b ) , la variable X tiene una


funcin de probabilidad constante, como puede verse en la siguiente grfica:

71

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
0.6
0.5

P(x)

0.4
0.3

0.2
0.1
0

Por sus caractersticas se comprende que, la probabilidad de X (igual en todos los


puntos) en el intervalo, suma 1. Por ende: A = P( x )(b a ) = 1 y de ello de deriva lo
siguiente:
FUNCIN DE PROBABILIDAD
ESPERANZA
VARIANZA

1
; x (a, b )
(b a )
(b + a )
E (x ) =
2
(a b )2
Var ( x ) =
12
P(x ) =

Veamos algunos ejemplos:


1.
El tiempo de espera para ser atendido en la ventanilla de Servicios escolares
de la ENAH es una variable con distribucin uniforme dentro del horario de 10:00 a
13:00.
TIPO DE FENMENO
FUNCIN DE PROBABILIDAD
ESPERANZA
VARIANZA

X ~ U (10.00,13.00)

1
1
= ; x (10.00,13.00)
(13.00 10.00) 3
(13.00 + 10.00) = 23 = 11.5000
E (x ) =
2
2
2
(10.00 13.00) = 3 2 = 9 = 3 = 0.7500
Var ( x ) =
12
12
12 4
P(x ) =

, De lo cual concluimos que la probabilidad de ser atendido en la ventanilla de


Servicios escolares entre las 10 y las 13 horas es de 1/3, aunque la hora ms probable
en que nos atendern es a las 11:50 a.m.
Ahora, cabe preguntarse cuestiones como:
a) Cul es la probabilidad de que nos atiendan entre las 10:30 y las 12:00 horas?

( )

( )

P(10.50 < x < 12.00 ) = (12.00 10.50) 1 = 1.50 1 = 1.50 = 0.5000


3
3
3

, La probabilidad de que nos atiendan entre las 10:30 y las 12:00 horas es del
50.00%.
b) Cul es la probabilidad de que nos atiendan despus de las 12:45?

72

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

( )

( )

P( x > 12.75) = (13.00 12.75) 1 = 0.25 1 = 0.25 = 0.0833


3
3
3
, La probabilidad de que nos atiendan despus de las 12.45 p.m. es de 8.33%.
c) Cul es la probabilidad de que nos atiendan a las 12:00 en punto?

( )

P(x = 12.00) = (0) 1 = 0


3

, La probabilidad de que nos atiendan exactamente a las 12:00 p.m. es de 0%. Ms


que por cuestiones reales, esto se debe a que en la distribucin uniforme y en el resto
de las distribuciones de probabilidad para variables continuas, la probabilidad se saca
por reas entre la curva y el eje de las X . Para delimitarlas, se requiere en el eje de
las X un intervalo; esto es, ms de un punto. Siendo la grfica de probabilidades
continua, es imposible calcular la probabilidad de que la variable aleatoria tome slo
un valor, pues la probabilidad en ste ser 0.
Distribucin normal:

X~N(,)

Llamada tambin distribucin gaussiana, esta distribucin es la ms importante para la


estadstica. Veamos algunas de sus caractersticas:

a) La curva se acerca pero nunca toca el eje de las X , por lo cual es una curva
asinttica
b) El rea bajo la curva (y por ende, la suma de todas las probabilidades) es igual a 1.
>

<

c) La media ( ) divide la grfica simtricamente as como la probabilidad del rea


bajo la curva.
d) La media ( ) desplaza la grfica a lo largo del eje X .
e) La desviacin estndar ( ) es la distancia entre la media y el punto de inflexin.

El valor de la desviacin estndar ( ) determina el aplanamiento o levantamiento


de la curva (A mayor , ms plana; y a menor , ms alta).
g) y son los parmetros de la distribucin; motivo por el cual para cada valor
diferente de ellos se conforma una distribucin y una grfica distinta.

f)

FUNCIN DE
PROBABILIDAD

P( x ) =

1
2

( x )2
2 2

; < x <

73

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
ESPERANZA
VARIANZA

E (x ) =

Var ( x ) = 2

El punto es que, por ms que tengamos una funcin de probabilidades especfica, al


variar la probabilidad de X continuamente, es necesario resolver integrales para
encontrar la probabilidad de X en un intervalo.
B.3) DISTRIBUCIN NORMAL ESTNDAR:

X~N(0,1)

Esta distribucin es un caso especial de la familia de las distribuciones normales, pues


en ella la media ( ) es igual a 0 y la desviacin estndar ( ) es igual a 1; razn por la
cual su funcin de probabilidad es la siguiente:
FUNCIN DE
PROBABILIDAD

P(z ) =

z2

1
e 2 ; < x <
2

Si bien es necesario calcular el valor de Z mediante la funcin de probabilidad, saber


la probabilidad de esta variable no requiere integrales, pues basta consultar las tablas
ya existentes para ello de la siguiente forma:
Uso de las tablas de probabilidad para las reas de la curva normal:
Las tablas para reas de la curva normal presentan los valores de menos infinito a un
valor Z :

Por ello:
1. Cuando se busca la probabilidad de que Z sea menor a un valor, ste se busca
directamente en tablas:

P(z < valor a) , La probabilidad de valor a se busca en tablas.


2. Cuando se busca la probabilidad de que Z sea mayor a un valor, se invierten los
signos +/- y >/<; procedimiento que, debido a la simetra de la curva, evita restar
eventos complementarios.

74

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
P(z >valor a) , Se transforma a P(z < valor -a) y se busca la probabilidad de valor a

P(z >valor -a) , Se transforma a P(z < valor a) y se busca la probabilidad de valor a.
3. Cuando se busca la probabilidad de que Z est en un intervalo (a, b ) , se resta la
probabilidad del mayor al menor (sin cambiar signos) pues para delimitar el intervalo
basta con calcular primero toda el rea que es menor al nmero ms grande (b) y
restarle el rea menor al nmero ms pequeo (a):

P(valor a < z < valor b) , Se resta P(z < valor b) - P(z < valor a), es decir, se busca
la probabilidad de valor b y se le resta la de valor a.
Estandarizacin
Estandarizar una variable significa transformar sus valores originales para que los
valores estandarizados tengan una media = 1 y una desviacin estndar = 0 .
Con ello logramos que la distribucin de la variable se vuelva de tipo normal estndar,
permitindonos el acceso a las tablas de probabilidad.
EXPRESION
PARA
ESTANDARIZAR

Z=

xi

En donde los valores de X i , y


corresponden a los de la variable original.

Veamos, ahora s, para que nos sirve todo lo anterior con un ejemplo:
1.
La estatura de la poblacin de las estudiantes femeninas de la ENAH tiene una
distribucin aproximadamente normal con media = 162 cm. y varianza 2 = 17.5 .
Qu probabilidad hay de que
a) elijamos al azar a una chica que mida menos de 160 cm?
b) elijamos al azar a una chica que mida ms de 163 cm?
c) elijamos al azar a una chica que mida entre 159 y 161 cm?

75

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
X~N(,)

= 162

DATOS GENERALES

= 4.18

2 = 17.5
P(x ) =

X~N = 162, 2 = 17.5

1
e
2 (17.5)

( x 162 )
2 (17.5 )

1
P(x ) =
e
6.28(17.5)

FUNCIN DE
PROBABILIDAD

1
P(x ) =
e
109.9

1
P( x ) =
e
10.48

( x 162 )2
35

( x 162 )2
35

( x 162 )2
35

( x 162 )2

P ( x ) = 0.10 e 35
E ( x ) = 162
Var( x ) = 17.5

ESPERANZA
VARIANZA
Ahora s, respondamos los incisos:

a) Qu probabilidad hay de que elijamos al azar a una chica que mida menos de 160
cm?

P( x < 160) =

160

0.10 e

( x 162 )2
35

dx

Como se puede ver, calcular la probabilidad de que X sea menor a 160 implica
resolver esta integral. Si X tuviera una distribucin normal estndar con = 1 y
= 0 , podramos acceder a las tablas. Entonces lo que haremos es estandarizar la
variable para lograr tal objetivo y poder obtener la probabilidad:
EXPRESIN
x
PARA
Z= i

ESTANDARIZAR
APLICACIN

2
160 162

P( x < 160 ) P Z <


= P Z <
= P (Z < 0.48)
4.18
4.18

Observacin 1: -0.48 no es la probabilidad de que la chica sea menor a 160 cm., sino el valor
que se ubicar en las tablas intersectando -0.40 (horizontal) y .008 (vertical).
Observacin 2: Como se busca la probabilidad de que Z sea MENOR a tal valor, ste se
busca directamente en tablas.

P(Z < 0.48) = 0.3156


PROBABILIDAD
, P(x<160)= 0.3156. Esto es: la probabilidad de que la mujer que elijamos sea menor
a 160 cm. es de 0.3156; o bien del 31.56%.
b) Qu probabilidad hay de que elijamos al azar a una chica que mida ms de 163
cm?
ESTANDARIZACIN

163 162
1

P( x > 163) P Z >


= P Z >
= P (Z > 0.24 )
4.18
4.18

76

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Observacin 3: Como se busca la probabilidad de que Z sea MAYOR a tal valor, se cambian
signos y se busca ese nuevo dato en tablas.

P(Z > 0.24) P(Z < 0.24) = 0.4052


PROBABILIDAD
, P(x>163)= 0.4052. Esto es: la probabilidad de que la mujer que elijamos sea mayor
a 163 cm. es de 0.4052; o bien del 40.52%.
c) Qu probabilidad hay de que elijamos al azar a una chica que mida entre 159 y
161 cm?
Observacin 1: Adems de estandarizar para encontrar esta probabilidad, es necesario hallar
la probabilidad de X en el intervalo, lo cual logramos restando la probabilidad del valor mayor al
del menor [P(x<161)-P(X<159)]:

161 162
159 162
P (159 < x < 161) P
<Z<

4.18
4.18
1
3
= P
Z<
= P( 0.72 < Z < 0.24 )
4.18
4.18
P( 0.24) P( 0.72) = 0.4052 0.2358 = 0.1694

ESTANDARIZACIN
VALORES PARA
TABLAS

PROBABILIDAD
, P(159<x<161)= 0.1694. Esto es: la probabilidad de que la mujer que elijamos mida
entre 159 y 161 cm. es de 0.1694; o bien del 16.94%.
2.
El nmero de respiraciones por minuto de personas adultas en reposo es una
variable que se distribuye de una manera aproximadamente normal con media
= 20.5 y desviacin estndar = 4.3 . Si elegimos al azar a una persona, qu
probabilidad hay de que su nmero de respiraciones por minuto
a) sea menor a 18.3?

X~N(,)

b) sea mayor a 22?

= 20.5

DATOS GENERALES

P(x ) =

VARIANZA

( x 20.5 )2

1
e 2 (18.49 )
2 (18.49 )

1
e
6.28(18.49 )

1
P( x ) =
e
116.12

1
P( x ) =
e
10.78

ESPERANZA

X~N ( = 20.5, = 4.3)

= 4.3

2 = 18.49
P(x ) =

FUNCIN DE
PROBABILIDAD

c) est entre 19 y 21?

( x 20.5 )2
36.98

( x 20.5 )2
36.98

( x 20.5 )2
36.98

P( x ) = 0.09 e

( x 20.5 )2
36.98

E ( x ) = 20.50
Var( x ) = 18.49

a) sea menor a 18.3?

77

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
18.3 20.5
2.20

P( x < 18.3) P Z <


= P(Z < 0.51)
= P Z <
4 .3
4 .3

P(Z < 0.51) = 0.3050


, P(x<18.3)= 0.3050. Esto es: la probabilidad de que el nmero de respiraciones por
minuto de la persona elegida al azar sea menor a 18.3 es de 30.50%.
b) sea mayor a 22?

22.0 20.5
1.50

P( x > 22 ) P Z >
= P Z >
= P (Z > 0.35)
4 .3
4 .3

P(Z > 0.35) P(Z < 0.35) = 0.3632


, P(x>22)= 0.3050. Esto es: la probabilidad de que el nmero de respiraciones por
minuto de la persona elegida al azar sea mayor a 22 es de 36.32%.
c) est entre 19 y 21?

21.0 20.5
19.0 20.5
P(19 < x < 21) P
<Z<

4 .3
4 .3

0.50
1.50
= P
<Z<
= P ( 0.35 < Z < 0.12 )
4 .3
4 .3
P( 0.35 < Z < 0.12) = P(Z < 0.12) P(Z < 0.35) = 0.5478 0.3632 = 0.1846
, P(19<x<21)= 0.1846. Esto es: la probabilidad de que el nmero de respiraciones
por minuto de la persona elegida al azar est entre 19 y 21 es de 18.46%.
Para cerrar este tema, veremos ahora otras distribuciones basadas en las anteriores,
algunas de las cuales utilizaremos posteriormente.
Distribucin exponencial
Caso de la familia de funciones de supervivencia, donde la variable aleatoria X es
mayor a cero (motivo por el que toma slo valores positivos) y mantiene una relacin
inversa con su probabilidad, debido a lo cual su grfica es asinttica con respecto al
eje X y al Y .
FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA

P ( x ) = e x ; x > 0
E (x ) = 1

Var ( x ) = 1

Distribucin ji-cuadrada o chi-cuadrada:

Distribucin resultante de la suma de variables con distribucin normal estndar al


cuadrado. Ms especficamente, si Z 1 , Z 2 , Z 3 ,..., Z k son variables con distribucin
normal estndar [Zi~N(0,1)] y elevadas cada una al cuadrado suman X
x = Z 12 + Z 22 + Z 32 + ... + Z k2 , entonces X toma valores positivos (x 0) teniendo

( )

una distribucin ji-cuadrada 2 con K grados de libertad: X~ 2 (k)

78

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
FUNCIN DE
PROBABILIDAD
ESPERANZA
VARIANZA

k 1
1
x
X 2 e 2
k
k
2 2
2
E (x ) = k
Var ( x ) = 2k

P(x ) =

Distribucin t de student o distribucin-t

La letra representa la funcin


gamma, que sirve para calcular el
factorial de funciones continuas.

t~t(k)

Z
x

La variable t se obtiene dividiendo dos variables independientes t =

: una con

distribucin normal estndar [Z~N(0,1)] entre una con distribucin ji-cuadrada


[X~ 2 (k)]; razn por la cual la variable t tiene una distribucin-t con K grados de
libertad.
FUNCIN DE
PROBABILIDAD

ESPERANZA

VARIANZA

2
k + 1 t

1 +
k
2
P(t ) =
k
k
2
E (t ) = = 0

k +1

; < t <

3 k 2

k
2 2

Var (t ) =
1 k

2 2

Distribucin F de fisher

F~F(K1,K2)

La variable F resulta de dividir dos variables independientes

( ) y con

distribucin ji-cuadrada

(X 1 , X 2 ),

ambas con

K1 y K 2 grados de libertad en el numerador y en


x1
k1
el denominador, respectivamente: F =
x2
k2

FUNCIN DE
PROBABILIDAD

ESPERANZA

k + k2
1

2 k1

P( f ) =

k1 k 2 k 2

2 2
k
E( f ) = 1
k 22

k1
2

k
1
2

k f
1 + 1
k2

k1 + k 2
2

;f >0

Si K es mayor a 30, x/k 1; por lo cual la segunda variable tendra una distribucin normal estndar.

79

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
VARIANZA

Var ( f ) =

2 k 2 (k1 + k 2 2)
2

k1 (k 2 2 ) (k 2 4)
2

Distribuciones muestrales
Se llama distribucin muestral a la distribucin de todos los valores posibles que
puede tomar una estadstica, calculada a partir de muestras del mismo tamao (n )

seleccionadas aleatoriamente de la misma poblacin (N ) . En otras palabras, es el


procedimiento para inferir los valores estadsticos de una muestra a partir de los
parmetros de una poblacin.
Distribuciones muestrales para poblaciones con distribucin normal X~N(,)
Distribucin de la media muestral (x )
Si en la poblacin de estudio, X tiene una distribucin de tipo normal con media y
desviacin estndar , en las muestras seleccionadas aleatoriamente, x es una
variable aleatoria con la misma media de la poblacin y con una desviacin estndar
igual a la de la poblacin pero dividida entre la raz del tamao de la muestra. Esto es:

x N ,

X~N(,)
MEDIA

DESVIACIN ESTNDAR

VARIANZA
FRMULA PARA
ESTANDARIZAR

Z=

Xi

Z=

n
xi

Analicemos, con un ejemplo, la importancia de esto:


1.
Una investigacin realizada en cierta escuela vers sobre el uso de drogas,.
Siendo una de las variables estudiadas los aos de uso, se encontr que dentro de la
poblacin esta variable tiene una distribucin normal con media = 4.5 y desviacin
estndar = 1.7 . Si se toma una muestra de doce estudiantes que usan drogas, qu
probabilidad hay de que la media de la muestra
a) sea menor de 4 aos?

b) sea mayor de 7 aos?


DATOS GENERALES

X~N(,)

= 4 .5

= 1.7

X~N(=4.5,=1.7)
MEDIA
DESVIACIN
ESTNDAR
VARIANZA

= 4.5
= 1.7
2 = 2.89

c) est entre 5.5 y 6.8 aos?


X~N ( = 4.5, = 1.7 )

x N ,

= 4.5

= 1.7

12

= 0.49

2 = (1.7 ) 12 = 0.24
2

80

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
a) sea menor de 4 aos?
FRMULA
PARA
ESTANDARIZAR

Z=

xi

4 4.5

P(x < 4) = P Z <


= P(Z < 1.02)

1.7

12

P(Z < 1.02) = 0.1539

APLICACIN

, La probabilidad de que la media de las muestra de doce estudiantes que usan


drogas sea menor a 4 aos es de 15.39%
b) sea mayor de 7 aos?

7 4.5

P(x > 7 ) = P Z >


= P(Z > 5.09 )

1.7

12

P(Z > 5.09) = P(Z < 5.09) 0


, La probabilidad de que la media de las muestra de doce estudiantes que usan
drogas sea mayor a 7 aos es casi nula.
c) est entre 5.5 y 6.8 aos? P(5.5 < x < 6.8)

6
.
8
4
.
5
5
.
5

4
.
5

= P 1.00 < Z < 2.30 = P(2.04 < Z < 4.69)


P
<Z<
1.7
1.7
0.49
0.49

12
12

P(2.04 < Z < 4.69) = P(Z < 4.69) P(Z < 2.04) = 1 0.9793 = 0.0207
, La probabilidad de que la media de las muestra de doce estudiantes que usan
drogas est entre los 5.5 y 6.8 aos es del 2.07%.
Distribucin de la proporcin muestral ( p )
Cuando X es una variable que toma 2 valores ( x = {0,1}) en una poblacin (N ) , M

es el nmero de eventos exitosos (x = 1) . Por ende, dividiendo M entre N


obtenemos la proporcin de eventos que poseen la caracterstica de inters.
Si la poblacin tiene una distribucin normal, en las muestras seleccionadas
aleatoriamente la media de las proporciones es igual a la proporcin real de la
poblacin, con una desviacin estndar igual a la raz cuadrada de los eventos
exitosos por los no exitosos entre el nmero de elementos de la muestra:

81

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
PROPORCIN
POBLACIONAL

p=M

PROPORCIN
DESVIACIN ESTNDAR

VARIANZA

FRMULA PARA
ESTANDARIZAR

Z=

PROPORCIN
MUESTRAL

p = m
n

P (1 P )
n
P (1 P )
n
p P
Z=
P(1 P )
n

Xi

Comprobemos, mediante ejemplos, cmo funciona esto:


1.
Se sabe que la proporcin de estudiantes de la ENAH que simpatizan con el
movimiento del EZLN es de 0.38. Se selecciona una muestra de 15 estudiantes al
azar. Cul es la probabilidad de que la proporcin muestral ( p ) :
a) sea menor de 0.30?

b) sea mayor de 0.35?

c) est entre 0.36 y 0.40?

DATOS GENERALES

p = 0.38

1 p = 0.62

n = 15

a) sea menor de 0.30?


FRMULA
PARA
ESTANDARIZAR

Z=

p P
P(1 P )
n

0.30 0.38

= P (Z < 0.64 ) = 0.2611


P( p < 0.30 ) = P Z <

0.38(0.62 )

15

P(Z < 0.64) = 0.2611

APLICACIN

, La probabilidad de que la proporcin muestral de simpatizantes con el movimiento


del EZLN sea menor de 0.30 es del 26.11%.
b) sea mayor de 0.35?

0.35 0.38

= P (Z > 0.24 )
P ( p > 0.35) = P Z >

0.38(0.62 )

15

P(Z > 0.24) P(Z < 0.24) = 0.5948


, La probabilidad de que la proporcin muestral de simpatizantes con el movimiento
del EZLN sea mayor de 0.35 es del 59.48%.

82

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
c) est entre 0.36 y 0.40?

0.36 0.38
0.40 0.38

= P( 0.16 < Z < 0.16 )


P(0.36 < p < 0.40 ) = P
<Z<
0.38(0.62 )
0.38(0.62 )

15
15

P( 0.16 < Z < 0.16) = P(Z < 0.16) P(Z < 0.16) = 0.5636 0.4364 = 0.1272
, La probabilidad de que la proporcin muestral de simpatizantes con el movimiento
del EZLN est entre 0.36 y 0.40 es del 12.72%.
2.
Se sabe que la proporcin de estudiantes que al mismo tiempo lleva otra
licenciatura es de 0.12. Si se toma una muestra de 15 estudiantes de la ENAH, cul
es la probabilidad de que en esta muestra la proporcin de estudiantes con esa
caracterstica:
a) sea mayor del 10%?

b) sea menor del 0.15%?

c) est entre 0.11 y 0.14?

DATOS GENERALES

p = 0.12

1 p = 0.88

n = 15

a) sea mayor del 10%?

0.10 0.12

= P (Z > 0.24 )
P ( p > 0.10 ) = P Z >

0.12(0.88)

15

P(Z > 0.24) P(Z < 0.24) = 0.5948


, La probabilidad de que en esta muestra la proporcin de estudiantes que cursan, a
la vez, dos licenciaturas, sea mayor a 0.10 es de 59.48%.
b) sea menor del 0.15%?

0.15 0.12

= P (Z < 0.36 )
P( p < 0.15) = P Z <

0.12(0.88)

15

P(Z < 0.36) = 0.6406


, La probabilidad de que en esta muestra la proporcin de estudiantes que cursan, a
la vez, dos licenciaturas, sea menor a 0.15 es de 64.06%.
c) est entre 0.11 y 0.14?

0.11 0.12
0.14 0.12

= P( 0.12 < Z < 0.24 )


P (0.11 < p < 0.14 ) = P
<Z<
0.12(0.88)
0.12(0.88)

15
15

= P( 0.12 < Z < 0.24) = P(Z < 0.24) P(Z < 0.12) = 0.5948 0.4522 = 0.1426
, La probabilidad de que en esta muestra la proporcin de estudiantes que cursan, a
la vez, dos licenciaturas, est entre 0.11 y 0.14 es de 14.26%.

83

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Comparacin de dos medias muestrales ( x1 x 2 )
Sabiendo cmo se calcula la media muestral, es posible comparar las estadsticas de
dos muestras mediante las siguientes frmulas:
PARA UNA MUESTRA

MEDIA

1- 2

DESVIACIN ESTNDAR

VARIANZA
FRMULA PARA
ESTANDARIZAR

PARA DOS MUESTRAS

Z=

12

xi

Z=

n1
n1

2
+

22

n2
n2

x1 x 2 (1 2 )

12

n1

+2

n2

Comparacin de dos proporciones muestrales ( p 1 p 2 )


Sabiendo cmo se calcula la proporcin muestral, es posible comparar las
proporciones de dos muestras mediante la siguiente frmula:
PARA UNA MUESTRA

FRMULA PARA
ESTANDARIZAR

m
p =
n
p P
Z=
P(1 P )
n

PARA DOS MUESTRAS

m
n
p 1 p 2 (P1 P2 )
P1 (1 P1 ) P2 (1 P2 )
+
n1
n2

p =

Z=

Distribuciones muestrales para poblaciones sin distribucin normal X~?(,)


Distribucin de la media muestral (x )
Segn el TEOREMA CENTRAL DE LMITE (TCL), Dada una poblacin de cualquier
forma funcional no normal, con una media y una varianza 2 , la distribucin
muestral de x , calculada a partir de muestras de tamao n de dicha poblacin, ser
2
casi normal con media y una varianza

cuando la muestra es muy grande.

En otras palabras, cuando X es una variable cuyo tipo de distribucin no se conoce,


pero tiene una media y una varianza 2 , pude asumirse que esta variable tiene
2
una distribucin normal con media y una varianza

, siempre y cuando el

tamao de la muestra sea grande (n N ) , lo cual, segn simulaciones de muestras


y probabilidades implica que tenga ms de 30 elementos (n > 30) .
Por tal motivo, para calcular probabilidades sobre esta variable puede utilizarse la
siguiente frmula:

84

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
X~?(,)
FRMULA PARA
ESTANDARIZAR

Si n > 30 ,

X~N(,)

Z=

xi

n
Apliquemos esto para reafirmar cundo s aplica el TCL y cuando no:
1.
En una poblacin de jvenes de 17 aos de edad, la media del espesor del
pliegue subescapular (en milmetros) es de 9.7 con una desviacin estndar de 6.0. A
partir de una muestra de tamao 14 extrada de esa poblacin, calcular la probabilidad
de que la media de la muestra:
a) sea mayor de 11.

b) sea menor de 7.5

c) est entre 7 y 10.5.

DATOS GENERALES

X~? ( = 4.5, = 1.7 )


, No se pueden calcular probabilidades, puesto que no se sabe el tipo de distribucin
de probabilidad de este fenmeno y la muestra no es grande (mayor a 30) como para
considerarla de tipo normal.

= 9 .7

= 6.0

n = 14

2.
En una poblacin de jvenes de 17 aos de edad, la media del espesor del
pliegue subescapular (en milmetros) es de 9.7 con una desviacin estndar de 6.0. A
partir de una muestra de tamao 40 extrada de esa poblacin, calcular la probabilidad
de que la media de la muestra:
a) sea mayor de 11.

b) sea menor de 7.5

c) est entre 7 y 10.5.

DATOS GENERALES

= 9 .7

= 6.0

n = 40

X~? ( = 4.5, = 1.7 )

a) sea mayor de 11.

11 9.7
P( x > 11) = P z >
= P( z > 1.37 )
6.0

40

P( z > 1.37) P( z < 1.37 ) = 0.0853


, La probabilidad de que la media del espesor del pliegue subescapular en esta
muestra sea mayor de 11 es del 8.53%.
b) sea menor de 7.5

7.5 9.7
P( x < 7.5) = P z <
= P( z < 2.32 )
6.0

40

P( z < 2.32) = 0.0102


, La probabilidad de que la media del espesor del pliegue subescapular en esta
muestra sea menor de 7.5 es del 1.02%.
c) est entre 7 y 10.5.

85

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

7 9.7
10.5 9.7
P(7 < x < 10.5) = P
<z<
= P( 2.85 < z < 0.84 )
6.0
6.0

40
40

P( 2.85 < z < 0.84) = P( z < 0.84) P( z < 2.85) = 0.7795 0.0022 = 0.7773
, La probabilidad de que la media del espesor del pliegue subescapular en esta
muestra est entre los 7 y 10.5 milmetros es de 77.73%.

EJERCICIOS DE REPASO DE LA UNIDAD II


1. En una excavacin de entierros de cierta poblacin se sabe que el 35% son
mujeres. Se toma una muestra de 40 entierros. Hallar la probabilidad de que
en la muestra
a) ningn entierro sea mujer
b) todos los entierros correspondan a mujeres
c) el nmero de mujeres sea distinto de 15
d) haya ms de dos mujeres en los entierros
e) ms de la mitad de los entierros sean de mujeres
2. En un determinado sitio arqueolgico con vestigios de diferentes tipos de
animales, se sabe que en promedio hay 3 huesos de caballo.
a) Escribe la funcin de probabilidad, su valor esperado y varianza.
Calcular la probabilidad de que:
b) ninguna de las muestras tenga restos de hueso de caballo.
c) 4 muestra tenga restos de hueso de caballo.
d) al menos tres de las muestras tengan restos de hueso de caballo.
3. El tiempo que un estudiante de Osteologa tarda en determinar si un crneo
es de mujer u hombre obedece una ley de probabilidades uniforme. Si el
tiempo de identificacin vara entre 5 y 18 minutos:
a) Escribe la funcin de probabilidad de esta variable, calcula el tiempo promedio
que se tardar y calcula su varianza.
b) Cul es la probabilidad de un crneo sea identificado en menos de 4 minutos?
c) Cul es la probabilidad de un crneo sea despus de 15 minutos?
d) Si se tiene una muestra de 270 crneos cuntos se identificarn antes de 15
minutos?
4. En un restaurante de comida rpida, 25% de las rdenes para beber es una
bebida pequea, 35% de una mediana y 40% una grande. Sea x=1 si se
escoge aleatoriamente una orden de bebida pequea, y x=0 en cualquier otro
caso. Sea y=1 si se escoge aleatoriamente una orden de bebida mediana,
y=0 en cualquier otro caso. Sea z=1 si se escoge aleatoriamente una orden de
bebida grande, z=0 para cualquier otro caso.
a) Si px es la probabilidad de xito de x, determina la funcin de probabilidad.
b) Si p y es la probabilidad de xito de x, determina la funcin de probabilidad.
c) Si pz es la probabilidad de xito de x, determina la funcin de probabilidad.
d) Es pz = px + p y ?
e) Es z = x + y ?
f) Es posible que x e y sean iguales a 1 simultaneamente?
5. Sea X el nmero de horas semanales que los estudiantes de la ENAH dedican
al estudio. Se cree que X se distribuye aproximadamente normal con media
de 43 hrs. y desviacin estndar de 10 hrs. Se selecciona un alumno al azar,
cul es la probabilidad de que estudie:

86

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
a) ms de 45.2 hrs. Semanales
b) menos de 41.5 hrs. Semanales
c) menos de 38 hrs. Semanales
d) entre 39 y 44 hrs. Semanales
6. El tiempo de gestacin para los bebs humanos tiene una distribucin
aproximadamente normal con media de 278 das y desviacin estndar de 12
das.
a) Encuentre los cuartiles superior e inferior para los tiempos de gestacin
b) Sera raro que un beb naciera antes de 6 meses de gestacin? Explique.
7. En una cierta poblacin 15% de las personas tiene sangre Rh negativo. Un
banco de sangre recibe 92 donadores un da particular.
a) Cul es la probabilidad de que 10 o menos tengan Rh negativo?
b) Cul es la probabilidad de que entre 15 y 20 de los donadores tengan Rh
negativo?
c) Cul es la probabilidad de que ms de 80% de los donadores tengan Rh
positivo?
8. El 9% de los hombres y el 0.25% de las mujeres no pueden distinguir entre
los colores rojo y verde. Este tipo de daltonismo causa problemas con las
seales de trnsito. Los investigadores necesitan al menos 50 hombres con
este tipo de ceguera al color, de manera que seleccionan aleatoriamente a
600 hombres para un estudio de percepcin de las seales de trnsito.
Estima la probabilidad de que al menos 50 de los hombres no distingan entre
el rojo y el verde.
Es el resultados lo suficientemente alto como para que los investigadores
puedan confiarse de obtener al menos 50 hombres con daltonismo?
9. La calificacin media en un examen de estadstica fue de 7.2 y la desviacin
estndar de 0.9. En vista de esta situacin, el profesor decide que el 12% de
los alumnos con calificaciones mayores obtendrn la nota ms alta del
sistema de evaluacin. Suponiendo distribucin normal en la variable
calificacin:
a) Cul es la calificacin mnima que un estudiante debe tener para recibir la
nota ms alta?
b) Si el profesor considera que slo no aprobar el 5% cul es la calificacin
mnima aprobatoria?
10. En cierta poblacin el 98% de las personas tienen Rh positivo. Suponga que
se casan dos personas de esta poblacin que consta de 3643 pobladores.
cul es la probabilidad de que el factor Rh de los dos sea negativo, con lo
cual sera inevitable que sus hijos tuvieran Rh negativo?
11. La enfermedad de Tay-Sachs es una enfermedad mortal del sistema nervioso
que se transmite de padres a hijos. Si ambos padres son portadores de la
enfermedad, la probabilidad de que su descendencia la desarrolle es de 0.25.
Suponga que que una pareja es portadora de la enfermedad y que la esposa
ha estado embarazada en tres ocasiones. Si la ocurrencia de la enfermedad
de Tay-Sachs en cualquier descendiente es independiente de la ocurrencia
en cualquier otro, cul es la probabilidad de que:
a) Los tres nios desarrollarn la enfermedad de Tay-Sachs?
b) Slo un nio desarrollar la enfermedad de Tay Sachs?
12. Cada vez ms investigaciones y anlisis se centran en el nmero de
enfermedades asociadas con el organismo Escherichia coli que provoca la
descomposicin de los glbulos rojos y hemorragias intestinales en sus
vctimas. En la Cd. de Mxico se han presentado brotes espordicos de
Escherichia coli a una tasa de 2.5 por cada 100,000 individuos en un periodo
de 2 aos.
a) Cul es la probabilidad de que a lo sumo se den cinco casos de Escherichia
coli en un ao determinado?

87

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
b) Cul es la probabilidad de que se presenten ms de 5 caos de Escherichia
coli en un ao determinado?
c) Una frecuencia de 95% de Escherichia coli tiene que ver con a lo ms cuntos
casos?
13. Supongamos que el peso en nios de ltimo grado de jardn de nios en la
delegacin Milpa Alta tiene una distribucin aproximadamente normal con
media 18.25 kg. y una desviacin estndar de 2.96 kg. Suponiendo que se
toma un nio al azar en esta poblacin, cul es la probabilidad de que su
peso
a) sea menor de 14 kg.?
b) sea menor de 23 kg.?
c) sea mayor de 17 kg.?
d) sea mayor de 15 kg.?
e) est entre 15 y 19 kg.?
f) se encuentre entre 24 y 28 kg.?
14. En relacin con la poblacin mencionada en el ejercicio 13, se supone que la
variable estatura sigue una distribucin aproximadamente normal, con media
de 1066 mm. y una desviacin estndar de 46.10 mm. Supongamos que se
selecciona un nio al azar cul es la probabilidad de que su estatura:
a) sea menor de 1000 mm.
b) sea mayor de 1120 mm.
c) se encuentre entre 960 y 1140 mm. d) se encuentre entre 1150 y 1200 mm.
e) Si deseamos seleccionar al 5% de estatura ms baja, a partir de qu valor se
consideran?
f) Si deseamos seleccionar al 15% de estatura ms alta, a partir de qu valor se
consideran?
15. Investiga la expresin de la funcin de probabilidades geomtrica, su
esperanza y varianza y describe un ejemplo simulado en antropologa fsica.
16. Investiga la expresin de la funcin de probabilidades hipergeomtrica, su
esperanza y varianza y describe un ejemplo simulado en antropologa fsica.

88

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

UNIDAD III
5. ESTADSTICA DESCRIPTIVA
Breve historia de la estadstica
Los comienzos de la estadstica pueden ser hallados en el antiguo Egipto, cuyos faraones
lograron recopilar, hacia el ao 3050 antes de Cristo, prolijos datos relativos a la poblacin
y la riqueza del pas. De acuerdo al historiador griego Herdoto, dicho registro de riqueza
y poblacin se hizo con el objetivo de preparar la construccin de las pirmides. En el
mismo Egipto, Ramss II hizo un censo de las tierras con el objeto de verificar un nuevo
reparto.
En el antiguo Israel la Biblia da referencias, en el libro de los Nmeros, de los
datos estadsticos obtenidos en dos recuentos de la poblacin hebrea. El rey David por
otra parte, orden a Joab, general del ejrcito hacer un censo de Israel con la finalidad de
conocer el nmero de la poblacin[3].
Tambin los chinos efectuaron censos hace ms de cuarenta siglos. Los griegos
efectuaron censos peridicamente con fines tributarios, sociales (divisin de tierras) y
militares (clculo de recursos y hombres disponibles). La investigacin histrica revela
que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto
y ponderar la potencia guerrera.
Pero fueron los romanos, maestros de la organizacin poltica, quienes mejor
supieron emplear los recursos de la estadstica. Cada cinco aos realizaban un censo de
la poblacin y sus funcionarios pblicos tenan la obligacin de anotar nacimientos,
defunciones y matrimonios, sin olvidar los recuentos peridicos del ganado y de las
riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo suceda
uno de estos empadronamientos de la poblacin bajo la autoridad del imperio[4].
Durante los mil aos siguientes a la cada del imperio Romano se realizaron muy
pocas operaciones Estadsticas, con la notable excepcin de las relaciones de tierras
pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en
el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de
siervos. En Inglaterra, Guillermo el Conquistador recopil el Domesday Book o libro del
Gran Catastro para el ao 1086, un documento de la propiedad, extensin y valor de las
tierras de Inglaterra. Esa obra fue el primer compendio estadstico de Inglaterra[5].
Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra,
trataron de revivir la tcnica romana, los mtodos estadsticos permanecieron casi
olvidados durantes la Edad Media.
Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicols
Coprnico, Galileo, Neper, William Harvey, Sir Francis Bacon y Ren Descartes, hicieron
grandes operaciones al mtodo cientfico, de tal forma que cuando se crearon los Estados
Nacionales y surgi como fuerza el comercio internacional exista ya un mtodo capaz de
aplicarse a los datos econmicos.
Para el ao 1532 empezaron a registrarse en Inglaterra las defunciones debido al
temor que Enrique VII tena por la peste. Ms o menos por la misma poca, en Francia la
ley exigi a los clrigos registrar los bautismos, fallecimientos y matrimonios. Durante un
brote de peste que apareci a fines de la dcada de 1500, el gobierno ingls comenz a
publicar estadstica semanales de los decesos. Esa costumbre continu muchos aos, y
en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenan los nacimientos y
fallecimientos por sexo. En 1662, el capitn John Graunt us documentos que abarcaban
treinta aos y efectu predicciones sobre el nmero de personas que moriran de varias

89

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

enfermedades y sobre las proporciones de nacimientos de varones y mujeres que caba


esperar.
El trabajo de Graunt, condensado en su obra Natural and Political
Observations...Made upon the Bills of Mortality (Observaciones Polticas y Naturales ...
Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el anlisis
estadstico.
Por el ao 1540 el alemn Sebastin Muster realiz una compilacin estadstica de
los recursos nacionales, comprensiva de datos sobre organizacin poltica, instrucciones
sociales, comercio y podero militar. Durante el siglo XVII aport indicaciones ms
concretas de mtodos de observacin y anlisis cuantitativo y ampli los campos de la
inferencia y la teora Estadstica.
Los eruditos del siglo XVII demostraron especial inters por la Estadstica
Demogrfica como resultado de la especulacin sobre si la poblacin aumentaba,
decreca o permaneca esttica.
En los tiempos modernos tales mtodos fueron resucitados por algunos reyes que
necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos
pases. El primer empleo de los datos estadsticos para fines ajenos a la poltica tuvo
lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemn que viva en
Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los
aos terminados en siete mora ms gente que en los restantes, y para lograrlo hurg
pacientemente en los archivos parroquiales de la ciudad. Despus de revisar miles de
partidas de defuncin pudo demostrar que en tales aos no fallecan ms personas que
en los dems. Los procedimientos de Neumann fueron conocidos por el astrnomo ingls
Halley, descubridor del cometa que lleva su nombre, quien los aplic al estudio de la vida
humana. Sus clculos sirvieron de base para las tablas de mortalidad que hoy utilizan
todas las compaas de seguros.
Durante el siglo XVII y principios del XVIII, matemticos como Bernoulli, Francis
Maseres, Lagrange y Laplace desarrollaron la teora de probabilidades. No obstante
durante cierto tiempo, la teora de las probabilidades limit su aplicacin a los juegos de
azar y hasta el siglo XVIII no comenz a aplicarse a los grandes problemas cientficos.
Godofredo Achenwall, profesor de la Universidad de Gotinga, acu en 1760 la
palabra estadstica, que extrajo del trmino italiano statista (estadista). Crea, y con
sobrada razn, que los datos de la nueva ciencia seran el aliado ms eficaz del
gobernante consciente. La raz remota de la palabra se halla, por otra parte, en el
trmino latino status, que significa estado o situacin; Esta etimologa aumenta el valor
intrnseco de la palabra, por cuanto la estadstica revela el sentido cuantitativo de las ms
variadas situaciones.
Jacques Qutelet es quien aplica las Estadsticas a las ciencias sociales. Este
interpret la teora de la probabilidad para su uso en las ciencias sociales y resolver la
aplicacin del principio de promedios y de la variabilidad a los fenmenos sociales.
Qutelect fue el primero en realizar la aplicacin prctica de todo el mtodo Estadstico,
entonces conocido, a las diversas ramas de la ciencia.
Entretanto, en el perodo del 1800 al 1820 se desarrollaron dos conceptos
matemticos fundamentales para la teora Estadstica; la teora de los errores de
observacin, aportada por Laplace y Gauss; y la teora de los mnimos cuadrados
desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston
ide el mtodo conocido por Correlacin, que tena por objeto medir la influencia relativa
de los factores sobre las variables. De aqu parti el desarrollo del coeficiente de
correlacin creado por Karl Pearson y otros cultivadores de la ciencia biomtrica como J.
Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la
medida de las relaciones.

90

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Los progresos ms recientes en el campo de la Estadstica se refieren al ulterior


desarrollo del clculo de probabilidades, particularmente en la rama denominada
indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la
Fsica como resultado de las investigaciones atmicas y que este principio se juzga
aplicable tanto a las ciencias sociales como a las fsicas.

Etapas de Desarrollo de la Estadstica


La historia de la estadstica est resumida en tres grandes etapas o fases.
1.- Primera Fase: Los Censos:
Desde el momento en que se constituye una autoridad poltica, la idea de inventariar de
una forma ms o menos regular la poblacin y las riquezas existentes en el territorio est
ligada a la conciencia de soberana y a los primeros esfuerzos administrativos.
2.- Segunda Fase: De la Descripcin de los Conjuntos a la Aritmtica Poltica:
Las ideas mercantilistas extraan una intensificacin de este tipo de investigacin.
Colbert multiplica las encuestas sobre artculos manufacturados, el comercio y la
poblacin: los intendentes del Reino envan a Pars sus memorias. Vauban, ms
conocido por sus fortificaciones o su Dime Royale, que es la primera propuesta de un
impuesto sobre los ingresos, se seala como el verdadero precursor de los sondeos. Ms
tarde, Bufn se preocupa de esos problemas antes de dedicarse a la historia natural.
La escuela inglesa proporciona un nuevo progreso al superar la fase puramente
descriptiva. Sus tres principales representantes son Graunt, Petty y Halley. El penltimo
es autor de la famosa Aritmtica Poltica.
Chaptal, ministro del interior francs, publica en 1801 el primer censo general de
poblacin, desarrolla los estudios industriales, de las producciones y los cambios,
hacindose sistemticos durantes las dos terceras partes del siglo XIX.
3.- Tercera Fase: Estadstica y Clculo de Probabilidades:
El clculo de probabilidades se incorpora rpidamente como un instrumento de anlisis
extremadamente poderoso para el estudio de los fenmenos econmicos y sociales y en
general para el estudio de fenmenos cuyas causas son demasiados complejas para
conocerlos totalmente y hacer posible su anlisis.
Conceptos bsicos
Hemos visto ya cmo, superando una actividad al servicio gubernamental y
enriquecindose con teoras como el clculo de probabilidades, la estadstica logr
consolidarse para el siglo XIX como disciplina cientfica per se. Pese a ello, las
posibilidades que esta ciencia ofrece para analizar y entender datos numricos han sido
razn suficiente para que muchos otros campos sigan encontrando en ella una
herramienta para alcanzar conclusiones y tomar decisiones.
Variables

91

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Cuando el cuestionar un fenmeno deriva en un estudio, lo primero que debe hacerse es


definir el problema concreto y sugerir una hiptesis. sta puede contemplar que uno o
ms elementos conforman dicho fenmeno o interactan con l, motivo por el cual ha de
investigrseles.
Sin importar la temtica del estudio, debe considerarse como constantes a los factores
que se descubre son inmutables y como variables a todas las caractersticas
cambiantes, porque demuestran poseer valores diferentes, sean nmeros resultantes de
una medicin o nmeros asignados a partir de un conteo u otra pauta. Pero es
precisamente esta sutil diferencia lo que permite especificar y clasificar el gnero y tipo de
las variables a investigar:
Variables cualitativas
Variables que dan informacin respecto a los atributos de una entidad; razn por la que
sus valores son nicamente categoras que no pueden ser medidas, slo contadas para
encontrar su frecuencia.
Nominales: Variables en las que slo se nombra o designa con etiquetas a las
observaciones, por lo cual sus valores no pueden ser comparados o
jerarquizados de forma alguna.
Ejemplos: Sexo, nacionalidad, idioma y color de piel.
Ordinales: Variables cuyos valores son categoras, las cuales pueden
ordenarse de acuerdo a la relacin que exista entre ellas (de menor a mayor
grado, por ejemplo) o a otro criterio cuya escala no es necesariamente precisa
y/o equitativa.
Ejemplos: Escolaridad, estado de salud y nivel socioeconmico.

Variables cuantitativas
Variables que aportan informacin respecto a cantidades; por tal motivo su valor puede
ser medido y representado numricamente.
Discretas: Variables que, al poseer un nmero finito de valores posibles,
muestran interrupciones en su escala. Es por ello que los nmeros de las
variables cuantitativas discretas son generalmente enteros.
Ejemplos: Nmero de personas y objetos.
Continuas: Variables en cuyo intervalo posible existe un nmero infinito de
valores; debido a ello pueden mostrar valores decimales o fraccionarios.
Empero, cabe remarcar que las variables cuantitativas continuas terminan por
ser registradas como discretas debido a las formas e instrumentos de
medicin.
Ejemplos: Peso, estatura, edad, dimetros y permetros antropomtricos.

Datos, investigacin y estadstica


Decididos los factores a investigar (constantes y variables), es necesario recopilar
informacin y datos sobre ellos. Una primera opcin es echar mano de fuentes como:

92

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Registros: Cdulas, libros y dems formatos donde las instituciones registran su


actividad cotidiana.
Literatura: Informes, artculos y publicaciones en los que puede indagarse la
respuesta dada a una pregunta para ver si es aplicable a la problemtica actual.
Empero, cuando la informacin requerida no se halla disponible, no ha sido almacenada o
no existe, uno deben generar sus propios datos mediante diversos procedimientos; entre
ellos:
Encuesta: Metodologa para recolectar informacin a travs de elementos como
cuestionarios y entrevistas.
Experimentacin: Proceso en que un fenmeno es recreado de manera
controlada a fin de registrar sus resultados.
La observacin de estos materiales o procesos tiene por resultado el registro de
informacin que, al ser contada o medida, puede representarse con nmeros y conformar
un grupo de datos. La simple necesidad de manejarlos sugiere entonces el uso de la
estadstica descriptiva; es decir, el conjunto de tcnicas que esta disciplina posee para
recolectar, organizar, resumir y analizar la informacin contenida en datos.
Ahora bien, por cuestiones de tiempo, recursos o costo, las investigaciones pocas veces
recaban informacin sobre la poblacin; esto es, el conjunto total de entidades de inters
para su estudio, sean individuos, objetos o lugares. Los datos se obtienen entonces de
muestras: subconjuntos o fracciones de la poblacin.
Por ende, si el objetivo de la investigacin es, ms all de analizar un caso, estudiar un
fenmeno, es la estadstica inferencial quien, basada en la teora de probabilidades
(bajo el principio de que pese al azar es posible determinar un orden y regularidad en los
procesos), permite hacer afirmaciones sobre la poblacin a partir de lo observado en una
muestra.
Cabe mencionar, sin embargo, que aun mantenindose en el nivel de la estadstica
descriptiva, el objetivo de dicha metodologa es investigar y evaluar la naturaleza y el
significado de los datos, razn por la cual, adems de dominar las tcnicas, cualquier
usuario de la estadstica debe estar preparado para interpretar los nmeros y comunicar
sus resultados.
ORGANIZACIN Y ANLISIS DE VARIABLES
A menos que sean muy pocos, los datos recolectados (crudos) no permiten determinar la
informacin contenida en ellos. Para lograr su anlisis la estadstica ha propuesto una
serie de tcnicas que, dependiendo del tipo de variable, echan mano de herramientas
como tablas, grficas y ciertas medidas.
A fin de revisar su aplicacin, en este captulo realizaremos algunos ejercicios con las
observaciones recolectadas a travs de la cdula Autopercepcin, sexualidad y
antropometra. Dicha encuesta fue aplicada a los alumnos del turno matutino y vespertino
que asistieron a la materia de Estadstica (en la licenciatura de Antropologa fsica de la
Escuela Nacional de Antropologa e Historia) en el periodo 2008-1. Para futuras
referencias, la cdula y base de datos generada se anexan como apndices.
Heramientas para el anlisis de variables cualitativas

93

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Tablas de frecuencias
Son tablas en las que seala: primero, cuntas veces aparece cada etiqueta de la variable
a lo largo de toda la muestra; es decir, su frecuencia (simple). Despus, cul es su
densidad; esto es, su frecuencia relativa: valor que puede calcularse dividiendo el
nmero de casos observados entre el tamao de la muestra (n ) y que, multiplicado por
cien, indica el porcentaje de la etiqueta respecto al total:
VARIABLE

FRECUENCIA

FRECUENCIA
RELATIVA

Etiqueta 1

# de casos

casos n

Etiqueta 2

# de casos

Etiqueta 3
()
Etiqueta n

# de casos

casos n
casos n

(casos n ) 100
(casos n ) 100
(casos n ) 100

# de casos

casos n

(casos n ) 100

Tamao de
muestra (n )

1.0000

100.00

TOTAL

PORCENTAJE

En el caso de variables cualitativas ordinales tambin es posible obtener dos tipos de


frecuencias ms: la frecuencia acumulada (que consiste en la suma de las frecuencias
simples) y la frecuencia relativa acumulada (donde la frecuencia acumulada se divide
entre el tamao de la muestra), siendo la ltima sumamente til cuando se desea
encontrar la frecuencia total de los precedentes de una categora con el objetivo de
reconocer el porcentaje de casos que se encuentran por debajo de su nivel:

VARIABLE FRECUENCIA

FRECUENCIA
RELATIVA

FRECUENCIA
ACUMULADA

FRECUENCIA
RELATIVA
ACUMULADA

[(c1 ) n]

Categora
1

Casos (c1 )

(c1 n)

[(c1 )]

Categora
2

Casos (c2 )

(c2 n)

[(c1 ) + (c2 )]

Categora
3

Casos (c3 )

(c3 n )

[(c1 ) + (c2 ) + (c3 )]

()

()

()

Categora

Casos (c n )

(cn n )

()
Tamao de
muestra (n )

Tamao de
muestra (n )

1.00

n
TOTAL

(c1 ) + (c 2 )

(c1 ) + (c 2 ) + (c3 )

()

1.00

Grficas de frecuencias

94

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Otra forma de resumir y a la vez representar los datos de una variable cualitativa es a
travs de grficos. Por tratarse de caractersticas cuyos valores son categoras con
determinada frecuencia relativa se sugiere entonces el uso de grficas de barras o de
grficas circulares:
a) Grficas de barras: Las grficas de barras se caracterizan por construirse en
base a dos ejes: en el horizontal (abscisas, X) se distinguen las categoras de la
variable y a partir de l se construyen los rectngulos con la altura (frecuencia) que
sta present, de acuerdo a la escala que se indica en el eje vertical (ordenadas,
Y).
Cabe remarcar ahora, dos cosas sobre este tipo de grficas:
Las barras pueden estar separadas debido a que no hay continuidad entre las
categoras.
Se sugiere que las frecuencias utilizadas en la construccin del grfico sean las
relativas, ya que estas permiten observar y comparar las proporciones o
porcentajes que presentaron las categoras.
DISTRIBUCIN DE LA VARIABLE RIESGO
DE PADECER ENF. CARDIOVASCULAR
Alumnos de estadstica 2008-1 (n=66)
80
76

Porcentaje

60

40

20
17
8

0
Bajo

Elevado

Muy elevado

Riesgo de padecer enfermedad cardiovascular

b) Grficas circulares: Por su parte, las grficas circulares son ms difciles de


trazar manualmente, pues debe dividirse un crculo (100% = 360) de acuerdo al

porcentaje que cada categora mostr (K % = X ) y para ello, ms que una regla
de tres, se requiere de un comps y un transportador. Pese a todo, las grficas
circulares permiten comparar de manera mucho ms clara los porcentajes de las
categoras.
DISTRIBUCIN DE LA VARIABLE RIESGO
DE PADECER ENFERMEDAD CARDIOVASCULAR
Alumnos de estadstica 2008-1 (n=66)
Muy elevado

Elevado
16.7%

Por ltimo es necesario mencionar


que, no importando cul sea el tipo
de grfica, siempre debe aadirse al
grfico un ttulo que d claridad a lo
representado y hacer explcito el
tamao de la muestra (n ) .

75.8%

Bajo

95

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Tablas de contingencia
Cuando lo que se desea es descubrir si entre dos variables cualitativas existe asociacin
(y, dado el caso, su intensidad) se echa mano de las tablas de contingencia: tablas de
dos entradas donde se colocan los datos cruzados de las variables; es decir,
especificando en las celdas el nmero de casos que cumplen con ambas categoras:

Categora
A

VARIABLE DEPENDIENTE
Categora
Categora
()
B
C

casos(1A)

casos(1B )

casos(1C )

casos(2 A)

casos(2 B )

casos(3 A)

Categora

TOTAL

()

X
casos(1X )

casos(1)

casos(2C )

()

casos(2 X )

casos(2)

casos(3B )

casos(3C )

()

casos(3 X )

casos(3)

()

()

()

()

()

()

casos(nA)

casos(nB )

casos(nC )

()

casos(nX )

casos(n )

TOTAL

casos( A)

casos(B )

casos(C )

()

casos( X )

Tamao
de la
muestra

VARIABLE
INDEPENDIENTE

Categora
1
Categora
2
Categora
3
()
Categora

Sin embargo, interpretar un fenmeno a partir de los datos de las celdas es un error, pues
el valor que stas presentan depende directamente de los casos observados en cada
categora. Por ende, en vista de hacer conclusiones correctas es necesario obtener
porcentajes (segn se requiera) a partir de una de las siguientes formas:

Del total: Para obtener estos porcentaje se divide el valor de la celda entre el
tamao total de la muestra (celda n ) . No obstante, al igual que los valores reales,
dichos porcentajes no proporcionan mucha informacin ya que se ven afectados
por el nmero de casos presente en cada categora.

Por columnas: Porcentajes que se obtienen dividiendo el valor de la celda entre el


total de cada columna [celda (n )columna], permitiendo comparar, para cada
categora de la variable independiente, las categoras de la variable dependiente.

Por renglones: Porcentajes que se obtienen dividiendo el valor de la celda entre


el total de cada regln [celda (n )regln] , lo cual permite, por ende, comparar cada
categora de la variable dependiente entre las categoras de la independiente.

Aunque pudiera parecer indistinto el uso de porcentajes por columna o por rengln, ste
ltimo resulta ms fcil de interpretar y, debido a la estructura de la tabla, permite analizar
de manera ms adecuada si alguna caracterstica posee relacin con una variable
independiente.

96

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Grficas de anlisis bivariado


Hemos visto ya que las tablas de contingencia permiten descubrir la asociacin entre dos
variables cualitativas. No obstante, el nmero de datos y porcentajes obtenidos a partir de
ellas pueden confundir a cualquier lector; veamos entonces qu alternativas grficas
tenemos para representar sus resultados:
a) Grficas de barras: Una opcin es, de nuevo, el uso de grficas de barras. No
obstante, el representar dos variables genera un cambio en su construccin: la
variable dependiente se estipula en el eje de las abscisas y, en vez de construir
una barra para cada una de sus categoras, deben construirse tantas barras como
clases tiene la variable independiente.
DISTRIBUCIN DE LA VAR. RIESGO DE PADECER
ENFERMEDAD CARDIOVASCULAR POR SEXO
Alumnos de estadstica 2008-1 (n=66)
100
88

Porcentaje

80

60

68

40

Sexo

20

Femenino

22
8

0
Bajo

Elevado

10

Masculino

Muy elevado

Riesgo de padecer enfermedad cardiovascular

b) Grficas de lneas: Al igual que en la grfica de barras, la variable dependiente se


ubica en el eje de las abscisas y la frecuencia en el de las ordenadas. Pero en vez
de tener que construir tantas barras, basta con separar las categoras de la
variable independiente, ubicar con un punto los porcentajes que cada una mostr
respecto a las categoras de la variable dependiente y unir estas marcas mediante
una lnea. Esto permite no slo simplificar el copioso nmero de barras a tantas
lneas como categoras tiene la variable independiente, sino adems observar de
manera ms clara cualquier tendencia en la asociacin.

97

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

TENDENCIA DE LA VAR. RIESGO DE PADECER


ENFERMEDAD CARDIOVASCULAR POR SEXO
Alumnos de estadstica 2008-1 (n=66)
100

Porcentaje

80

60

40

Sexo

20

Femenino

Masculino

Bajo

Elevado

Muy elevado

Riesgo de padecer enfermedad cardiovascular

Heramientas para el anlisis de variables cuantitativas


Arreglo ordenado
El primer paso para organizar y analizar las variables cuantitativas es, sin duda alguna,
ordenar los datos de manera creciente, pues la lista resultante nos permitir encontrar los
valores extremos que la variable analizada mostr.

Intervalos de clase
Sean discretas o continuas, las variables cuantitativas poseen un sinfn de valores
posibles, cuya frecuencia en un conjunto de datos suele ser muy baja. Dado que su
organizacin en una tabla de frecuencias no permite sacar conclusiones, la estadstica ha
encontrado que la mejor forma de analizarlos es agrupar sus valores en clases (tambin
conocidas como intervalos) a travs de los siguientes pasos:
1) Establecer el rango (R ) : El rango es la diferencia entre el valor ms pequeo y el
ms grande observados en un conjunto de datos, razn por la cual ste puede calcularse
haciendo una simple resta: Rango = Valor mayor valor menor, que de ahora en
adelante simplificaremos como:

R = Vmax Vmin
Aunque dicha expresin aplica para la mayora de los casos, si en la muestra se observan
datos atpicos es mejor excluirlos del clculo y dejar abiertos los intervalos.
2) Estipular el nmero de intervalos de clase (ni ) : Se entiende por intervalo de clase
al subconjunto del rango que contiene varios valores; es decir, los grupos en que se
categorizan los valores de la variable. Si bien existen muchas reglas para definir su
nmero, en este manual se sugiere que no sean ms de cinco si los datos son menos de
doscientos (n < 200) .

98

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

3) Calcular el ancho del intervalo (W ) 1: El ancho del intervalo es la diferencia entre el


lmite inferior de un intervalo y el lmite inferior del intervalo siguiente; por otro lado, su
valor es el cociente del rango entre el nmero de intervalos:

W =R

ni

4) Definir los intervalos: Calculado lo anterior, resta hacer explcitos los intervalos:

4.1) Defnanse primero los lmites


inferiores de cada intervalo: El primero
es el valor ms pequeo observado
entre los datos, el segundo ese valor
ms el ancho del intervalo, el tercero ese
valor ms dos anchos de intervalo y as
consecutivamente:

INTERVALO DE
CLASE (ni )

n1
n2
n3
n4
n5

LMITE INFERIOR

Vmin
(Vmin + W )
(Vmin + 2W )
(Vmin + 3W )
(Vmin + 4W )

4.2) Defnanse despus los lmites superiores de cada intervalo: El lmite superior
de cada intervalo debe ser justo menor al lmite inferior del siguiente intervalo con el fin
de evitar que un dato pueda considerarse en dos clases. Una opcin para lograr esto
es hacer que el ltimo decimal del lmite superior sea una cifra menor al ltimo decimal
del lmite inferior del siguiente intervalo. No obstante, la mejor alternativa es utilizar
corchetes y parntesis: smbolos matemticos que, en un intervalo, sealan cuando un
valor debe o no tocarse, respectivamente:
INTERVALO DE CLASE (ni )

n1
n2
n3
n4
n5

LMITE INFERIOR

[Vmin

[(Vmin + W )
[(Vmin + 2W )
[(Vmin + 3W )
[(Vmin + 4W )

LMITE SUPERIOR

(Vmin + W ))
(Vmin + 2W ))
(Vmin + 3W ))
(Vmin + 4W ))
Vmax ]

Tablas de frecuencias
Igual que las tablas de frecuencias de las variables cualitativas de tipo ordinal, las tablas
de frecuencias para las variables cuantitativas estn conformadas por cinco columnas: la
primera hace referencia al intervalo y las otras cuatro a las frecuencias de ste:
VARIABLE FRECUENCIA

FRECUENCIA
RELATIVA

FRECUENCIA
ACUMULADA

FRECUENCIA
RELATIVA

Letra asignada por la palabra ancho en ingls (wide).

99

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

ACUMULADA

Intervalo 1

Casos (n1 )

(n1 n )

[(n1 )]

Intervalo 2

Casos (n2 )

(n2 n)

[(n1 ) + (n2 )]

Intervalo 3

Casos (n3 )

(n3 n )

[(n1 ) + (n2 ) + (n3 )]

()

()

()

Intervalo

Casos (nn )

(nn n )

()
Tamao de
muestra (n )

Tamao de
muestra (n )

1.00

n
TOTAL

[(n1 ) n]
(n1 ) + (n 2 )

(n1 ) + (n 2 ) + (n3 )

()

1.00

Histogramas
Histograma es el nombre que se da a las grficas de barras que se utilizan para
representar grficamente las variables cuantitativas. Aunque programas como el SPPS
generan dichos grficos considerando en el eje de las ordenadas a las frecuencias
simples, nosotros optaremos por realizar histogramas de frecuencias relativas con el fin
de analizar mejor las variables respecto a la muestra.
De cualquier forma, las barras de este tipo de grficas son adyacentes ya que, con saltos
en su escala o no, las variables cuantitativas poseen valores con un orden continuo.

DISTRIBUCIN DE LA VAR. EDAD EXACTA


SEXO MASCULINO
Alumnos de estadstica 2008-1 (n=25)
30

Porcentaje

28
20

20

20
16

16

10

0
5+
.4
26

1
.4

4
.4
26
2.4
24

24
9.3
22

5
.3

8
.3
22
6.3
20

20
3.3
18

Edad exacta

Polgonos de frecuencia
Los polgonos de frecuencia son grficas de tipo lineal que tambin permiten reconocer
la distribucin de frecuencia de una variable cuantitativa. Su construccin requiere ubicar
la interseccin entre la frecuencia relativa de cada intervalo y las MARCAS DE CLASE;
es decir, los valores situados exactamente a la mitad de cada intervalo. Una vez que se

100

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

marcan dichas intersecciones, stas se unen mediante una lnea que se extiende hasta
tocar el eje de las abscisas en ambos extremos para delimitar un polgono.
El rea de ste es igual al rea que ocupan las barras de un histograma, razn por la cual
un polgono de frecuencia se interpreta igual que aqul, pero su ventaja es que, al ocupar
menos espacio, permite comparar diferentes grupos respecto a una variable.

Porcentaje

DISTRIBUCIN DE HOMBRES
POR EDAD EXACTA
Alumnos de estadstica 2008-1 (n=25)

30.00%
25.00%
20.00%
15.00%
10.00%
5.00%
0.00%
18.33 20.35

20.36 22.38

22.39 24.41

24.42 - 26.45 +
26.44

Edad exacta

Ojivas
Finalmente tenemos a las ojivas, grficos lineales que muestran de manera ms clara la
tendencia de una variable y nos permiten inspeccionar visualmente el porcentaje de casos
menores o mayores a uno de sus valores (no necesariamente presente en los datos).
Debido a esto, las ojivas contemplan en el eje de las ordenadas la frecuencia relativa
acumulada (o porcentaje acumulado) y los lmites de los intervalos en el eje de las
abscisas:
a) Ojivas menos de: Son las que permitan ubicar el porcentaje de casos menores a
un valor, por tal motivo, su trazo e interpretacin implica la siguiente metodologa:
1) Reconocer los lmites de los intervalos: De manera ms especfica. distinguir el
valor del lmite inferior de cada intervalo (L inf i ) .
2) Observar las frecuencias de los intervalos: Advertir la frecuencia acumulada y
relativa acumulada antes de cada intervalo (ni ) .
INTERVALOS

FRECUENCIA

n1 = (L inf1 , L sup1 )
n2 = (L inf 2 , L sup 2 )
n3 = (L inf 3 , L sup 3 )

FREC.
RELATIVA

FREC,
ACUMULADA

FREC. REL.
ACUMULADA

1.0000

()

n n = (L inf n , L sup n )
TOTAL

1.0000
101

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

3) Construir una tabla con los datos para la ojiva: En esta tabla debe sealarse
las frecuencias anteriores, cada una con la etiqueta correspondiente Menos de
L inf i . Ntese que las frecuencias acumuladas van en aumento y que:
VARIABLE
Menos de

L inf1
Menos de

L inf 2
Menos de

L inf 3
()
Menos de

L inf n
Menos de

> L inf n

FREC.
ACUMULADA

FREC. REL.
ACUMULADA

()

()

1.0000

Si el primer intervalo era abierto,


debe considerarse una categora
para las frecuencias acumuladas
hasta su lmite inferior (lo cual
normalmente deviene en 0 y 0%)
Si el primer intervalo era cerrado,
puede iniciarse las categoras
registrando
las
frecuencias
acumuladas hasta el segundo
intervalo.

Si el ltimo intervalo fue


cerrado, basta registrar las
frecuencias acumuladas hasta el penltimo intervalo.
Si el ltimo intervalo era abierto, debe considerarse adems una categora de las
frecuencias acumuladas para el resto de sus valores (que deben corresponder al
tamao de la muestra y al 100% del total).

4) Trazar la ojiva:
OJIVA MENOS DE EDAD
(n=95,429,611)
120

100

Porcentaje acumulado

Calculado esto se traza una grfica


de dos ejes: en el de las abscisas se
indican los lmites inferiores de los
intervalos y en el de las ordenadas
se elabora la escala para la
frecuencia
relativa
acumulada.
Hecho esto, se seala con un punto
la frecuencia de cada categora
Menos de L inf i y se les une
mediante una lnea, que siempre es
creciente:

80

60

40

20
0
10

20

30

40

50

60

70

Ms

Edad

5) Ubicar el porcentaje menor a un valor: Finalmente, para calcular el porcentaje


de casos menores a un valor se eleva una lnea vertical desde la posicin de ste
(en el eje de las abscisas) hasta la ojiva, y de ah se tiende una lnea perpendicular
hasta el eje de las ordenadas. Dicha lnea horizontal cruzar el eje vertical, de
manera aproximada, a la altura del porcentaje buscado:

102

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

b) Ojivas ms de: Ojivas que hacen posible ubicar el porcentaje de casos mayores a
un valor al indicar en el eje de las abscisas los lmites superiores de los intervalos.
Su construccin, por ende, implica seguir una metodologa diferente a la que vimos
anteriormente:
1) Reconocer los lmites de los intervalos: De manera ms especfica. distinguir el
valor del lmite superior de cada intervalo (L sup i ) .
2) Observar las frecuencias de los intervalos: Observar la frecuencia simple de
cada intervalo (ni ) .
INTERVALOS

FREC.
RELATIVA

FRECUENCIA

n1 = (L inf1 , L sup1 )
n2 = (L inf 2 , L sup 2 )
n3 = (L inf 3 , L sup 3 )

FREC,
ACUMULADA

FREC. REL.
ACUMULADA

1.0000

()

n n = (L inf n , L sup n )

TOTAL

1.0000

3) Construir una tabla con los datos para la ojiva: En esta tabla cada categora
Ms de L sup i implica ir restando la frecuencia simple del intervalo previo.
FREC.
ACUMULADA

FREC. REL.
ACUMULADA

L sup1

Ms de

VARIABLE
Ms de

Vmin
Ms de

103

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Vase que:

L sup 2
()
Ms de

()

()

La primer categora es Ms que


Vmin , ya que el valor ms
Fn
Frel n
L sup n
pequeo que se haya observado
deja a todos los casos (100.00%) por encima de l. Su frecuencia acumulada es,
por ende, igual al tamao de la muestra (n ) .

Para obtener las frecuencias de los siguientes renglones basta ir restando, a la


frecuencia acumulada de la categora anterior, la frecuencia simple del intervalo
cuyo lmite superior se us. Por ejemplo, para obtener la frecuencia acumulada de la
categora Ms de L sup1 restamos al tamao de la muestra la frecuencia simple

del intervalo 1 (n1 ) . Para calcular la frecuencia acumulada de la categora Ms de

L sup 2 restamos a la frecuencia acumulada de Ms de L sup1 la frecuencia


simple del intervalo 2 (n2 ) . Y as consecutivamente, hasta que la frecuencia
acumulada y frecuencia acumulada relativa de la ltima categora coinciden con la
frecuencia simple y la frecuencia relativa del ltimo intervalo ( Fn y Frel n ).

En cuanto a las frecuencias relativas acumuladas no hay problema alguno, pues


como siempre se calculan dividiendo el valor de la frecuencia acumulada entre el
total de observaciones.
OJIVA MS DE EDAD
(n=95,429,611)

Este paso es igual al de las


ojivas menos de con excepcin
que en el eje de las abscisas se
indican los lmites superiores de
intervalos y que lnea resultante
(por su interseccin con la
frecuencia
acumulada)
es
siempre decreciente:

Porcentaje acumulado

4) Trazar la ojiva:
120%
100%
80%

de

60%
40%

los

20%
0%
Ms de Ms de Ms de Ms de Ms de Ms de Ms de Ms de
0
9
19
29
39
49
59
69
Edad

5) Ubicar el porcentaje mayor a un valor:


Para encontrar dicho
porcentaje debe tambin
elevarse
una
lnea
vertical a partir del valor y
trazarse la perpendicular
hasta el eje de las
ordenadas.

Ejemplos de aplicacin

104

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

1.
En 2001 el Instituto Nacional de Estadstica, Geografa e Informtica (INEGI) y
diversos investigadores de las Universidades de Pennsylvania, Maryland, y Wisconsin de
los Estados Unidos de Norteamrica aplicaron la primera encuesta del Estudio Nacional
sobre Salud y Envejecimiento en Mxico (ENASEM-2001), investigacin con que se
busca crear una base inicial de datos de la que se pueda obtener informacin sobre
caractersticas diversas de la poblacin de 50 aos y ms residente en Mxico, cuyos
resultados sean representativos a nivel nacional2.
Entre las caractersticas a investigar se hallaba el sexo y alfabetismo del individuo;
variables que entre la muestra de indgenas (n = 796) tuvieron los siguientes resultados:
VARIABLE
Masculino
Femenino
Alfabeta
ALFABETISMO
No alfabeta3
SEXO

405
391
487
309

a.1 y a.2) Construir una tabla de frecuencia y grfica circular para cada variable.
b) Si 289 de los hombres eran alfabetos y de las mujeres 198 tambin, comprobar si
existe una asociacin entre ambas variables mediante una tabla de contingencia y una
grfica de barras.
Para resolver el primer inciso ordenamos los datos de cada variable y obtenemos
entonces sus frecuencias relativas y los porcentajes que stas implican.
SEXO

FRECUENCIA

Masculino

405

Femenino

FRECUENCIA
RELATIVA

PORCENTAJE

391

405 796 = 0.5088


391 796 = 0.4912

49.12

TOTAL

796

1.0000

100.00

ALFABETISMO

FRECUENCIA

FRECUENCIA
RELATIVA

PORCENTAJE

Alfabeta

487

No alfabeta
TOTAL

50.88

61.18

309

487 796 = 0.6118


309 796 = 0.3882

796

1.0000

100.00

38.82

a.1) , De acuerdo a las frecuencias obtenidas podemos afirmar que, en la muestra de


indgenas de 50 aos o ms, se encuestaron y entrevistaron a ms mujeres que a
hombres. Por otro lado, el porcentaje de personas que saban leer y escribir un recado
(alfabetos) era 1.6 veces mayor [(61.18 38.82) = 1.6] .

s/a, 2004. Estudio Nacional de Salud y Envejecimiento en Mxico (ENASEM) 2001. Documento
metodolgico y reporte de proyecto. Formato electrnico:
http://www.mhas.pop.upenn.edu/english/documents/Methodological/Doc_metodologico-v2.pdf
3
Segn la afirmacin de que no saban leer ni escribir un recado.

105

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Ahora bien, generamos las grficas circulares para dichas variables:


FUENTE:
Estudio Nacional sobre Salud y Envejecimiento en Mxico (ENASEM), 2001
DISTRIBUCIN POR SEXO

DISTRIBUCIN DEL ALFABETISMO

Indgenas de 50 aos o ms (n=796)

Indgenas de 50 aos o ms (n=796)

No alfabeta
Femenino

Masculino

49.1%

50.9%

38.8%
Alfabeta
61.2%

a.2) , Si bien el porcentaje femenino era mayor, ms que las frecuencias, la grfica nos
permite ver que no hubo una gran diferencia en la cantidad de mujeres y hombres
encuestados. Por el contrario, aunque aqu la diferencia en el alfabetismo no es tan fuerte
como en la comparacin numrica, la grfica comprueba un mayor porcentaje de alfabetas.
Ahora, para analizar si existe una asociacin entre las variables, construimos la tabla de
contingencia:

Masculino
Femenino
TOTAL

SEXO

ALFABETISMO
Alfabeta
No alfabeta
289
198
487
309

TOTAL
405
391
796

Como no se hicieron explcitas las frecuencias de los casos que no saban leer ni escribir
un recado, basta realizar un par de restas al nmero total de casos de cada sexo para
obtenerlos: 405 289 = 116 y 391 198 = 193 ; valores que suman el total de casos no
alfabetas: 116 + 193 = 309
Una vez calculado esto, terminemos de elaborar la tabla y saquemos los porcentajes por
rengln:
ALFABETISMO ALFABETISMO
Alfabeta
No alfabeta
289
116
Masculino
28.64%
71.36%
SEXO
198
193
Femenino
50.64%
49.36%
487
309
TOTAL TOTAL
61.18%
38.82%

TOTAL
405
100%
391
100%
796
100%

106

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

, El porcentaje de alfabetismo es mayor en el sexo masculino, mientras que el porcentaje


de analfabetismo es mayor en el femenino. Tal distribucin puede deberse a una cuestin
genrica; es decir, cultural, pues al menos en dcadas atrs se daba prioridad a que los
hombres fueran a la escuela para prepararse, mientras que las mujeres se quedaban en
casa a fin de ayudar con las labores domsticas.

Finalmente realicemos la grfica de barras correspondiente:


DISTRIBUCIN DEL ALFABETISMO
POR SEXO
Indgenas de 50 aos o ms (n=796)
80
71

Porcentaje

60
51

49

40

29

20

Sexo

FUENTE:
Estudio Nacional sobre
Salud y Envejecimiento
en Mxico (ENASEM),
2001.

Masculino
0

Femenino
Alfabeta

No alfabeta

Alfabetismo

, Las barras muestran las diferencias entre el alfabetismo femenino y masculino.


Incluso cuando la causa sea diferente a la planteada anteriormente, este grfico
confirma tambin una asociacin entre las variables.

2.
Otra de las cuestiones a estudiar en el ENASEM-2001 fue la salud del individuo y
su autopercepcin de sta; por tanto, una de las variables consideradas fue si el
encuestado tena o no dificultades para caminar de un lado a otro de su cuarto. He aqu
los resultados de hombres y mujeres por grupo quinquenal:

GRUPO
QUINQUENAL
50-54
55-59
60-64
65-69
70-74
75-79
80+

HOMBRES
Con
Sin
dificultad dificultad
17
1598
26
1459
33
1116
46
998
72
638
54
476
129
370

MUJERES
Con
Sin
dificultad dificultad
44
1927
46
1686
49
1326
46
981
60
641
61
441
202
422

a) Determinar mediante una grfica de lneas si existe alguna asociacin entre estas
variables.

107

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Como el inters reside en averiguar si existe asociacin entre la edad y la dificultad para
caminar (presencia de una caracterstica), slo graficaremos los porcentajes
correspondientes a sta separando los datos por sexo.
DIFICULTAD PARA CAMINAR POR
GPO. QUINQUENAL Y SEXO
Indgenas de 50 aos o ms (n=796)
50

FUENTE:
Estudio Nacional sobre
Salud y Envejecimiento
en Mxico (ENASEM),
2001.

Porcentaje

40

30

20

Sexo

10

Masculino

0
50-54

Femenino
55-59

60-64

65-69

70-74

75-79

80+

Grupo quinquenal

a) , La grfica de lneas nos muestra que efectivamente existe una asociacin


directa entre el grupo quinquenal y los problemas para caminar; pues a mayor edad
los sujetos aseguraron tener ms dificultad en hacerlo. En cuanto a la comparacin
por sexo, ms mujeres afirmaron padecer este problema a edades menores y
mayores que los hombres.

3.
De acuerdo a los Programas Integrados de Salud (PREVENIMSS) del Instituto
Mexicano del Seguro Social (IMSS), hay dos tipos de distribucin de grasa en el
organismo que se asocian a la aparicin de enfermedades:
1. Ginecoide (en forma de pera): Acumulacin de grasa en muslos y cadera que
deriva usualmente en vrices y dolor de rodillas.
2. Androide (en forma de manzana): Distribucin de grasa al nivel de la cintura que
predispone al desarrollo de diabetes, cncer de colon, mama o endometrio;
elevacin del colesterol y triglicridos (grasas en sangre), infartos, embolias y
muerte prematura por enfermedad cardiovascular4.
Ante dicha circunstancia, el IMSS sugiere que las personas estn al pendiente de sus
medidas; especialmente de la circunferencia de su cintura, y la interpreten de acuerdo a la
siguiente tabla a fin de tomar acciones preventivas en caso necesario:
CIRCUNFERENCIA DE CINTURA (cm.)
MUJERES
HOMBRES
Menor de 80.0
Menor de 94.0

INTERPRETACIN
Normal Sin riesgo

IMSS, 2005. Prevencin, deteccin y control de sobrepeso y obesidad en Gua de la salud de la mujer,
36-42 p.p. Documento electrnico: http://www.imss.gob.mx/NR/rdonlyres/E36D4BB0-C252-4B7C-A44E6DE664C76609/0/GCSmuj3150.pdf

108

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

De 80.0 a 87.9
Igual o mayor a
88.0

De 94.0 a 101.9
Igual o mayor a
102.0

Riesgo elevado para la salud


Riesgo muy elevado para la salud

Basndose en esta informacin:


a) Construir una tabla de frecuencias, histograma y ojiva con los datos de Permetro de la
cintura recolectados entre los estudiantes de estadstica (por sexo) para reconocer la
distribucin de esta variable y analizar si existen casos con riesgo.
Para empezar, ordenemos los datos y definamos los cinco intervalos sin considerar
ningn caso como atpico:
MUJERES - PERMETRO DE CINTURA
556
599
599
605

606
640
643
645

649
653
654
655

655
659
660
664

686
691
703
703

712
719
735
736

738
745
750
750

754
765
770
784

786
820
831
837

850
859
881
906

946

W = 390 = 78
5

R = 946 556 = 390.00

HOMBRES - PERMETRO DE CINTURA


697
700

702
712

719
720

729
730

737
746

750
772

782
795

809
809

842
858

859
861

918
932

950
990

1080

W = 383 = 76.60
5

R = 1080 697 = 383.00

, Si bien pareciera existir un rango mayor en las medidas del permetro de cintura
femenino, esto se debe a las unidades. Si convertimos dichos valores a la escala ms
comn (centmetros) el rango del permetro de cintura masculino fue slo 0.7 centmetros
menor que el femenino.
Especifiquemos ahora los intervalos para hacer las tablas de frecuencia y los histogramas
correspondientes:
PER. CINTURA
MUJERES
556-633
634-711
712-789
790-867
868-946
TOTAL

FRECUENCIA
5
15
13
5
3
41

FREC.
RELATIVA
0.1220
0.3659
0.3171
0.1220
0.0732
1.00

FREC.
ACUMULADA
5
20
33
38
41

FREC.REL.
ACUMULADA
0.1220
0.4878
0.8049
0.9268
1.00

109

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

DISTRIBUCIN DE LA VAR. PERMETRO


DE CINTURA, SEXO FEMENINO
Alumnas de estadstica 2008-1 (n=41)
40
37
32

20

10

12

12

7
0
556-633

634-711

712-789

790-867

868-946

Permetro de cintura

PER. CINTURA
HOMBRES
697-773.5
773.6-850.1
850.2-926.7
926.8-1003.3
1003.4-1080
TOTAL

FREC.
RELATIVA
0.4800
0.2000
0.1600
0.1200
0.0400
1.00

FRECUENCIA
12
5
4
3
1
25

DISTRIBUCIN DE LA VAR. PERMETRO


DE CINTURA, SEXO MASCULINO
Alumnos de estadstica 2008-1 (n=25)
60
50
48

Porcentaje

Porcentaje

30

, Gracias a las tablas de frecuencia y el


histograma podemos ubicar que, para el
sexo femenino, el mayor nmero de
alumnas se encontraba en los intervalos 2 y
3 (634-711 y 712-789), medidas que de
acuerdo a la tabla del IMSS no corren
riesgo; de hecho, el 80.49% de las mujeres
tena una permetro de cintura menos a 79.0
centmetros. No obstante, se registr un
12.20% de las alumnas con circunferencia
de 79 a 86.7 centmetros y un 7.32% con
permetro entre 86.8 y 94.6 centmetros. Ya
veremos en las ojivas si los casos de estos
intervalos caen en las categoras de riesgo.

40
30
20
20
16

10

12

0
697-773.5

773.6-850.1

850.2-926.7

926.8-1003.3

FREC.
ACUMULADA
12
17
21
24
25

FREC.REL.
ACUMULADA
0.4800
0.6800
0.8400
0.9600
1.00

, En cuanto al sexo masculino, el mayor


porcentaje (48.00%) se registr en el
intervalo ms pequeo (697-773.5) y
ms de la mitad de los hombres
(68.00%) tuvo un permetro de cintura
menor a los 85 centmetros. Pese a esto,
un 12.00% entr en el intervalo 926.81003.3 y un 4.00% en el intervalo ms
grande (10003.4-1080), as que antes de
consultar
directamente
los
datos
usaremos la ojiva para ver si sus valores
caen o no en las categoras de riesgo.

1003.4-1080

Construyamos entonces las tablas


necesarias para trazar las ojivas. Ntese
que, como los intervalos fueron cerrados, podemos utilizar el lmite superior de los ltimas
clase con el objetivo de delimitar cuando el porcentaje llega a cero:
Permetro de cintura

PER. DE CINTURA - MUJERES


FREC.
FREC.
EDAD
REL.
ACUM.
ACUM.
Ms de 556

41

100.00%

110

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Ms de 633
Ms de 711
Ms de 789
Ms de 867
Ms de 946

36
21
8
3
0

87.80%
51.22%
19.51%
7.32%
0.00%

, Esta tabla seala que un 7.32% de los casos


posea un permetro de cintura mayor a 867
milmetros; medida que, al superar los 80.0
centmetros, indica que tales alumnas corran algn
tipo de riesgo (todava indiferenciado).

Ahora bien, la ojiva sugiere que menos de un 20% (lnea azul claro) tena una
circunferencia mayor a 80.0 centmetros y que el permetro de aproximadamente un 10%
era mayor a 88 centmetros .
Si corroboramos dicha afirmacin con los
datos tenemos que 8 casos (19.51%)
cumplan con la primer afirmacin y 3
observaciones (7.32%) con la segunda.

PERMETRO DE CINTURA HOMBRES


FREC.
FREC.
EDAD
REL.
ACUM.
ACUM.
Ms de 697
Ms de 773.5
Ms de 850.1
Ms de 926.7
Ms de 1003.3
Ms de 1080

25
13
8
4
1
0

,
Para
ir
por

100.00%
52.00%
32.00%
16.00%
4.00%
0.00%

orden de riesgo primero observemos el


grfico:
la
ojiva
seala
que
aproximadamente un 15.0% de los
hombres corra un riesgo elevado ya
que
tena una circunferencia mayor a 94
centmetros; estimacin no muy alejada al porcentaje real: 12.0% (3 casos). Por otro lado,
si bien la tabla manifiesta que el caso del ltimo intervalo tenan un permetro mayor a
1003.3, la ojiva confirma que su valor (1080) caa en la zona de riesgo elevado.

111

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

De acuerdo al IMSS, a los siete casos con riesgo elevado (cinco mujeres y 2 hombres) se
les debi sugerir disminuir los alimentos ricos en grasa, colesterol y azcares refinados,
adems de realizar ejercicio aerbico por lo menos sesenta minutos. En tanto que los
cuatro casos con riesgo muy elevado (tres mujeres y un hombre) deban urgentemente
disminuir su peso corporal, cambiar los malos hbitos de alimentacin y realizar tambin
sesenta minutos de ejercicio aerbico como mnimo.

Medidas para la estadstica descriptiva


Como anteriormente mencionamos, ms all del anlisis de frecuencias, otra forma de
resumir los datos y analizar la distribucin de una variable son las medidas descriptivas:
nmeros individuales que contienen informacin importante sobre las observaciones
originales.
Antes de revisar algunas de ellas debemos mencionar que, si stas se obtienen a partir
de datos poblacionales, las medidas descriptivas reciben la denominacin de
parmetros; empero, si son producto de un conjunto de datos muestrales, su expresin
cambia y son llamadas estadsticos, nmeros cuyo valor se intenta sea lo ms parecido
al de su parmetro correspondiente.
Medidas de tendencia central
Las medidas de tendencia central son aquellas que intentan resumir el conjunto de
datos sealando su valor representativo, por ejemplo:

Moda X , x

La moda es el valor que se presenta con mayor frecuencia en una serie de


observaciones. Esta medida es, por tanto, ideal para encontrar la categora
representativa en una serie de datos cualitativos. No obstante, es poco confiable
cuando se manejan variables cuantitativas ya que, si todos los valores son diferentes o si
son varios los valores que se repiten (con la misma frecuencia) ha de concluirse que los
datos no tienen moda o que el conjunto es multimodal.
De cualquier forma ha de sealarse que, para denotar su valor, basta aadir un acento
circunflejo (^) a la letra con que se design la variable:
PARMETRO

ESTADSTICO

x)
Mediana ( X , ~
~

La mediana es el valor intermedio de un conjunto de datos cuantitativos ordenados de


forma creciente o decreciente. Si el total de datos es un nmero non, la mediana es el
valor que se encuentra justo a la mitad de la lista, en tanto que si el total de datos es un
nmero par, la mediana es el promedio de los datos centrales:

NON

PAR

x (1)

x (1)

112

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

x(2 )

x(2 )

x (3 )

Mediana

x (3 )

x(4 )

x(4 )

x (5 )

x (5 )

Mediana

x (6 )
Ahora bien, si el nmero de observaciones impide reconocer visualmente la mediana, su
valor puede encontrarse de la siguiente manera:
a) Si el total de observaciones es un nmero impar, el valor de la mediana es igual

n
+ 0.5 .

al del dato cuya posicin es

b) Si el total de observaciones es un nmero par, el valor de la mediana es el

n
2

n
+ 1 .
2

promedio de los datos que estn en las posiciones y

Explicado eso puede afirmarse que la mediana (sealada con una tilde ~) es una medida
de tendencia central muy fcil de calcular cuyo valor, al ser nico, resulta sumamente til
para indicar (por posicin) el promedio de un conjunto de datos cuando stos presentan
cierta simetra o incluyen valores extremos.
PARMETRO

X~

ESTADSTICO

~
x

Media (aritmtica) ( , x )
La media es, sin duda alguna, la medida de tendencia central ms utilizada en la
estadstica descriptiva de variables cuantitativas. Si bien su parmetro se representa
con la letra griega (Mi), su estadstico se seala agregando una barra horizontal sobre
la letra de la variable:
PARMETRO

ESTADSTICO

xi
i =1

x=

x
i =1

Como puede verse, la media es simplemente el producto de sumar todos los valores
observados y dividir el resultado entre el nmero total de datos5. Es decir, a diferencia de
la mediana, la media es un promedio que toma en cuenta todas las observaciones; sin

A diferencia de la moda y la mediana, la media es la nica medida de tendencia central que, por su clculo
aritmtico, puede obtenerse con ayuda de la calculadora. Slo es necesario ingresar los datos en el modo
estadstico y acceder a la funcin x .

113

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

embargo, dicha caracterstica implica que su clculo pueda verse afectado por valores
extremos al grado de provocar que su valor no sea verdaderamente representativo.

Medidas de dispersin
An cuando las medidas anteriores nos permiten encontrar los valores centrales de un
conjunto de datos, poco dicen sobre el resto de las observaciones: si son parecidas o
difieren por mucho. Precisamente para reconocer dicha variabilidad en la distribucin de
una variable es que la estadstica ha propuesto las medidas de dispersin6, entre ellas:
Rango (R )
Como vimos en el captulo anterior, el rango es la diferencia entre el valor ms pequeo y
el ms grande en un conjunto de datos:

R = Vmax Vmin
La sencillez del clculo de esta medida de dispersin (que echa mano de slo dos
observaciones) es, sin embargo, contrarrestada por su deficiencia en la explicacin de la
variabilidad, que se limita a la diferencia ms general.
Debido a esto es que, para comprender la cantidad total de variabilidad y resumirla en un
solo nmero es preciso sacar el promedio de la desviacin de los datos con respecto a su
media:
n

Dispersin =

(X
i =1

x)

Esta frmula, empero, no funciona porque, como veremos a continuacin, la suma de las
desviaciones de los datos respecto a la media es siempre igual a cero:
n

(X
i =1

x) = Xi x

i =1

i =1

i =1

i =1

i =1

( X i + Yi ) = X i + Yi

Porque
n

(X
i =1

x ) = X i xn
i =1
n

C = cn

Porque

i =1

(X
i =1

x ) = xn xn

Tales medidas slo deben aplicarse cuando los datos son distintos, pues si el valor de todas las
observaciones fuera idntico no habra variabilidad.

114

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Porque

x=

X
i =1

X i = xn
i =1

(X

Entonces

i =1

Por lo
que

x) = 0

Dispersin =

0
=0
n

A fin de salvar este problema, el resto de las medidas de dispersin ocupa entonces una
serie de estrategias para transformar las desviaciones de los datos en distancias, cuyo
valor es siempre positivo o igual a cero.
Desviacin media (DM , dm)
La desviacin media, por ejemplo, es la medida de dispersin que obtiene el promedio
de las desviaciones de los datos en valor absoluto:
PARMETRO
N

DM =

i =1

ESTADSTICO
n

Xi

dm =

X
i =1

No obstante, como el valor absoluto es una funcin f ( x ) = x que no tiene propiedades


algebraicas para realizar desarrollos matemticos inferenciales, la desviacin media es
una medida de dispersin que no se utiliza en la prctica.

Varianza 2 , s 2

La varianza es la medida de dispersin que, para evitar los signos de las desviaciones,
saca el promedio7 de las diferencias de los datos respecto a su media elevadas al
cuadrado:
PARMETRO

ESTADSTICO

El promedio se obtiene dividiendo entre n 1 de acuerdo a los principios tericos de los grados de libertad:
Basa conocer los valores de n 1 de las desviaciones, pues el n simo valor queda automticamente
determinado por la restriccin de que todos los valores de n suman siempre cero.
7

115

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

2 =

(X
i =1

s2 =

(X
i =1

x)

n 1

Desgraciadamente, elevar al cuadrado las desviaciones conlleva a elevar al cuadrado sus


unidades.
Desviacin estndar (tpica) ( , s )
La desviacin estndar es simplemente la raz cuadrada de la varianza:
PARMETRO

ESTADSTICO

2
(X i )

(X

s=

i =1

i =1

x)

n 1

A sabiendas de que sta es la medida de dispersin ms utilizada y que el clculo de


cada desviacin es laborioso, ofrecemos aqu una expresin alternativa para la obtencin
de su estadstico:

(X

Primero desarrollemos el binomio

i =1

(X
i =1

i =1

Porque

i =1

i =1

i =1

i =1

i =1

x ) = X i2 2 x X i + x 2 n
2

i =1

i =1

CX i = C X i

C = cn
i =1

Ahora sustituyamos algunos trminos por sus equivalentes:


n

(X
i =1

x ) = X i2 2 x ( x n ) + x n
2

i =1
n

Porque

Y atendamos las constantes:

(X

x ) = X i2 2X i x + x 2
2

x) :
2

x=

X
i =1

X i = xn
i =1

Y resolvamos las expresiones interiores:


n

(X
i =1

x ) = X i2 2 x 2 n + x n
2

i =1

116

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

(X
i =1

x ) = X i2 x 2 n
2

i =1

Basado en esto tenemos que una forma ms sencilla de calcular manualmente8 la


desviacin estndar es a travs de la siguiente expresin:
ESTADSTICO
n

s=

X
i =1

2
i

nx 2

n 1

Finalmente, sin importar el mtodo utilizado para su clculo, debemos remarcar que el
obtener la raz cuadrada de la varianza implica regresar a las unidades originales. La
desviacin estndar, por tanto, puede interpretarse literalmente como el promedio de la
desviaciones de los datos respecto a la media: el que su valor sea muy pequeo indica
que las observaciones estn muy cerca de esta medida de tendencia central; en tanto que
un valor grande seala que los datos se hallan muy dispersos y que la media pudiera no
ser un valor realmente representativo del conjunto.
Medidas de posicin
Otra forma de analizar la distribucin de una variable son las medidas de posicin:
nmeros que sirven para descubrir la localizacin de un dato especfico con respecto el
resto de la muestra.

Percentiles (centiles)

Son nmeros que dividen al


conjunto de datos en cien partes
iguales, motivo por el cual
existen
noventa
y
nueve
percentiles que se designan
mediante la letra Pk , donde el
subndice k indica el centil al
que se hace referencia.

En cualquier caso, el k simo


percentil (Pk ) es un valor de X
tal que k % o menos de las
8

Igual que la media, el valor de la desviacin estndar de un conjunto de observaciones puede obtenerse
mediante las funciones n 1 s x de la calculadora una vez que se han ingresado los datos en el modo

estadstico.

117

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

observaciones son menores que l y (100 k )% o menos de las observaciones son


mayores a k ; razn por la que los percentiles permiten descubrir si hay casos extremos
en un conjunto de datos.
Dicho esto, si el nmero total de datos (n ) es el 100%, la forma ms sencilla de encontrar

el nmero k que deja, a los ms, al k % por debajo de l y al (100 k )% por encima de
l es:

nk
=X
100
El valor descubierto, empero, slo representa la posicin que ocupa el percentil en el
conjunto de datos ordenados. Por ende, el percentil es en realidad el valor del dato que se
encuentra en la posicin X 9.
Cuartiles
Los cuartiles son tres nmeros que dividen a los datos ordenados en cuatro partes
iguales. Sus valores, por tanto, pueden hacerse equivalentes a los de cuatro percentiles:
PERCENTIL

CUARTIL
Primer cuartil

(q1 )

P25

P50

Segundo cuartil

P75

(q2 = ~x )

Tercer cuartil

(q3 )

DEFINICIN
Nmero respecto al que 25% de los datos son
menores que l.
Nmero que divide al conjunto de datos
exactamente en dos partes, dejando una mitad
con valores menores y otra mitad con valores
mayores. Su valor, por tanto, es igual al de la
mediana de un conjunto de datos.
Nmero que deja al 75% de los datos con un valor
menor al suyo.

Como su ubicacin es mucho ms precisa, los cuartiles no sirven para analizar casos
extremos; no obstante, se utilizan para designar ciertas posiciones cuando se elabora una
grfica de caja.

Grficas de caja
Las grficas de caja (tambin conocidas como diagramas de caja y bigotes) son
grficos que muestran la distribucin de una variable. Veamos los pasos necesarios para
construirlas:

Si el valor de X tiene decimales debe redondearse al nmero entero que le sigue.

118

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

1) ORDENAR LOS DATOS Y UBICAR VALORES CLAVE: Los primero que debe
hacerse es ordenar los datos para reconocer los valores mnimo, mximo y de los tres
cuartiles: Vmin, q1 , q 2 , q 3 , Vmax .

2) CONSTRUIR EL ESPACIO GRFICO: Es decir, trazar dos ejes: en el de las


ordenadas se seala la variable y su escala, y en el de las abscisas se indica el grupo de
estudio .
3) TRAZAR LA CAJA: Hecho eso se traza un rectngulo (caja): si bien su ancho no
importa, su altura debe corresponder a la distancia del primer al tercer cuartil (q1 q3 ) .
4) UBICAR LA MEDIANA: Posteriormente se divide al rectngulo mediante una lnea a la
altura del segundo cuartil (q 2 ) .
5) TRAZAR LOS BIGOTES: Finalmente se ubican los valores mnimo y mximo, y a partir
de ellos se traza una lnea hasta los extremos inferior y superior de la caja.
DISTRIBUCIN DE LA VARIABLE
PERMETRO DE CADERA
Alumnos de estadstica 2008-1 (n=66)
1300

Permetro de cadera

Gracias a su forma, las grficas


de caja permiten hacer una
exploracin
visual
del
comportamiento de la variable:
Mientras mayor sea la altura de
la caja, mayor dispersin habr
mostrado la variable. Ahora
bien, una mayor distancia de la
mediana a uno de los cuartiles
(q1 , q3 ) implica, por ejemplo,
una mayor variabilidad en esa
mitad del grupo de estudio.
Asimismo, una mayor distancia
de la caja a los valores mnimo
o mximo seala a stos como
datos atpicos.

1200

52
32

1100
1000
900
800
700
N=

41

25

Femenino

Masculino

Sexo

Por ltimo debe mencionarse que este tipo de grficas permite tambin comparar la
distribucin de la variable entre las categoras del grupo de estudio. Si es este el caso,
basta con separar los datos de cada categora, ubicar sus valores y trazar una caja para
cada grupo.

119

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

DISTRIBUCIN DE LA VARIABLE
PERMETRO DE CADERA
Alumnos de estadstica 2008-1 (n=66)
Permetro de cadera

1300
1200
1100
1000

Turno

900

Matutino

800

Vespertino

700
N=

26

15

13

Femenino

12

Masculino

Sexo

Ejemplos de aplicacin
1.
Son muchos ya los alumnos de la ENAH que han expresado lo incmodo de las
sillas de esta escuela. Si bien resulta imprescindible un cambio en este mobiliario, el costo
que dicho proyecto pudiera alcanzar es inquietante.
Echando mano de los datos de Estatura total, Estatura sentado, Altura de rodilla y Peso
recolectados en los grupos de estadstica:
a) Calcule las medidas de tendencia central: moda, mediana y media.
b) Calcule las medidas de dispersin: rango y desviacin estndar.
c) Calcule los cuartiles y elabore una grfica de caja.
A fin de analizar el comportamiento de estas variables y presentar a un diseador
industrial algunos datos con los que ste pueda hacer una cotizacin sobre los materiales
y diseos necesarios para producir sillas ms funcionales y cmodas.
Veamos primero los datos, ya ordenados, donde se sealan algunos de los valores que
se mencionaran posteriormente:
Estatura total
1477
1490
1492
1506
1515
1521
1527
1529
1541
1552
1554
1555
1559
1560
1562
1563

1599
1605
1614
1619
1622
1625
1641
1642
1657
1658
1660
1664
1669
1675
1675
1679

Estatura sentado
787
802
809
809
813
815
816
820
821
823
825
826
826
827
828
829

855
859
865
866
868
870
872
875
878
879
879
887
887
888
889
889

Altura de rodilla
411
414
426
436
442
443
443
444
446
448
453
454
457
457
458
458

477
478
478
479
481
481
481
482
484
484
484
486
486
486
487
489

Peso
37.6
41.9
44.4
44.4
44.9
45.1
45.2
45.8
47.2
47.5
48.0
48.3
49.2
49.8
51.1
51.5

61.1
61.3
61.4
61.6
61.6
61.7
62.6
62.6
62.7
64.4
64.5
65.6
67.2
67.4
68.3
68.4

120

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

1563
1566
1570
1571

1683
1685
1686
1689

829
832
834
834

890
891
894
897

458
459
459
459

491
491
491
496

52.1
53.1
53.1
54.4

68.7
68.8
69.6
70.0

1571
1576
1576
1577

1699
1701
1705
1719

838
838
839
839

901
902
908
911

461
464
464
464

502
504
504
506

55.4
55.8
55.9
56.4

70.2
71.5
72.5
74.5

1582
1583

1721
1724

841
844

914
919

464
465

516
519

57.5
57.5

76.6
76.7

1584
1585
1591
1594
1594
1595
1597

1728
1742
1751
1767
1786
1833
1852

848
849
849
850
850
850
854

921
921
928
939
940
941
969

465
467
469
469
471
471
475

519
522
525
536
554
588
590

58.0
58.1
58.4
58.4
58.6
59.5
60.4

77.6
78.8
87.3
91.6
93.1
94.7
98.0

Ahora bien, ejemplifiquemos la aplicacin de todas las medidas y las grficas de caja con
la variable Estatura total:
I.

Estatura total

Lo primero que observamos en esta variable es que cinco valores se repiten dos veces a
lo largo de la muestra:
MODA

x = 1563, 1571, 1576, 1584 y 1675

, Por tal motivo puede afirmarse que entre los alumnos de estadstica la variable Estatura
es multimodal.
Sin embargo, como la moda ha sealado demasiados valores, buscaremos la mediana del
conjunto para ver si su valor es ms representativo. Dado que el nmero total de datos es
par (n = 66) , debemos averiguar el promedio de los datos que estn al centro de la lista.
POSICIN

(n = 66)

66
= 33
2

66
+ 1 = 34
2

VALOR
MEDIANA
(PROMEDIO)

1597

1599

1597 + 1599
~
= 1598.0000
x=
2

, Es decir, de acuerdo a esta medida de tendencia central el valor promedio de la


estatura total en los grupos de estadstica 1598 milmetros (1.60 metros). Mientras tanto:
MEDIA

107153

1623 5303

121

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

x=

x
i =1

, El clculo aritmtico indica que el promedio de la estatura entre los alumnos es de


1623.5303 milmetros (1.62 metros); as que habr que analizar si la diferencia de dos
centmetros se debe a la variabilidad.
Primero encontremos la diferencia general:
RANGO

R = 1852 1477 = 375.0000

R = Vmax Vmin

, El clculo del rango seala que, entre la menor y la mayor estatura hay 375 milmetros
(37.5 centmetros). No obstante, la cantidad total de variabilidad manifestada por la
variable es de:
DESVIACIN ESTNDAR
n

s=

X
i =1

2
i

174411215 66(1623.5303)
= 82.7483
66 1
2

nx 2

s=

n 1

, Esto significa que la distancia promedio de los datos de estatura total respecto a su
media es de 82.7483 milmetros (8.2 centmetros).
Finalmente, para analizar grficamente la distribucin de la variable obtenemos el valor de
los cuartiles y construimos la grfica de caja:

(n = 66)

POSICIN
1

MNIMO
Primer cuartil (q1 )
Segundo cuartil (q 2 )
Tercer cuartil (q3 )

66(25)
= 16.5 17
100
~
x
66(75)
= 49.5 50
100
66

MXIMO

VALOR
1477
1563
1598
1683
1852

DISTRIBUCIN DE LA VARIABLE
ESTATURA TOTAL
Alumnos de estadstica 2008-1 (n=66)
1900

Estatura total

1800

1700

1600

1500

, Como podemos observar, la mayor


variabilidad de la estatura se
manifiesta en la mitad de los alumnos
ms altos. Asimismo se observa que el
estudiante con la estatura ms alta se
encuentra ms alejado del valor
promedio (mediana) que el de menor
estatura.

122

1400

Alumnos

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Para analizar ms detalladamente dicho comportamiento, elaboremos otra grfica de


cajas comparando por sexo:
DISTRIBUCIN DE LA VARIABLE
ESTATURA TOTAL POR SEXO
Alumnos de estadstica 2008-1 (n=66)
1900
37
39

Estatura total

1800
1700

15
54
44

1600
1500

, El grfico seala ahora que la


estatura de las mujeres es, en
general, menor a la de los hombres.
Dicha afirmacin no slo es
confirmada al observar una mayor
variabilidad en estaturas mayores
para el sexo femenino, sino tambin
al descubrir que fue una mujer quien
present una estatura atpicamente
baja.

1400
N=

41

25

Femenino

Masculino

Sexo

Habiendo reconocido la posicin de


muchos valores y, echando mano de la tecnologa (calculadora o computadora), resulta
sencillo analizar el comportamiento del resto de las variables:
II.

Estatura sentado

MODA
x = 850
, La estatura sentado observada con mayor frecuencia entre los alumnos de
estadstica fue de 850 milmetros (85.0 centmetros).

(n = 66)

POSICIN

66
= 33
2

66
+ 1 = 34
2

854
855
VALOR
854 + 855
MEDIANA
~
x=
= 854.5000
(PROMEDIO)
2
, El valor promedio del conjunto de datos sobre estatura sentado es de 854.5
milmetros (85.4 centmetros).
MEDIA
x = 863.42
, La estatura sentado promedio de los alumnos de estadstica es de 863.42
milmetros (86.3 centmetros).
RANGO
R = 969 787 = 182.00
, La diferencia mxima en la estatura sentado de los alumnos es de 182 milmetros

123

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

(18.2 centmetros).
DESVIACIN ESTNDAR
s = 40.11
, La distancia promedio de los datos de estatura sentado respecto a su media es
de 40.11 milmetros (4.0 centmetros).

(n = 66)

POSICIN
1

MNIMO
Primer cuartil (q1 )
Segundo cuartil (q 2 )
Tercer cuartil (q3 )

66(25)
= 16.5 17
100
~
x
66(75)
= 49.5 50
100

829
854.5
890

66

MXIMO

969

DISTRIBUCIN DE LA VARIABLE

DISTRIBUCIN DE LA VARIABLE

ESTATURA SENTADO

ESTATURA SENTADO POR SEXO

Alumnos de estadstica 2008-1 (n=66)

Alumnos de estadstica 2008-1 (n=66)


1000

Estatura sentado

1000

Estatura sentado

VALOR
787

900

800

900

60

800

700
700

N=

N=

66

41

25

Femenino

Masculino

Alumnos

Sexo

, Igual que la estatura total, la variable Estatura sentado muestra mayor variabilidad en la
mitad con valores ms altos y pese a que dicha estatura es mayor entre los hombres y
sus valores manifiestan mayor dispersin en las mujeres, se observ un caso atpico del
sexo masculino, que present una estatura sentado notoriamente baja.

III. Altura de rodilla


MODA
x = 464
, La altura de rodilla observada con mayor frecuencia entre los alumnos de
estadstica es de 464 milmetros (46.4 centmetros).

(n = 66)

POSICIN

66
= 33
2

66
+ 1 = 34
2

124

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

475
477
VALOR
475 + 477
MEDIANA
~
x=
= 476
(PROMEDIO)
2
, El valor promedio del conjunto de datos sobre altura de rodilla es de 476
milmetros (47.6 centmetros).
MEDIA
x = 478.35
, La altura de rodilla promedio de los alumnos de estadstica es de 478.35
milmetros (47.8 centmetros).
RANGO
R = 590 411 = 179
, La diferencia mxima en la altura de rodilla de los alumnos es de 179 milmetros
(17.9 centmetros).
DESVIACIN ESTNDAR
s = 33.48
, La distancia promedio de los datos de altura de rodilla respecto a su media es de
33.48 milmetros (3.3 centmetros).

(n = 66)

POSICIN
1

MNIMO
Primer cuartil (q1 )
Segundo cuartil (q 2 )
Tercer cuartil (q3 )

66(25)
= 16.5 17
100
~
x
66(75)
= 49.5 50
100

458
476
491

66

MXIMO

590

DISTRIBUCIN DE LA VARIABLE

DISTRIBUCIN DE LA VARIABLE

ALTURA DE RODILLA

ALTURA DE RODILLA POR SEXO

Alumnos de estadstica 2008-1 (n=66)

Alumnos de estadstica 2008-1 (n=66)


700

600

54
37
39

500

Altura de rodilla

700

Altura de rodilla

VALOR
411

600

54

37

500

400

42
50

400
300
300

N=

N=

66

Alumnos

41

25

Femenino

Masculino

Sexo

, A comparacin de las variables anteriores, la altura de rodilla es una caracterstica que


muestra una distribucin ms concentrada. Aunado a ello, es en el sexo masculino donde
se observa mayor variabilidad, incluso cuando las mujeres mostraron ms casos atpicos
(menores y mayores).

125

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

IV. Peso

x = 44.4,53.1,57.5,58.4,61.6,62.6
MODA
, La repeticin de seis valores a lo largo de la muestra seala a los alumnos de
estadstica como una muestra multimodal respecto al peso corporal.

(n = 66)

POSICIN

66
= 33
2

66
+ 1 = 34

60.4
61.1
VALOR
60.4 + 61.1
MEDIANA
~
x=
= 60.75
(PROMEDIO)
2
, El valor promedio del conjunto de datos sobre peso es de 60.75 kilogramos.
MEDIA
x = 61.62
, El peso promedio de los alumnos de estadstica es de 61.6 kilogramos.
RANGO
R = 98 37.6 = 60.4
, La diferencia mxima en peso de los alumnos es de 60.4 kilogramos.
DESVIACIN ESTNDAR
s = 13.17
, La distancia promedio de los datos de peso respecto a su media es de 13.17
kilogramos.

(n = 66)
MNIMO
Primer cuartil (q1 )
Segundo cuartil (q 2 )
Tercer cuartil (q3 )
MXIMO

POSICIN
1

66(25)
= 16.5 17
100
~
x
66(75 )
= 49.5 50
100
66

VALOR
37.6
52.1
60.75
68.7
98.0

126

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

DISTRIBUCIN DE LA VARIABLE
PESO CORPORAL
Alumnos de estadstica 2008-1 (n=66)
110

Peso corporal

100

37
39

90
80
70
60
50
40
30
N=

66

Alumnos

DISTRIBUCIN DE LA VARIABLE
PESO CORPORAL POR SEXO
Alumnos de estadstica 2008-1 (n=66)
110

Peso corporal

100
90

52
54

80
70

, Como podemos observar, el peso


corporal es una caracterstica que
presenta una variabilidad diferencial:
es mayor en los valores ms pequeos
del grupo femenino y mayor en los
valores ms grandes del sexo
masculino. Pese a ello, los dos casos
atpicos registrados se deben a
mujeres.

60
50
40
30
N=

41

25

Femenino

Masculino

Sexo

Evaluacin de la media y la
distribucin de una variable

En el captulo anterior revisamos cmo, mientras las medidas de tendencia central


sealan el valor representativo o promedio de un conjunto de datos, las medidas de
dispersin indican su variabilidad.
Una observacin, empero, qued pendiente: la media puede verse afectada por valores
extremos. Por tal motivo, en este captulo analizaremos diversas medidas que permiten
evaluar, por un lado, si el valor de dicha medida de tendencia central es verdaderamente
representativo y, por otro, la variabilidad y distribucin de una variable.
Evaluacin de la media y comparacin de variabilidad entre grupos o variables
Comprobamos anteriormente que la desviacin estndar es la medida de dispersin ms
adecuada para definir la variabilidad en una serie de observaciones, pues permite
expresar la distancia promedio de los datos respecto a su media en las unidades
originales.

127

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Esta caracterstica es, empero, la misma razn por la cual la desviacin estndar de
distintos grupos (con medias considerablemente diferentes) o variables (con otras
unidades y escalas de medicin) no puede ser comparada. Otros procedimiento deben
realizarse entonces para cotejar la variabilidad de dos o ms conjuntos de datos:
Coeficiente de variacin (variabilidad) (C.V , c.v )
La forma ms sencilla de obtener un valor de dispersin que sea independiente a
cualquier unidad de medicin y que tome en cuenta a la media es calcular el coeficiente
de variacin; medida de variabilidad relativa que relaciona la desviacin estndar con la
media de un conjunto de datos:
PARMETRO

ESTADSTICO


C.V . = 100

s
c.v.. = 100
x

Esto debido a que, al dividir la desviacin estndar entre la media no slo cancelamos las
unidades, sino que tambin establecemos una medida que, multiplicada por cien, indica
qu tanto por ciento de dispersin existe respecto a la media.
Ahora bien, aunque son los trminos porcentuales del coeficiente de variacin los que
permiten comparar la variabilidad entre dos o ms conjuntos de datos, es su carcter
relativo a la media lo que permite evaluar dicha medida de tendencia central y concluir
que: si el coeficiente de variacin es mayor a 30%, la dispersin de las
observaciones afecta el valor de la media; razn por la cual es mejor utilizar a la
mediana como valor promedio.
Teorma de Tchebysheff (Chebyshev)
Otro tcnica para cotejar la variabilidad entre dos o ms conjuntos de datos es calcular la
proporcin o porcentaje aproximado de elementos que se encuentran en una parte de la
distribucin manifestada por cada variable.
Segn el teorema de Tchebysheff: La proporcin de cualquier distribucin situada dentro
de k desviaciones estndares (s ) de la media es, por lo menos, 1

1
, donde k es
k2

cualquier nmero positivo mayor que uno.


Por lo tanto, si:

1
k2

1 k 2 100%

1
1 3
= 1 = = 0.75
2
4 4
2

(0.75)100% = 75%

1
1 8
= 1 = = 0.89
2
9 9
3

(0.89)100% = 89%

INTERPRETACIN
Al menos 75% de los datos
est a dos desviaciones
estndares de la media.
Al menos 89% de los datos
est a tres desviaciones
estndares de la media.

128

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

1
1 15
= 1
=
= 0.94
2
16 16
4

(0.94)100% = 94%

Al menos 94% de los datos


est a cuatro desviaciones
estndares de la media.

En otras palabras, dicho teorema nos permite:


1. Averiguar el nmero de desviaciones estndares (k ) que contiene al menos cierta
proporcin ( x ) de los datos. Para ello debe calcularse el valor de k :

1
=x
k2
1
1 x = 2
k
1
= k2
1 x
1
=k
1 x

Si

Despejamos k

Y tenemos que

2. Dado un valor de k desviaciones estndares y la proporcin (porcentaje)


correspondiente, definir el intervalo que contiene dichos valores. Esto implica
simplemente restar y sumar a la media k veces el valor de la desviacin estndar:
EXPRESIN PARA DETERMINAR EL
INTERVALO QUE CONTIENE AL
MENOS 1 1

k2

PORCIENTO

[x ks, x + ks]

DE LOS DATOS
B. EVALUACIN DE LA DISTRIBUCIN DE UNA VARIABLE
Los histogramas que representan grficamente la distribucin de las variable pueden
tomar muchas formas; basta con dibujar una curva sobre sus barras para comprobarlo:
unas sern ascendentes, algunas descendentes y otras parecern campanas de Gauss,
normales, aplanadas o puntiagudas. No obstante, como veremos a continuacin, ms all
de su forma, la evaluacin de dichas caractersticas permite analizar la distribucin de una
variable.

Coeficiente de asimetra de Fisher


El coeficiente de asimetra de Fisher es una medida que indica el nivel de asimetra de
los datos respecto a su media:
COEFICIENTE DE
ASIMETRA DE FISHER

1 n
( X i x )3

n
a = i =1 3
s
129

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Pese a que su clculo puede resultar complicado, su interpretacin es muy sencilla:


VALOR
DE a

INTERPRETACIN

a<0

Todo coeficiente negativo indica


que la distribucin de la variable
es asimtrica y est cargada a la
izquierda, pues predominan las
observaciones
con
valores
menores al promedio.

a0

Ahora bien, si el coeficiente es


aproximadamente cero puede
afirmarse que los datos se
encuentran cerca de su media y
presentan un alto grado de
simetra respecto a dicha medida
de tendencia central.

a>0

Por ltimo, cuando el coeficiente


es positivo, la distribucin de la
variable es tambin asimtrica
pero cargada a la derecha, ya
que los datos mayores al
promedio
presentan
una
frecuencia ms alta.

REPRESENTACIN GRFICA

Coeficiente de curtosis
Por otro lado est el coeficiente de curtosis, medida que analiza el grado de
concentracin que presentan los datos en torno a la media y seala cun puntiaguda es la
distribucin de la variable respecto a la curva gaussiana (distribucin normal):
COEFICIENTE
DE CURTOSIS

1 n
( X i x )4

n
3
c = i =1 4
s

Veamos ahora su interpretacin:

VALOR
DE a

INTERPRETACIN

REPRESENTACIN GRFICA

130

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

c<0

Un valor negativo en el
coeficiente de curtosis indica que
los datos se encuentran muy
dispersos, motivo por el que la
curva que delinea su distribucin
es ms plana y ancha; esto es
platicrtica.

c0

Por otra parte, cuando el


coeficiente
de
curtosis
es
aproximadamente cero puede
concluirse que la variable se
distribuye con un grado de
concentracin medio, as que la
curva es muy parecida a la
gaussiana: mesocrtica.

c>0

Finalmente, un coeficiente de
curtosis positivo es seal de que
los datos se concentran alrededor
de la media; razn por la cual su
curva es ms
esbelta
y
apuntalada;
es
decir,
leptocrtica.

Ejemplos de aplicacin
1.
A lo largo del ltimo ejercicio del captulo anterior realizamos algunas grficas de
cajas para explorar el comportamiento de las variables Estatura total, Estatura sentado,
Altura de rodilla y Peso en los grupos de estadstica 2008-1. Si bien establecimos
algunas comparaciones sobre su variabilidad por sexo, todas las conclusiones fueron
hechas visualmente. Calcule entonces las medidas necesarias para:
a) Cotejar la dispersin de los valores y evaluar la media.
b) Determinar en qu intervalo se halla el 95% de los datos.
c) Reconocer el grado de simetra y apuntamiento de su distribucin.
Comparar la variabilidad por grupos implica, sin duda alguna, calcular el coeficiente de
variacin. Empero, dado que las medidas de tendencia central y dispersin para estas
variables haban sido determinadas a partir de la muestra total, calcularemos tambin
(con ayuda del SPSS) su valor por sexo:
SEXO FEMENINO
VARIABLE
Estatura
total
Estatura
sentado
Altura de

~
x

1571.00

SEXO MASCULINO

~
x

1576.39

50.01

1699.00

1700.84

65.99

838.00

841.46

25.46

901.00

899.44

33.18

464.00

464.80

28.13

491.00

500.56

29.84

131

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

rodilla
Peso
corporal

57.50

57.30

11.56

65.60

68.71

12.77

Ahora s, calculemos los coeficientes de variacin:

VARIABLE
Estatura total
Estatura
sentado
Altura de rodilla
Peso corporal

SEXO FEMENINO
COEFICIENTE DE VARIACIN

SEXO MASCULINO
COEFICIENTE DE VARIACIN

50.01
c.v.. =
100 = 3.17
1576.39
25.46
c.v.. =
100 = 3.03
841.46
28.13
c.v.. =
100 = 6.05
464.80
11.56
c.v.. =
100 = 20.17
57.30

65.99
c.v.. =
100 = 3.88
1700.84
33.18
c.v.. =
100 = 3.69
899.44
29.84
c.v.. =
100 = 5.96
500.56
12.77
c.v.. =
100 = 18.59
68.71

a) , De entrada vemos que ninguno de los coeficientes de variacin es mayor a 30, por lo
que puede afirmarse que la media calculada en cada caso es un valor verdaderamente
representativo de los datos. Ahora, aunque en general fue el peso la caracterstica que
present mayor variabilidad, la dispersin de las observaciones muestra una diferencia
por sexo: es mayor en la estatura total y la estatura sentado masculina, y mayor en la
altura de rodilla y el peso femenino. Cultural es seguramente el motivo por el que las
mujeres presentan tal variabilidad pero esa es harina de otro costal a investigar.

Hecho esto, revisemos la distribucin de las variables. Primero, para deducir el intervalo
que contiene al 95% de los datos de cada caso, es necesario calcular el valor de k :
Si:

Entonces:

1
= 0.95
k2

1
= 4.47
1 0.95

Sabiendo esto, construyamos los intervalos para cada variable por sexo:

VARIABLE
Estatura total
Estatura sentado
Altura de rodilla
Peso corporal

VARIABLE

SEXO FEMENINO
DATOS

[1576.39 4.47(50.01),1576.39 + 4.47(50.01)]


[841.46 4.47(25.46),841.46 + 4.47(25.46)]
[464.80 4.47(28.13),464.80 + 4.47(28.13)]
[57.30 4.47(11.56),57.30 + 4.47(11.56)]
SEXO MASCULINO
DATOS

INTERVALO

[1352.85,1799.93]
[727.65,955.27]
[339.06,590.54]
[5.63,108.97]
INTERVALO

132

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Estatura total
Estatura sentado
Altura de rodilla
Peso corporal

[1700.84 4.47(65.99),1700.84 + 4.47(65.99)] [1405.86,1995.82]


[899.44 4.47(33.18),899.44 + 4.47(33.18)] [751.13,1047.75]
[500.56 4.47(29.84),500.56 + 4.47(29.84)]
[367.18,633.94]
[68.71 4.47(12.77),68.71 + 4.47(12.77)]
[11.63,125.79]

b) INTERPRETACIN
Finalmente calculemos10 los coeficientes de asimetra y de curtosis para reconocer el
grado de simetra y apuntamiento de su distribucin.

VARIABLE
Estatura
total

Estatura
sentado

Altura de
rodilla

Peso
corporal

VARIABLE

Estatura
total

Estatura
sentado

SEXO FEMENINO
COEFICIENTE DE ASIMETRA

1 n
3
1
(1470507.05)
( X i 1576.39)
35866.03
41 i =1
41
a=

a
=
a=
= 0.29
3
125075.02
125075.02
(50.01)
1 n
1
( X i 841.46)3
(168650.29)

4113.42
41 i =1
41
a=
a=
a=
= 0.25
3
16503.47
16503.47
(25.46)
1 n
1
( X i 464.80)3
(1666542.97 )

40647.39
41 i =1
41
a=

a
=
a=
= 1.83
3
22259.18
22259.18
(28.13)
1 n
1
( X i 57.30)3
(51861.56)

1264.92
41 i =1
41
a=
a=
a=
= 0.82
3
1544.80
1544.80
(11.56)

SEXO FEMENINO
COEFICIENTE DE CURTOSIS

1 n
1
( X i 1576.39)4
(717595453.77 )

41 i =1
41
c=
3 c =
3
6255001.50
(50.01)4
17502328.14
c=
3 c = 2.80 3 = 0.20
6255001.50
1 n
4
1
(38946197.76)
( X i 841.46)
41 i =1
41
c=

c
=
3
420178.28
(25.46)4
949907.26
c=
3 c = 2.26 3 = 0.74
420178.28

10

Debido a que obtener la diferencia de cada dato respecto a su media es sumamente laborioso, hemos
ocupado un programa de hojas de clculo para calcular su suma total ya elevada al cubo y a la cuarta potencia.

133

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Altura de
rodilla

Peso
corporal

VARIABLE
Estatura
total

Estatura
sentado

Altura de
rodilla

Peso
corporal

VARIABLE

Estatura
total

1 n
1
( X i 464.80)4
(268696141.65)

41 i =1
41
c=
3 c =
3
626150.78
(28.13)4
6553564.43
c=
3 c = 10.47 3 = 7.47
626150.78
1 n
4
1
(2727396.16)
( X i 57.30)
41 i =1
41
c=

c
=
3
3
17857.94
(11.56)4
66521.86
c=
3 c = 3.73 3 = 0.73
17857.94

SEXO MASCULINO
COEFICIENTE DE ASIMETRA

1 n
1
( X i 1700.84)3
(2700333.72)

108013.35
25 i =1
25
a=
a=
a=
= 0.38
3
287365.34
287365.34
(65.99)
1 n
1
( X i 899.44)3
(- 162763.66)

- 6510.55
25 i =1
25
a=

a
=
a=
= 0.18
3
36528.27
36528.27
(33.18)
1 n
1
( X i 500.56)3
(661857.82)

26474.31
25 i =1
25
a=
a=
a=
= 1.00
3
26570.30
26570.30
(29.84)
1 n
1
( X i 68.71)3
(42502.64)

1700.11
25 i =1
25
a=

a
=
a=
= 0.82
3
2082.44
2082.44
(12.77 )

SEXO MASCULINO
COEFICIENTE DE CURTOSIS

1 n
1
( X i 1700.84)4
(1323083865.85)

25 i =1
25
3
c=

c
=
3
18963238.77
(65.99)4
52923354.63
c=
3 c = 2.79 3 = 0.21
18963238.77

134

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Estatura
sentado

Altura de
rodilla

Peso
corporal

1 n
1
( X i 899.44)4
(77756609.48)

25 i =1
25
c=
3 c =
3
1212008.11
(33.18)4
3110264.38
c=
3 c = 2.57 3 = 0.43
1212008.11
1 n
4
1
(77960641.22)
( X i 500.56)
25 i =1
25
3
c=

c
=
3
792857.75
(29.84)4
3118425.65
c=
3 c = 3.93 3 = 0.93
792857.75
1 n
1
( X i 68.71)4
(1803668.36)

25 i =1
25
c=
3 c =
3
26592.77
(12.77 )4
c=

72146.73
3 c = 2.71 3 = 0.29
26592.77

Resumiendo estos datos en una tabla tenemos que:

VARIABLE
Estatura total
Estatura sentado
Altura de rodilla
Peso corporal

SEXO FEMENINO

SEXO MASCULINO

0.29
0.25
1.83
0.82

-0.20
-0.74
7.47
0.73

0.38
-0.18
1
0.82

-0.21
-0.43
0.93
-0.29

Por lo cual podemos concluir que, por sexo, las variables presentan la siguiente
distribucin:
SEXO FEMENINO
DISTRIBUCIN

SEXO MASCULINO
DISTRIBUCIN

Asimtrica (cargada a la
derecha) y platicrtica.
Asimtrica (cargada a la
derecha) y platicrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.

Asimtrica (cargada a la
derecha) y platicrtica.
Asimtrica (cargada a la
izquierda) y platicrtica.
Asimtrica (cargada a la
derecha) y leptocrtica
Asimtrica (cargada a la
derecha) y platicrtica.

VARIABLE
Estatura total
Estatura sentado
Altura de rodilla
Peso corporal

VARIABLE
Estatura total
Estatura sentado

a
0.29
0.25

SEXO FEMENINO
c
SPSS
SPSS
0.31
0.27

-0.20
-0.74

0.09
-0.55

SEXO MASCULINO
c
SPSS
SPSS
0.38
0.43
-0.21
0.32
-0.18
-0.43
-0.20
0.02

135

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

1.83
0.82

Altura de rodilla
Peso corporal

1.97
0.88

7.47
0.73

9.23
1.20

1.00
0.82

1.13
0.92

0.93
-0.29

1.85
0.22

POR LO CUAL LAS DISTRIBUCIONES SERAN:

VARIABLE
Estatura total
Estatura sentado
Altura de rodilla
Peso corporal

SEXO FEMENINO
DISTRIBUCIN

SEXO MASCULINO
DISTRIBUCIN

Asimtrica (cargada a la
derecha) y mesocrtica.
Asimtrica (cargada a la
derecha) y platicrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.

Asimtrica (cargada a la
derecha) y leptocrtica.
Asimtrica (cargada a la
izquierda) y mesocrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.
Asimtrica (cargada a la
derecha) y leptocrtica.

Estatura total

Estatura total

Sexo: Femenino

Sexo: Masculino

12

10

10

Frecuencia

Frecuencia

2
2
Media =1576.39
Desviacin tpica =50.01
N =41

0
1450

1500

1550

1600

1650

Media =1700.84
Desviacin tpica =65.
987
N =25

1700

1500

1600

Estatura total

1700

1800

1900

Estatura total

Estatura sentado

Estatura sentado

Sexo: Femenino

Sexo: Masculino

10

Frecuencia

Frecuencia

2
1
Media =841.46
Desviacin tpica =25.
457
N =41

0
780

800

820

840

860

Estatura sentado

880

900

Media =899.44
Desviacin tpica =33.
183
N =25

0
800

850

900

950

1000

Estatura sentado

136

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Altura de rodilla

Altura de rodilla

Sexo: Femenino

Sexo: Masculino

20

12

10

Frecuencia

Frecuencia

15

10

4
5
2
Media =464.8
Desviacin tpica =28.
127
N =41

0
400

450

500

550

Media =500.56
Desviacin tpica =29.
836
N =25

600

460

480

Altura de rodilla

500

520

540

560

580

600

Altura de rodilla

Peso corporal

Peso corporal

Sexo: Femenino

Sexo: Masculino

10

Frecuencia

Frecuencia

2
1
Media =57.3
Desviacin tpica =11.
556
N =41

0
40.0

60.0

80.0

100.0

Peso corporal

Media =68.71
Desviacin tpica =12.
766
N =25

0
50.0

60.0

70.0

80.0

90.0

100.0

Peso corporal

Anlisis bivariado
Correlacin lineal
Cuando se tienen dos variables cuantitativas, la forma ms sencilla para comprobar si
existe una relacin lineal entre ellas es construyendo un diagrama de dispersin con base
en coordenadas ( X , Y ) . Empero, como veremos a continuacin, la estadstica cuenta con
estimadores y pruebas ms precisas (acordes al tipo y la distribucin probabilstica de las
variables) para determinar si existe una asociacin significativa o no.
Coeficiente de correlacin de Pearson
Medida sobre la asociacin entre dos variables continuas ( X , Y ) , cuyas expresiones para
calcularlo en poblaciones y muestras son:
PARMETRO

ESTIMADOR

137

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

(x
i =1

x )( y i y )

r=

N x y

(x
i =1

x )( y i y )

(n 1) s x s y

No obstante, para reducir la labor que implica restar a cada dato su media
correspondiente, podemos simplificar la expresin del numerador de este estimador:

Desarrollamos primero el binomio:


n

(x y
i

i =1

xi y x y i + x y )

Repartimos la sumatoria:
n

x y x y xy + xy
i

i =1

i =1

i =1

i =1

Donde las medias son constantes y por ello pueden multiplicar a las sumatorias y
multiplicarse por el tamao de la muestra:
n

x y
i

i =1

i =1

i =1

y x i x y i + nx y

Lo cual puede abreviarse a:


n

x y
i

i =1

y nx x ny + n x y

Porque:

x=

x
i =1

xi = x n

y=

i =1

i =1

yi = y n

i =1

Y eliminando los trminos en comn obtenemos:


n

x y
i =1

nx y

Con lo cual la expresin queda as:

EXPRESIN PARA CALCULAR EL


ESTIMADOR DEL COEFICIENTE DE
CORRELACIN DE PEARSON PARA
VARIABLES CUANTITATIVAS CON
DISTRIBUCIN NORMAL11.

r=

x y
i =1

nx y

(n 1) s x s y

11

Si bien esta es la forma ms sencilla para calcular manualmente el coeficiente de correlacin de Pearson,
cabe mencionar que muchas calculadoras cientficas lo pueden arrojar directamente al ingresar los datos de
ambas variables en el modo estadstico de regresin lineal; este dato tendr un valor muy parecido al que se
obtiene haciendo los clculos manualmente con 4 decimales.

138

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Imprescindible resulta mencionar que el valor de este coeficiente slo puede encontrarse
en el rango ( 1 < r < 1) y de acuerdo a ello debe interpretarse:
VALOR DEL COEFICIENTE

(r 1)
(r 0)
(r 1)

INTERPRETACIN
Existe asociacin lineal inversa entre las variables.
No existe asociacin entre las variables.
Existe asociacin lineal directa entre las variables.

Esta conclusin, sin embargo, no es


suficiente; pues en el caso de que haya
asociacin entre las variables, falta
comprobar que sta sea estadsticamente
significativa.

26

24

22

20

18

16
12

14

16

Ejemplos de aplicacin

18

20

22

1.
Los siguientes datos corresponden las longitudes de hmero y fmur de restos
seos masculinos de la Cueva de La Candelaria, Coahuila.
HMERO
329
311
297
323
323
290
297
287
333
336
313
322
321
315
309
304
300

FMUR
444
426
449
427
428
427
417
414
417
440
416
408
420
443
472
466
422

es posible afirmar que existe una relacin lineal entre la longitud del hmero y del fmur?

139

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Hagamos una primera conclusin a partir del diagrama de dispersin correspondiente:


480
470

460

Fmur

450

440

430
420

410
400
280

290

300

310

320

330

340

Hmero

, En esta grfica podemos observar que no existe una linealidad clara entre las
variables.

Pero es necesario comprobar lo que los sentidos nos dicen con un poco de estadstica.
En este primer ejemplo desarrollaremos todos los datos necesarios para calcular
manualmente el coeficiente de correlacin; no obstante, en los prximos casos
recurriremos simplemente a los valores obtenidos con ayuda de una calculadora.
HMERO
329
311
297
323
323
290
297
287
333
336
313
322
321
315
309
304

FMUR
444
426
449
427
428
427
417
414
417
440
416
408
420
443
472
466

X i Yi
146076
132486
133353
137921
138244
123830
123849
118818
138861
147840
130208
131376
134820
139545
145848
141664

140

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

300

422

126600
2291339

TOTAL

DATOS GENERALES

n = 17

x = 312.3529

EXPRESIN DEL
COEFICIENTE DE
CORRELACIN
DE PEARSON
CLCULO
MANUAL

s x = 14.8195

y = 431.5294

r=

r=

x y
i =1

s y = 18.2384

nx y

(n 1) s x s y

2291339 17(312.3529 431.5294)


= 0.0189
(17 1)14.8195 18.2384

VALOR EN
r = 0.0190
CALCULADORA
, El signo negativo indica que la asociacin entre la longitud del hmero y la del
fmur sera inversa, pero su cercano valor a cero nos da una segunda prueba para
afirmar que la asociacin entre estas variables es casi nula.

3. Los siguientes datos corresponden a la poblacin juvenil masculina de Cholula,


Puebla (recopilados entre 1968-1970).
LONGITUD MIEMBRO SUPERIOR
771
740
743
775
745
722
764
711
756
721
728
727
756
768
735

ESTATURA
1715
1701
1652
1691
1611
1620
1701
1655
1734
1635
1598
1635
1684
1622
1674

141

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Puede afirmarse que existe asociacin entre la longitud del miembro superior y la
estatura?
1740
1720

1700

Estatura

1680

1660

1640
1620

1600
1580
710

720

730

740

750

760

770

780

Longitud miembro superior

, Aunque existe dispersin en los datos, puede entre verse una linealidad entre estas
variables y, por ende, una posible asociacin.

n = 15

DATOS GENERALES

r = 0.5310

, El valor del coeficiente de correlacin de Pearson nos indica una asociacin lineal
directa aunque no parece ser importante.
Regresin Lineal
El anlisis de regresin lineal consiste en aplicar una serie de tcnicas para encontrar si
hay causalidad entre dos variables cuantitativas; es decir, si el valor de una variable (Y )
depende y puede explicarse a partir de otra variable
independiente.

(X ) ,

que se postula como

Fundamentos
La regresin es un mtodo que permite encontrar relaciones lineales entre las variables
de un fenmeno. Por ende, primero debemos revisar cmo, a partir de una serie de datos
(como los a continuacin que se grafican) podemos encontrar la recta que los define:
Se toman dos coordenadas

[(x1 , y1 ), (x2 , y 2 )]
142

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

m=

Se calcula la pendiente
Teniendo ese valor y el de un punto, se puede
aplicar la ecuacin punto-pendiente
Que se desarrolla de la siguiente forma
Como el objetivo es encontrar la ordenada al
origen; es decir, el valor de Y cuando X es igual a
cero, despejamos Y

y 2 y1
x 2 x1

y y1 = m( x x1 )
y y1 = mx mx1
y = y1 + mx mx1
y = y1 + m(0) mx1

Y damos a X el valor de cero


Por lo que el valor de la ordenada al origen (b ) es
Y teniendo esos valores podemos establecer la
ecuacin de la recta
Tambin denotada por la expresin

b = y1 mx1
y = mx + b
y = a + bx

26

24

22

Como podemos ver, cuando la relacin


entre dos variables es clara y constante,
modelos basados en la forma y = a + bx
son de gran utilidad para expresar y
describir con precisin su asociacin.

20

18

16
12

14

16

18

20

22

Los datos de fenmenos relacionados al ser


humano, empero, no son tan fciles de
trabajar, ya que la diversidad y variabilidad
bio-psico-socio-cultural que estos reflejan
impide hallar una ecuacin concreta que
generalice sus resultados.

Echando mano de la probabilidad, la


estadstica se arriesga entonces a suponer
que la mejor recta para describir un

143

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

fenmeno de este tipo es la que une las medias de los valores posibles de Y para cada
X i y x ; sin dejar de reconocer como error en este modelo la desviacin que cada dato

( )

Yi pueda tener con respecto a la recta y x .

De esta forma, para su anlisis, la estadstica no slo se apropia de los modelos de


regresin lineal y les cambia las letras con que se denota a la ordenada al origen
(b, a 0 ) y a la pendiente (m, b 1 ) , sino tambin los adapta para manifestar el nivel
de incertidumbre o error (e ) presente en ellos:
MODELO TERICO DE REGRESIN
LINEAL SIMPLE EN ESTADSTICA

y = 0 + 1 x + e

Ajuste del modelo de regresin lineal simple (optativo)


Conociendo la forma del modelo de regresin lineal que la estadstica utiliza para describir
la relacin entre dos variables, es ahora necesario saber cmo ajustarlo; es decir, cmo
partiendo de los datos X i , Yi de una muestra de tamao n , calcular la ordenada al origen
y la pendiente de la recta, logrando que los errores ei del modelo sean mnimos (razn
por la cual ocuparemos el procedimiento de mnimos cuadrados).

Para hallar los valores 0 y 1 , tomamos un punto ( X i , Yi ) :

y i = 0 + 1 x i + ei

Y despejamos lo que nos importa: el error

Que en una muestra de tamao n esperamos su suma de cuadrados sea mnima; lo


cual depende de 0 y 1 .

ei = y i 0 1 x i

e = ( y i 0 1 xi )
2
i

i =1

i =1

ei2 = ( yi 0 1 xi )

f ( 0 , 1 ) = ( y i 0 1 xi )

i =1

Por lo cual hay que encontrar la forma en que esta funcin sea mnima. El punto es
que, al haber dos variables, mantendremos a la vez una constante; esto es,
haremos derivadas parciales de la funcin.
Empecemos por derivar la funcin respecto a 0 :
n

f ( 0 , 1 ) = ( y i 0 1 xi )

i =1

144

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

n
df ( 0 , 1 )
= 2 ( y i 0 1 xi )( 1)
d 0
i =1

d [ f ( x )]
n 1
= n[ f ( x )] f ( x )
dx
n

Porque

Y al igualar a cero, 0 y 1 se convierten en estimadores 0 , 1


valores donde la funcin es mnima:

que son los

2 ( y i 0 1 xi )( 1) = 0
n

i =1

Sinteticemos ahora lo ajeno a la sumatoria y despejmosla:

2 ( y i 0 1 xi ) = 0
n

i =1

(y
n

i =1

0 1 xi ) = 0

0 =0
#

Como

(y
n

i =1

0 1 xi ) = 0

Ahora repartamos la sumatoria:


n

y x
i =1

i =1

i =1

1 i

=0

Expresin que tambin puede denotarse como:

ny n 0 1 nx = 0
n

Porque

y=

yi
i =1

y i = yn

x=

i =1

x
i =1

xi = x n
i =1

Y al dividir eso entre n resulta:

ny n0 1 nx

=0
n
n
n

C = nC

y 0 1 x = 0

Ecuacin de la cual ya podemos despejar 0 :

0 = y 1 x
Ahora bien, resta hacer lo mismo con 1 :

145

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Derivamos la funcin respecto a 1 :


n

f ( 0 , 1 ) = ( y i 0 1 xi )

i =1

n
df ( 0 , 1 )
= 2 ( y i 0 1 xi )( xi )
d1
i =1

d [ f ( x )]
n 1
= n[ f ( x )] f ( x )
dx
n

Porque

Igualamos a cero:

2 ( y i 0 1 xi )( xi ) = 0
n

i =1

Desarrollamos y despejamos la sumatoria:

(x y

0 xi 1 xi2 ) = 0

2 xi y i 0 xi 1 xi2 = 0
i =1

i =1

Ahora la repartimos y liberamos a las constantes:


n

i =1

i =1

xi yi 0 xi 1 xi2 = 0
n

x y
i

i =1

i =1

i =1

i =1

0 xi 1 xi2 = 0

Despejemos el trmino que incluye a 1 :


n

i =1

i =1

i =1

1 xi2 = xi y i 0 xi

Que puede denotarse como:

1 xi2 = xi y i ( y 1 x )(nx )
n

i =1

i =1

Porque

0 = y 1 x

x=

x
i =1

xi = x n
i =1

Lo cual se desarrolla de la siguiente manera:


n

i =1

i =1

1 xi2 = xi y i nx y + 1 nx 2
146

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

As que queda otro trmino con 1 por despejar:

i =1

i =1

1 xi2 1 nx 2 = xi y i nx y

Lo cual se puede simplificar como:

i =1

1 xi2 nx 2 = xi y i nx y
i =1

Y a partir de ello despejar completamente el trmino 1 :

1 =

x y
i =1
n

x
i =1

Puede

2
i

nx y
nx 2

decirse

entonces que, para encontrar el modelo de regresin lineal


y i = 0 + 1 xi + ei que mejor se ajusta a los datos X i , Yi de una muestra de tamao n ,

basta calcular los estimadores de 0 y 1 12 que por mnimos cuadrados se definen como:
EXPRESIN PARA CALCULAR
EL ESTIMADOR 0

0 = y 1 x
n

EXPRESIN PARA CALCULAR


EL ESTIMADOR 1

1 =

x y
i =1
n

x
i =1

2
i

nx y
nx 2

Si bien ambos datos son fundamentales para construir el modelo de regresin lineal, el
valor de 0 slo indica el punto donde la recta corta el eje de las Y ; esto es, el valor de

Y cuando X = 0 . Mientras tanto, el valor de 1 resulta mucho ms significativo para la


interpretacin ya que, dependiendo de su signo y magnitud, indica el cambio en la
variable Y cuando X cambia una unidad. Por ejemplo:

y = 0 + 1 x
y = 0 1 x

Si X disminuye una unidad

Si X aumenta una unidad

y = 0 1 (x 1)

y = 0 1 (x + 1)

y = 0 + 1 ( x 1)
y = 0 + 1 x 1

y = 0 + 1 ( x + 1)
y = 0 + 1 x + 1

12

Igual que en el caso del coeficiente de correlacin de Pearson, el valor de la ordenada a la origen y la
pendiente de la recta pueden obtenerse sin hacer manualmente los clculos, pues son ya muchas las
calculadoras cientficas que arrojan sus valores (a,b) al ingresar los datos de la muestra en el modo estadstico
de regresin lineal.

147

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

y = 0 1 x + 1

y = 0 1 x 1

Por tanto:
Si la pendiente es:

y X disminuye una unidad:

( )
negativa ( )

y X aumenta una
unidad:

Y disminuye 1 unidades
Y aumenta 1 unidades

Y aumenta 1 unidades
Y disminuye 1 unidades

positiva 1

Ejemplos de aplicacin
1.
Los siguientes datos de altura y peso en jvenes adultos son parte de la muestra
recolectada durante la investigacin en Cholula, Puebla (1968-1970).
ESTATURA
1649
1635
1611
1622
1583
1613
1636
1650
1579
1568
1522
1554
1627
1535
1565

PESO
49.5
57.5
50.0
53.5
43.0
57.5
50.5
56.0
50.0
50.0
44.5
48.0
51.0
46.0
49.5

Comprobemos entonces si existe asociacin lineal entre estas variables por medio de un
diagrama de dispersin y el coeficiente de correlacin.

148

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

58
56

Peso jvenes adultos

54
52

50

48
46

44
42
1520

1540

1560

1580

1600

1620

1640

1660

Estatura jvenes adultos

a.1) , Si bien en los valores ms pequeos de la estatura puede verse una


asociacin lineal clara con respecto al peso, conforme la estatura aumenta este
patrn no es tan claro

COEFICIENTE DE PEARSON

r = 0.6786

a.2) , El valor del coeficiente de correlacin de Pearson nos indica una asociacin
lineal directa considerable entre la estatura y el peso de esta poblacin.
A continuacin saquemos los datos necesarios para calcular los estimadores 1 y 0 a
fin de establecer el modelo de regresin.
DATOS GENERALES

n = 15

x = 1596.6000

x y
i =1

s x = 41.5379

y = 50.4333

= 1209525 .000

i =1

2
i

s y = 4.3006

= 38261129.00

Si bien en esta ocasin se mostrar el clculo explcito, despus se mostrar nicamente


el obtenido directamente con ayuda de la calculadora.
EXPRESIN PARA
CALCULAR
EL ESTIMADOR
1 EXPRESIN
PARA
CLCULO
MANUAL
CALCULADORA
CALCULAR
EL ESTIMADOR 0

1 =

x y
i =1
n

x
i =1

1 =

2
i

nx y
nx 2

1209525.000 15(1596.6000 )(50.4333)


38261129.00 15(1596.6000 )
1 = 0.0703

= 0.0703

0 = y 1 x
149

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

0 = 50.4333 0.0703(1596.6000 ) = 61.8077

CLCULO
MANUAL
CALCULADORA

0 = 61.7390

Por lo que el modelo de regresin lineal ajustado queda como:

y = 0 + 1 x + e
peso = 61.7390 + 0.0703estatura

MODELO TERICO

MODELO AJUSTADO
b) , Segn el modelo ajustado, por cada milmetro que cambia la estatura, el peso
cambia 0.0703 kilogramos.
Los siguientes datos de altura y peso tambin son parte de la muestra recolectada
durante la investigacin en Cholula, Puebla (1968-1970), pero pertenecen a adolescentes
hombres:
ESTATURA
1674
1672
1710
1651
1702
1656
1672
1590
1612
1652
1594
1566
1645
1678
1740

PESO
58.5
53.5
58.0
57.0
58.0
58.0
56.5
51.5
56.0
57.5
51.5
47.0
54.5
54.0
62.0

64
62

Peso adolescentes

60
58
56
54
52
50
48
46
1500

1600

1700

1800

Estatura adolescentes

a.1) , Pese a la dispersin de algunos datos puede verse una asociacin lineal entre

150

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

la estatura y el peso, as como se define una pendiente bastante grande.


COEFICIENTE DE PEARSON

r = 0.8382

a.2) , El coeficiente de correlacin de Pearson seala una asociacin lineal directa


fuerte entre la estatura y el peso de los adolescentes de Cholula.
ESTIMADORES Y AJUSTE DEL MODELO

0 = 51.3759
1 = 0.0646
peso = 51.3759 + 0.0646 estatura
b) , De acuerdo al modelo ajustado, por cada milmetro que cambia la estatura, el
peso cambia 0.0646 kilogramos.

Ejercicios de Repaso
I. Definir los siguientes trminos estadsticos:
11. Mediana.
12. Moda.
13. Varianza.
14. Desviacin estndar.
15. Coeficiente de variacin.
16. Percentil.
17. Cuartel.
18. Modelo de regresin lineal.
19. Coeficiente de correlacin.
20. Pendiente de la recta de regresin
lineal
II. Clasificar las siguientes variables como categrica nominal, categrica ordinal,
numrica discreta o numrica continua:
1. Poblacin.
2. Muestra.
3. Variable.
4. Variable categrica nominal.
5. Variable categrica ordinal.
6. Variable numrica discreta.
7. Variable numrica continua.
8. Medida de tendencia central.
9. Medida de dispersin.
10. Media aritmtica.

1. Temperatura mxima diaria.


2. Nmero de camiseta de los
jugadores de un equipo de
baloncesto.
3. Calificacin obtenida en un
examen.
4. Marca de un refresco consumido.
5. Estado civil de una persona.
6. Nmero de tepalcates obtenidos
en un sitio arqueolgico
determinado.
7. El nmero de nios nacidos en
mujeres de ms de 40 aos.
8. Nmero de hermanos.
9. Preferencia poltica partidaria.
10. Aos de escuela completados.
11. Creencia religiosa.

12. ltimo grado escolar obtenido


(primaria, secundaria, etc.).
13. Nmero de carros propios por
familia
14. Ocupacin.
15. Tasa de criminalidad.
16. Calificacin en el examen de
admisin a la UNAM.
17. La calificacin del examen de
Estadstica en el grupo.
18. Sexo.
19. Edad al morir.
20. Estatus de empleo (empleado,
desempleado)

151

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
III. Hay 15 nmeros en una lista y la media es 25. Un estudiante se ha equivocado
con el nmero ms pequeo que era 12.9 y lo captura como 1.29.
1. Es posible determinar cunto cambia la media? Si es as, cunto cambia?
2. Es posible determinar el valor de la media despus del cambio? Si es as
cul es el valor?
3. Es posible determinar cunto cambia la mediana? Si es as, cunto cambia?
4. Es posible determinar cunto cambia la desviacin estndar? Si es as,
cunto cambia?
IV. Designar, segn sea el caso, como verdadero o falso las siguientes
afirmaciones:
1. La media de una muestra divide siempre a los datos en dos partes, la mitad
con valores mayores y la otra con valores menores que aquella.
2. Una medida de tendencia central es un valor cuantitativo que describe la
variabilidad de los datos con respecto a un valor central.
3. Algunas veces la suma de los cuadrados de las diferencias con respecto a la
media es negativa.
4. En cualquier distribucin, la suma de las desviaciones con respecto a la media
es igual a cero.
5. La desviacin estndar del conjunto de valores, 2, 2, 2, 2, y 2 es 2.
6. En un examen, la calificacin de Carlos ocupa el percentil 50, y la de Guillermo
el 25; por lo tanto la calificacin de Carlos es dos veces la de Guillermo.
7. La frecuencia de una clase es el nmero de datos cuyos valores se encuentran
dentro de las fronteras de esa clase.
8. En estadstica se utilizan las distribuciones de frecuencias para presentar, en
forma concisa, cantidades grandes de datos repetidos.
9. Las grficas de caja permiten comparar dos grupos con respecto a una
variable.
10. Las grficas de dispersin (tipo XY) permiten comparar dos grupos con
respecto a una variable.
V. Se desea realizar un estudio sobre el estatus nutricional de una comunidad.
a) Proponer de forma razonada diez variables que podran utilizarse para realizar
dicha investigacin.
b) Qu tipo de variable es cada una de ellas?
c) Describir brevemente el tipo de estadstica descriptiva a realizar en este
estudio.
VI. Los siguientes datos se obtuvieron en una investigacin sobre actividad
ocupacional a partir de una muestra de restos seos femeninos
(correspondientes a la poca de la Colonia) procedentes del hospital Real de
Naturales (ubicado en lo que ahora es el Eje Central de la Ciudad de Mxico).
1. Clasificar cada una de las variables.
2. Realizar tablas de frecuencias para las variables Aplanamiento por mecapal e
Insercin en msculo suboccipital y realizar grficas circulares para cada
variable.
3. Realizar una tabla cruzada entre Aplanamiento por mecapal e Insercin en el
msculo suboccipital obteniendo porcentajes por rengln.
4. Para la variable Longitud mxima de hmero graficar el histograma, calcular la
media, mediana, moda, desviacin estndar y coeficiente de variacin.

152

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Cas
o

Aplanamient
o
por mecapal

1
2

Ausencia
Ausencia

Insercin
en
msculo
suboccipita
l
Ligera
Moderada

Ausencia

4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia

Longitud
mxima
de
hmero

Cas
o

Aplanamient
o
por mecapal

Insercin
en msculo
suboccipita
l

Longitud
mxima
de
hmero

254
254

33
34

Ausencia
Ausencia

Moderada
Ligera

310
313

Moderada

262

35

Ausencia

Ligera

Moderada
Moderada
Ligera
Marcada
Ligera
Ligera
Moderada
Ligera
Moderada
Moderada
Marcada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Ligera
Marcada
Marcada
Moderada
Moderada
Moderada
Marcada
Moderada
Moderada

270
271
272
275
278
279
279
280
280
280
280
282
282
282
283
284
285
285
288
289
290
291
294
295
295
297
300
301
307

36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64

Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Ausencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia
Presencia

Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Moderada
Marcada
Moderada
Marcada
Moderada
Marcada
Marcada
Marcada
Moderada
Moderada
Moderada
Marcada
Marcada
Marcada
Marcada
Marcada
Moderada
Moderada
Marcada
Marcada
Marcada

.
.
.
.
.
.
.
.
.
262
264
270
271
272
283
283
284
287
290
293
295
302
302
317
.
.
.
.
.

VII. Con los datos recolectados en el grupo mediante la Cdula de percepcin


corporal, sexualidad y antropometra:
1. Realizar una tabla cruzada entre Sexo y Persona con la que tuvieron su
primera relacin sexual (pregunta 13) utilizando los casos que contestaron S
haber tenido relaciones sexuales.
2. Llenar la siguiente tabla con los datos indicados:
VARIABLE
MUJERES
HOMBRES
Estatura
~
~
s
c.v.
s
x
x
x
x
autopercibida
Peso autopercibido
Estatura
antropomtrica
Peso antropomtrico
3. Para cada valor en la muestra, calcule el ndice cintura-cadera (ICC)

c.v.

153

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
ICC=

Permetro de cintura
Permetro de cadera

a fin de realizar una grfica de de caja para comparar los valores de este ndice
por sexo.
VIII. En varias ocasiones ciertos problemas de salud no permiten que un
individuo se coloque en posicin para poder medir directamente su estatura
total; para estimar su valor se utilizan entonces medidas indirectas, como la
altura de rodilla, que se suponen estn fuertemente correlacionadas con dicha
variable.
1. Utilizando los datos recolectados para mujeres, considerando la estatura
total como variable dependiente y la altura a la rodilla como variable
independiente:
a) Graficar los datos en un diagrama de dispersin.
Se observa una tendencia lineal en los datos?
b) Calcular el coeficiente de correlacin lineal.
c) Ajustar el modelo de regresin lineal.
d) Es un modelo adecuado? Calcular R 2 .
e) Ejemplificar el uso del modelo prediciendo dos valores y graficando la recta
sobre el diagrama de dispersin.
2. Repetir el ejercicio con los datos de hombres.

154

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Sexo
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
F
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M

Turno
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
M
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
M
M
M
M
M
M
M
M
V
V
V
V
V
V
V

Edad
20.9
20.4
18.2
22.1
21.4
18.7
24.0
29.8
21.5
24.0
18.9
24.1
21.0
19.8
20.1
19.0
19.5
22.3
26.6
25.7
24.4
17.8
21.2
25.2
20.7
18.3
22.8
23.6
18.4
21.7
18.4
20.2
30.7
18.3
19.4
19.6
20.3
32.2
27.5
21.4
18.8
18.7
26.9
22.1
21.8
21.0
37.8
23.6
19.8
21.8
20.9
24.5
25.0
29.5
30.6

Lug_soc jos_mam L_hijos


Ciudad
3
3
Ciudad
3
3
Ciudad
1
1
Ciudad
4
3
Ciudad
5
5
Ciudad
3
1
Ciudad
3
1
Ciudad
3
2
Ciudad
2
2
Ciudad
4
1
Ciudad
2
2
Ciudad
2
2
Ciudad
2
Ciudad
3
3
Ciudad
2
2
Ciudad
2
1
Ciudad
5
5
Ciudad
2
1
Ciudad
2
1
Ciudad
3
1
Pueblo
4
1
Ciudad
3
1
Ciudad
3
1
Ciudad
3
1
Ciudad
2
2
Pueblo
1
1
Ciudad
3
2
Ciudad
2
1
Ciudad
2
2
Ciudad
3
1
Ciudad
2
1
Ciudad
4
1
Ciudad
3
1
Ciudad
2
2
Ciudad
3
1
Ciudad
2
2
Ciudad
2
1
Ciudad
2
1
Ciudad
4
4
Ciudad
4
3
Ciudad
6
4
Pueblo
2
2
Ciudad
3
1
Pueblo
4
4
Ciudad
1
7
Ciudad
2
2
Ciudad
2
1
Ciudad
3
1
Ciudad
3
2
Ciudad
3
2
Ciudad
2
2
Ciudad
2
1
Ciudad
1
1
Ciudad
4
3
Ciudad
6
6
Ciudad
2
1

PIC
1
5
2
3
7
2
7
4
4
5
2
3
3
6
6
4
2
5
3
3
3
3
3
2
3
5
4
7
3
5
3
6
3
6
6
4
3
7
3
3
5
3
3
4
2
3
2
7
2
3
3
4
2
5
4
3

Estatura
1.39
1.61
1.55
1.55
1.56
1.58
1.62
1.54
1.53
1.55
1.60
1.54
1.68
1.68
1.53
1.53
1.65
1.69
1.70
1.60
1.55
1.52
1.47
1.62
1.56
1.60
1.60
1.50
1.58
1.52
1.57
1.57
1.56
1.72
1.54
1.56
1.60
1.58
1.55
1.62
1.67
1.77
1.83
1.68
1.67
1.84
1.62
1.80
1.64
1.65
1.73
1.78
1.75
1.65
1.76
1.74

Peso
44.00
63.00
50.00
58.00
62.00
49.90
70.00
51.00
54.00
70.00
50.00
49.00
57.00
69.00
54.00
49.00
68.00
65.00
51.00
50.00
51.00
40.00
53.40
52.80
61.00
57.00
63.00
58.00
47.50
60.00
52.00
62.00
65.00
56.00
53.00
70.00
54.00
48.00
64.00
71.00
77.00
82.00
67.50
72.00
61.00
90.00
60.00
66.00
75.00
68.00
66.00
66.50
72.00
70.00

Rel_sex
Si
No
Si
Si
Si
Si

Edad_rel_sex
16

P13
Mayor

P14
Novio (a)

P15
Si

P16
Condones

P17
A veces

P18
5

18
19
18
17

Misma edad
Misma edad
Mayor
Misma edad

Novio (a)
Novio (a)
Novio (a)
Novio (a)

Si
Si
Si
Si

Condones
Condones
Condones
Condones

Siempre
Siempre
Siempre
Siempre

1
1
2
1

Si
Si
Si
No
Si

23
16
15

Menor
Misma edad
Mayor

Novio (a)
Novio (a)
Amigo (a)

Si
Si
No

Condones
Condones

Siempre
Siempre
A veces

1
1
7

17

Misma edad

Novio (a)

Si

Condones

A veces

Si
Si
No
Si
Si
Si
Si
Si
Si
Si
No
Si
Si
Si
Si
Si
No
No
Si

15
18

Misma edad
Mayor

Amigo (a)
Novio (a)

No
Si

Pastillas de emergencia

Siempre
A veces

13
3

17
16
19
14
23
16
19

Misma edad
Misma edad
Misma edad
Mayor
Misma edad
Mayor
Misma edad

Novio (a)
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Novio (a)

No
No
Si
Si
Si
Si
Si

Condones
Condones
Condones
otro
Condones

Siempre
Siempre
Siempre
A veces
Siempre
Siempre
A veces

4
9
2
3
1
3
1

17
16
15
20
15

Mayor
Mayor
Mayor
Mayor
Mayor

Novio (a)
Novio (a)
Novio (a)
Novio (a)
Novio (a)

Si
Si
Si
Si
Si

Condones
Pastillas de emergencia
Condones
Condones
Condones

Siempre
Siempre
Siempre
Siempre
Siempre

3
3
2
2
1

16

Mayor

Novio (a)

Si

Condones

A veces

Si
No
Si
Si
Si
Si
Si
Si
No
Si
Si
Si
Si
No
Si
Si
Si
Si
Si
No
Si
Si
Si

17

Misma edad

Novio (a)

Si

Condones

Siempre

15
15
16
19
18
18

Mayor
Mayor
Mayor
Mayor
Misma edad
Mayor

Novio (a)
Novio (a)
Novio (a)
Novio (a)
Novio (a)
Esposo (a)

Si
Si
Si
Si
Si
Si

Pastillas
Condones
Condones
Condones
Condones
Pastillas de emergencia

Siempre
Siempre
Siempre
Siempre
Siempre
Siempre

3
999
3
5
2
3

16
16
17
21

Mayor
Conocido (a)
Misma edad Conocido (a)
Mayor
Novio (a)
Menor
Novio (a)

Si
Si
Si
No

Condones
Pastillas de emergencia
Condones

A veces
Siempre
A veces

30
21
1
1

18
18
15
17
18

Misma edad
Menor
Misma edad
Mayor
Misma edad

Novio (a)
Novio (a)
Amigo (a)
Novio (a)
Novio (a)

Si
Si
No
Si
Si

Ritmo
Condones
99
Condones
Condones

Siempre
A veces
Siempre
Siempre
Siempre

35
16
2
3
2

17
21
18

Mayor
Mayor
Misma edad

Novio (a)
Amigo (a)
Novio (a)

No
Si
Si

Retiro
Condones
Condones

A veces
A veces
A veces

4
3
5

Estatura_total
1,547
1,594
1,573
1,538
1,553
1,560
1,524
1,525
1,544
1,594
1,521
1,666
1,513
1,494
1,630
1,625
1,676
1,586
1,518
1,500
1,475
1,604
1,512
1,581
1,560
1,465
1,542
1,516
1,557
1,575
1,724
1,505
1,534
1,569
1,584
1,538
1,610
1,638
1,736
1,812
1,662
1,668
1,780
1,617
1,790
1,617
1,632
1,716
1,771
1,697
1,614
1,729
1,725

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Estat_m
1.55
1.59
1.57
1.54
1.55
1.56

Peso_corp
36.00
63.50
47.00
54.00
58.50
43.00

Peri_cint
548
920
680
749
650
630

Est_sent
814
822
804
804
819
824

Alt_rod
422
444
440
424
434
430

Peri_cad
790
982
860
945
1,000
835

1.52
1.53
1.54
1.59
1.52

48.50
54.00
69.00
44.00
52.00

723
680
860
623
680

809
826
830
844
797

448
405
404
425
439

939
940
1,077
883
990

1.67
1.51
1.49
1.63
1.63
1.68
1.59
1.52
1.50
1.48
1.60
1.51
1.58
1.56
1.47
1.54
1.52
1.56
1.58

75.00
48.00
51.50
46.00
64.50
65.00
45.00
48.50
47.00
41.00
48.00
46.00
56.00
53.00
65.00
46.00
41.50
46.00
64.50

845
712
853
620
823
823
649
679
660
640
667
632
740
705
903
671
650
706
866

871
784
801
841
871
869
851
794
791
765
808
841
805
829
801
838
804
821
801

465
425
404
456
479
454
423
421
416
430
452
396
442
451
430
425
426
452
452

1,054
907
921
850
986
1,032
865
885
802
830
894
930
960
915
998
870
860
864
994

1.72
1.51
1.53
1.57
1.58
1.54
1.61
1.64
1.74
1.81
1.66
1.67
1.78
1.62
1.79
1.62
1.63
1.72
1.77
1.70
1.61
1.73
1.73

62.00
68.00
53.50
49.50
68.00
51.00
47.00
58.50
65.50
71.00
89.00
62.50
76.50
54.50
90.50
52.00
60.50
71.50
68.50
71.00
55.00
65.50
66.00

800
840
775
695
850
688
656
743
745
774
997
850
897
700
1,050
770
755
846
857
911
755
810
815

920
750
821
825
845
826
830
859
931
971
857
878
917
831
926
840
892
861
895
885
839
904
910

485
441
414
451
424
439
454
458
481
483
499
434
528
484
501
495
464
512
525
504
469
491
495

1,010
1,084
920
880
1,030
841
863
982
950
1,014
1,097
1,020
1,003
857
1,069
860
914
973
983
1,023
907
932
927

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
1
Curso: Estadstica
Prctica I: Diseo de base de datos en SPSS

Elabor: Jos Luis Castrejn Caballero

El objetivo de esta prctica es que el alumno presentar un panorama general del


uso del SPSS. Ilustraremos el uso del programa creando una base de datos
relacionada con la cedula que se anexa a la prctica. Se utiliza la versin 15 en
espaol.
I. El ambiente de SPSS.
La pantalla inicial del SPSS se presenta en la figura siguiente. Esta pantalla
corresponde al editor de datos, es decir donde podremos observar la informacin
que estaremos analizando. Las columnas identifican las variables y los renglones
corresponde a los casos. En la parte superior podemos observar el men principal:
Archivo, Edcin, Ver, Datos,..., Ventana, ?. Los iconos de la parte inferior de
este men corresponden a instrucciones que uno puede llamar con slo dar clic en
la figura correspondiente.

En la ventana inferior se pueden apreciar dos pestaas: Vista de datos que se


encuentra activada y Vista de variables que aparece inactiva. El primer paso
para elaborar una base de datos consiste en definir los nombres y caractersticas

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
2
de las variables a utilizar, lo cual podemos realizar dando clic en la pestaa
Variable View, con lo cual aparece la siguiente pantalla.

La primera columna (Nombre) corresponde al nombre de la variable; a diferencia


de versiones anteriores en sta se permiten nombres que pueden exceder 8
caracteres pero que no debe contener espacios ni smbolos como $, %, &, /, etc.
Lo que si puede utilizarse es el guin bajo (_). La segunda columna

(Tipo),

corresponde al tipo de variable que puede ser numrica, alfanumrica o carcter


(cadena), fecha, entre otras. Anchura permite definir la anchura de la variable, es
decir el espacio mximo que ocupar el dato que ser almacenado en esta
variable. El nmero de decimales (Decimales) a utilizar (cuando la variable es
numrica) corresponden se define en la siguiente columna. La columna Etiqueta
permite especificar una identificacin a la variable que puede ser el nombre
completo de la variable en la cdula o encuesta. Esta etiqueta puede contener
espacios y cualquier smbolo. La columna Valores permite definir el nombre de las
categoras en las variables cualitativas. La columna Perdidos permite definir los
valores que toma una variable cuyo dato es perdido. Otra opcin es no asignar
ningn valor a los datos perdidos con lo que el programa denota con un punto en

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
3
lugar del dato. Columnas se refiere al ancho de la columna donde esta definida la
variable. La alineacin (centrada, derecha o izquierda) de los datos en la columna
de la variable correspondiente se define con la opcin Alineacin. Algunos
anlisis estadsticos se realizan para determinados tipos de variables, por lo que es
conveniente definir en la columna Medida si se trata de una variable cuantitativa
(Escala), Ordinal o Nominal.
Ahora se ilustrar con el diseo de la base correspondiente a la cdula anexa.
Aunque no est numerada como item o pregunta, el folio es la primera variable. Se
supone que la cdula no se aplica a ms de 1000 personas, por lo que esta
variable la podemos definir con su nombre folio y con un ancho de 3, sin
decimales, y con una etiqueta que diga Folio de la cdula. La pantalla
correspondiente queda como se muestra en la figura siguiente:

La variable sexo tiene dos posibles valores F para las mujeres y M para los
hombres. Convendremos la siguiente codificacin: 1=Femenino, 2=Masculino. Por
lo tanto el nombre de la variable ser sexo, ser numrica de ancho 2, con 0
decimales y la etiqueta ser Sexo del individuo. Al introducir estos valores y
dndole clic en la columna Valores, y enseguida en el botn
siguiente pantalla:

se muestra la

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
4

El cuadro gris con tres puntos

es un smbolo usado por SPSS que indica que

existe un men al dar clic en l. Realizando esta accin nos queda el siguiente
men:
En Valor se introduce el valor numrico o cdigo y en Etiqueta el significado de
ese cdigo. Hay que dar clic en el botn Aadir para adicionar la codificacin. En
nuestro caso tenemos 1=Femenino y 2=Masculino. Por lo que debe quedar como
se ve en el siguiente cuadro:

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
5

Los botones Cambiar y Eliminar se utilizan en el caso de cometer algn error en


la definicin de las categoras. Dar clic en Aceptar para regresar a la ventana de
Vista de variables
De manera similar definimos la variable turno, la cual la dejamos numrica con
ancho 2, 0 decimales, con etiqueta Turno en la ENAH, y codificamos
1=Matutino, 2=Vespertino. Nos queda la siguiente pantalla:

Es el momento de guardar el archivo en disco. Se puede guardar dando clic en el


icono

, seleccionando la carpeta y dndole un nombre, por ejemplo: cedula

estadstica. Se recomienda guardar cotidianamente para no perder demasiada


informacin por fallas de energa o del equipo de cmputo.
La siguiente variable es el lugar de nacimiento, que tendr como nombre
l_nacimiento, daremos clic en
el campo Tipo para cambiar a
Cadena, ya que se capturar el
nombre del estado tal cual,
tendr un ancho de 35, y como
Etiqueta le pondremos Lugar
de nacimiento. Aunque esta
variable es categrica, tal y
como la hemos definido no tiene Valores.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
6
La variable Fecha de
Nacimiento tendr por
nombre

f_nacimiento,

la definiremos como tipo


Fecha y con formato ddmmm-yyyy, dando clic en
la celda correspondiente
a la columna Tipo y
seleccionando Fecha como se muestra en la figura de junto. En este caso la
Anchura se define automticamente de 11 espacios, por lo que el ancho de c
Columnas deber tener al menos esta longitud.
La pregunta 5 de la cdula es conocida como lugar de socializacin es una variable
categrica, la cual llamaremos lug_soc y tendr por etiqueta Lugar de
socializacin, con los cdigos 1=Rancho, 2=Pueblo y 3=Ciudad.
La variable nmero de hijos de tu mam (hijos_mama) es cuantitativa discreta,
por lo tanto es numrica, sin decimales, la definiremos con ancho 2 y la etiqueta
ser el enunciado de la pregunta; no tiene Valores ya que no tiene categoras. La
variable paridad (lugar que ocupas entre los hijos de tu mam) es similar a la
anterior.
La variable autopercepcion tiene que ver con la figura o silueta seleccionada de
un total de nueve posibilidades. Es una variable categrica ordinal y le pondremos
como etiqueta Figura seleccionada.
Las variables estatura y peso autodefinidas las llamaremos estatura_auto y
peso_auto, son cuantitativas, las definiremos con dos decimales. La primera
parte de la cdula queda definida como se muestra en la siguiente figura.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
7

Ejercicio: Completar el diseo de la base de datos, con la parte de sexualidad y


antropometra y capturar la informacin contenida en las hojas anexas.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Folio:
ESCUELA NACIONAL DE ANTROPOLOGA E HISTORIA
CDULA PERCEPCIN CORPORAL
CURSO: ESTADSTICA (2008)
1. Sexo

2. Turno

3. Lugar de nacimiento (Estado):


4. Fecha de nacimiento:
da
5. Los primeros 10 aos de tu vida los pasaste en:
1) Un rancho
2) Un pueblo

mes

ao

3) Una ciudad

6. Cuntos hijos tuvo o ha tenido tu mam?:


7. Qu lugar ocupas entre los hijos de tu mam?:
8. De acuerdo a tu sexo, considera las nueve siluetas que se presentan a
continuacin cul es la que ms representa la tuya? Tchala

9. Cul es tu estatura actual (metros)?:


10. Cul es tu peso actual (kg)?:

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Folio:
ESCUELA NACIONAL DE ANTROPOLOGA E HISTORIA
CDULA SEXUALIDAD Y ANTROPOMETRA
CURSO: ESTADSTICA (2008)
11. Has tenido relaciones sexuales?

1) S

2) No

12. A qu edad tuviste tu primera relacin sexual?


13. La persona con la que tuviste tu primera relacin sexual era:
1) De tu misma edad
2) Mayor que t
3) Menor que t
14. Qu relacin tenas con la persona con la que tuviste tu primera relacin
sexual?
1) Novio(a)
2) Esposo(a)
3) Amigo(a)
4) Conocido(a)
5) Prostituto(a)
6) Familiar
7) Otra relacin
15. En tu primera relacin sexual t o tu pareja
hicieron algo para evitar tener un embarazo?
16. Qu fue lo que hicieron para evitar un embarazo?
2) Pastillas de anticoncepcin de
1) Pastillas
emergencia
4) Dispositivo
5) Condones
7) Ritmo
8) Retiro

1) S

2) No

3) Inyecciones
6) vulos, espumas, jaleas
9) Otro

17. Cundo tienes relaciones sexuales acostumbras usar alguno de los mtodos
anteriores para evitar un embarazo?
1) Siempre
2) A veces
3) Nunca
18. Durante toda tu vida con cuntas personas
diferentes has tenido relaciones sexuales?

Estatura total:
Peso corporal:
Permetro de cintura:

DATOS ANTROPOMTRICOS
Estatura sentado:
Altura de rodilla:
Permetro de cadera:

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Estadstica
Prctica II: Construccin de variables e ndices y estadstica descriptiva con SPSS
Elabor: Jos Luis Castrejn Caballero
La prctica utiliza la base de datos contenida en el archivo cedula estadistica.sav creada en la
prctica I, y utiliza la versin 15 del SPSS en espaol.
Edad exacta
A) A partir de la variable fecha de nacimiento y considerando que la fecha de toma de
informacin fue el 16 de enero del 2008 determinar la edad exacta de cada elemento de la
muestra.
Razonamiento: Si determinamos el nmero de das entre las dos fechas y dividimos esta cifra
entre 365 tendremos una aproximacin a la edad exacta. En SPSS existe una funcin que
determina el nmero de das entre dos fechas, llamada CTIME.DAYS(time), donde time es un
intervalo de tiempo, que en nuestro caso es la diferencia entre la fecha de toma y la fecha de
nacimiento. Por lo tanto el procedimiento ser el siguiente:
1. Crear una variable tipo fecha llamada fechat, tipo fecha, que tenga el valor 16-01-2008 en
todos los casos. Lo haremos en el ambiente de variables (Variable View) insertando la nueva
variable despus de la fecha de nacimiento (fecha_nac) lo cual puede realizarse colocndonos
despus de esta variable y despus seleccionar del men Edicin la opcin Insertar variable o
rpidamente con el icono
. Despus de esta variable insertaremos una nueva variable
llamada edad, numrica con dos decimales, la ventana de variables debe quedar como sigue:

2. En el ambiente Vista de Datos, llenamos todas las celdas de la nueva variable fechat con el
valor de la fecha de toma: 16-01-2008 (usando copiar, pegar), quedando como se muestra en la
figura siguiente:

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

3.
Utilizaremos
las
variables fechat y f_nac
con
la
funcin
CTIME.DAYS. Damos
clic
en
el
men
Transformar luego en
Calcular variable, tal
como se muestra en la
figura de al lado.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
En el recuadro resultante
introducir el nombre edad
en el espacio de Variable
de destino.
Del Grupo de funciones
seleccionamos Extraccin
de duracin del tiempo y
de las Funciones y
variables
especiales
seleccionamos la funcin
CTIME.DAYS,
introducindola
en el
espacio de Expresin
numrica, mediante el
botn
correspondiente,
cambiando el argumento
como se muestra en la
figura, escribiendo los
parntesis cono se indica.

4. Dar clic en el botn


clic en el botn
variable edad.

. Si el programa pregunta sobre cambiar la variable existente dar


. En la ventana de Vista de datos pueden apreciarse los valores de la

ndice de Masa Corporal


El ndice de Masa Corporal (IMC) es una de las medidas ms usadas en estudios
antropomtricos y de nutricin, siendo uno de los indicadores del nivel de obesidad. La
expresin matemtica, debida al fsico de origen belga Quetelet, es:
peso(kg )
IMC =
estatura 2 (m)
El antroplogo fsico mexicano Luis Vargas ha propuesto la siguiente clasificacin de los
valores del ndice, por lo que utilizaremos los valores de categora indicados en este ejercicio.
Valor
Categora
IMC
1
Emaciacin
< 15
2
Bajo peso
15 - 18.9
3
Normal
19 - 24.9
4
Sobrepeso
25 - 29.9
5
Obesidad
30 - 39.9
6
Obesidad severa
> 40
Para calcular este ndice con los datos antropomtricos que estamos trabajando, en primer lugar,
tenemos que convertir la estatura a metros (est en milmetros). Para lograrlo dividiremos la
estatura entre 1000. En el men (Transformar, Calcular variable) introducimos esta
operacin como sigue, despus de dar clic en el botn
para borrar la operacin
anterior.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Nombre de la nueva
variable.

Expresin
matemtica.

Ahora
estamos
en
condiciones de calcular el
IMC. En el mismo men,
introducimos la expresin
matemtica,
llamaremos
imca a esta nueva variable.
El botn
es el operador
que
permite
elevar
a
cualquier potencia un valor
determinado.
Nombre de la nueva variable.
Expresin matemtica.

Lo que sigue es clasificar los valores del IMC segn la propuesta de Luis Vargas y que hemos
explicitado en el cuadro anterior. Para lograr esto construiremos una nueva variable llamada
CIMC la cual tendr valores que van de 1 a 6 segn el valor del IMC.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Utilizaremos de nuevo la opcin TransformarCalcular como se muestra en la siguiente


figura:
Para definir los valores
correspondientes
al
cdigo 1 daremos clic
en el botn Si

En el cuadro de
dialogo
resultante,
primero activamos la
opcin Incluir si el
caso satisface la
condicin:
En el cuadro pasamos
la variable imca y
escribimos
la
condicin usando los
botones
de
calculadora.
Dar
clic
en
Continuar.
Dar clic en Aceptar.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
Repetimos
el
procedimiento
para
definir el cdigo 2 como
se muestra en la figura.
Daremos clic en el
botn
Si
para
modificar la condicin.

Ahora
la
nueva
condicin se escribe
como se indica en el
cuadro.
El smbolo & indica
el conector lgico y,
es decir que se
cumple al mismo
tiempo. Para la opcin
o utilizaremos el
smbolo |
De
una
manera
similar se construyen
los cdigos 3 a 6,
situacin que queda
como ejercicio para el
estudiante.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Similar a lo que se hizo en la prctica 1, en el ambiente de Vista de variables se pueden definir


las etiquetas de las
variables que hemos
construido hasta ahora y
los valores o cdigos de
la nueva variable CIMC,
lo que se vera como
sigue:
Las nuevas variables
construidas tendrn como
etiqueta Estatura en
metros, ndice de masa
corporal
antropomtrico
y
Clasificacin del ndice
de
masa
corporal
antropomtrico.
ndice Cadera-Cintura
Uno de los indicadores ms usados para determinar riegos cardiovasculares por problemas de
obesidad es la relacin entre el permetro de la cintura y el de la cadera cuya expresin
matemtica es:
Permetro de cintura
ICC=
Permetro de cadera
Los valores del ICC se clasifican de manera diferente segn el sexo. La siguiente tabla es una
propuesta de la OMS en funcin del riego de padecer una enfermedad de tipo cardiovascular:
Tipo de riesgo
1= Bajo 2 = Elevado 3 = Muy elevado
Hombres <0.90
0.90 a 1.00
>1.00
Mujeres
<0.80
0.80 a 0.85
>0.85
Tarea
1. Calcular el valor del ICC
2. Elaborar una variable que contenga la clasificacin segn sea el sexo, llamarla CICC.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Estadstica descriptiva
En este apartado obtendremos algunos estadsticos descriptivos con el auxilio del SPSS.
Tablas de frecuencias
1. Obtendremos las tablas de
frecuencias de las variables sexo,
turno e imca.
En el opcin Analizar del men
principal
seleccionar
Estadsticos Descriptivos y
luego Frecuencias, apareciendo
al cuadro que se muestra a un
lado.
Seleccionaremos
las
variables Sexo, Turno y CIMC
pasndolas
al
cuadro
de
Variables, como se muestra en la
figura. Dar clic en el botn
.

La pantalla de resultados muestra, entre otros los siguientes cuadros:


Sexo

Vlidos

Femenino
Masculino
Total

Frecuencia
41
25
66

Porcentaje
62.1
37.9
100.0

Porcentaje
vlido
62.1
37.9
100.0

Porcentaje
acumulado
62.1
100.0

Porcentaje
vlido
59.1
40.9
100.0

Porcentaje
acumulado
59.1
100.0

Turno

Vlidos

Matutino
Vespertino
Total

Frecuencia
39
27
66

Porcentaje
59.1
40.9
100.0

Clasificacin de ndice de masa corporal antropomtrico

Vlidos

Bajo peso
Normal
Soberpeso
Obesidad
Total

Frecuencia
7
40
16
3
66

Porcentaje
10.6
60.6
24.2
4.5
100.0

Porcentaje
vlido
10.6
60.6
24.2
4.5
100.0

Porcentaje
acumulado
10.6
71.2
95.5
100.0

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Tablas cruzadas
Se desea establecer si existe o no relacin entre entre las variables sexo y has tenido relaciones
sexuales? En SPSS utilizaremos el men Analizar, de donde seleccionaremos la opcin
Estadsticos Descriptivos y luego Tablas de contingencia
En el cuadro Filas introducir la variable
sexo y en el de Columnas la variable que
tiene que ver con la primera relacin
sexual como se muestra en la figura que se
presenta a un lado.
Dar clic en el botn
y
seleccionar de la opcin Porcentajes la
opcin Fila para obtener porcentajes por
rengln, como se muestra en el cuadro de
abajo. Dar clic en Continuar y despus en
Aceptar.

Se obtiene la siguiente tabla:


Obsrvese que el porcentaje
de hombres que declararon
que ya han tenido relaciones
sexuales es mayor que el de
mujeres.

Tabla de contingencia Sexo * Has tenido relaciones sexuales?

Sexo

Femenino
Masculino

Total

Recuento
% de Sexo
Recuento
% de Sexo
Recuento
% de Sexo

Has tenido
relaciones sexuales?
S
No
28
13
68.3%
31.7%
22
3
88.0%
12.0%
50
16
75.8%
24.2%

Total
41
100.0%
25
100.0%
66
100.0%

Grficas de barras
Realizaremos una grfica de barras para cada sexo de la variable Durante toda tu vida con
cuntas personas diferentes has tenido relaciones sexuales?

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

10

En primer lugar utilizaremos la opcin


Segmentar archivo de la opcin Datos
del men principal. Esta opcin nos
permite realizar las mismas instrucciones
para los grupos definidos en la variable;
en nuestro caso usaremos la variable
sexo lo que nos permitir que todas las
instrucciones que hagamos mientras este
activada esta opcin se realice para
hombres y mujeres por separado.
Despus de seleccionar la opcin
Comparar los grupos, se introduce la
variable sexo como se muestra en la figura.
Para realizar la grfica de barras, de la opcin Grficos
seleccionamos Cuadro de dilogo antiguos y escogemos
Barras apareciendo la figura que se muestra a la izquierda.
Dejamos la opcin Simple seleccionada por default y damos
clic en el botn Definir, obteniendo el cuadro que se muestra
abajo. Seleccionamos la opcin % de casos e introducimos la
variable de inters en el cuadro Eje de categoras.

Despus de dar clic en


Continuar y
luego en
Aceptar, se obtienen las
grficas que se presentan a
continuacin.

11

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

Sexo: Masculino

40.0%

40.0%

30.0%

30.0%

Porcentaje

Porcentaje

Sexo: Femenino

20.0%

10.0%

20.0%

10.0%

0.0%

0.0%
1

15

Durante toda tu vida con cuntas personas diferentes has tenido


relaciones sexuales?

10

Media, mediana, moda, desviacin estndar, coeficientes de asimetra y curtosis.


En esta seccin ejemplificaremos como obtener las medidas de tendencia central y de dispersin
para variables cuantitativas. Ilustraremos las tcnicas para el caso de las variables estatura total
y peso para cada sexo.
Recordemos que en el apartado anterior dejamos activa la opcin Segmentar archivo por lo
cual los resultados que se obtengan se repetirn para mujeres y hombres.
En el opcin Analizar del men
principal
seleccionar
Estadsticos Descriptivos y
enseguida
Frecuencias,
apareciendo al cuadro que se
muestra
a
un
lado.
Seleccionaremos las variables
Peso Corporal y Estatura total
pasndolas
al
cuadro
de
Variables, como se muestra en
la figura.
Desactivar la opcin Mostrar
tablas de frecuencias.
Dar clic en el botn
para seleccionar las medidas solicitadas.

17

Durante toda tu vida con cuntas personas diferentes has tenido


relaciones sexuales?

12

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
En el men resultante
seleccionar las medidas
como se muestra en la
figura. Dar clic en
Continuar y luego en
Aceptar. Se obtiene el
cuadro con los resultados
por sexo que se muestra
abajo.

Estadsticos
Sexo
Femenino

Masculino

Media
Mediana
Moda
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis
N
Media
Mediana
Moda
Desv. tp.
Asimetra
Error tp. de asimetra
Curtosis
Error tp. de curtosis

Vlidos
Perdidos

Vlidos
Perdidos

Estatura total Peso corporal


41
41
0
0
1576.39
57.300
1571.00
57.500
1563a
44.4a
50.010
11.5560
.309
.883
.369
.369
.094
1.204
.724
.724
25
25
0
0
1700.84
68.712
1699.00
65.600
1675
53.1a
65.987
12.7657
.426
.925
.464
.464
.320
.220
.902
.902

a. Existen varias modas. Se mostrar el menor de los valores.

Grficas de caja
Recordemos que las grficas de caja se construyen con base en los cuartiles y permiten
comparar dos o ms grupos respecto a los valores de una variable cuantitativa. Ilustraremos el
uso del SPSS creando una figura que permita comparar el IMC respecto al sexo y turno de los
alumnos.

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso

13

En primer lugar desactivaremos la


opcin Segmentar archivo. Del
men principal seleccionamos
Datos y luego Segmentar archivo.
Ahora activamos la opcin
Analizar todos los casos, no crear
los grupos, como se muestra en la
figura de al lado. Dar clic en
Aceptar.

Para realizar la grfica, del men Grficos elegimos la opcin Cuadros de dialogo antiguos y
Diagramas de caja. Seleccionamos el tipo Agrupado y damos clic en el botn
, con lo
cual aparece la ventana que se ve abajo a la derecha, donde introducimos las variables como se
indica en la ventana. Dar clic en Aceptar.

14

Estadstica para antroplogos fsicos


Jos Luis Castrejn Diana Troncoso
La grfica que se obtiene es la siguiente:
Turno

35.00

Matutino
Vespertino

imca

30.00

25.00

20.00

15.00
Femenino

Masculino

Sexo

Tarea
3. Realiza una tabla de frecuencias para las variables: En tu primera relacin sexual t o
tu pareja hicieron algo para evitar tener un embarazo? Qu fue lo que hicieron para
evitar un embarazo? Y Clasificacin del ndice de masa corporal.
4. Realiza una grfica de barras para la variable Clasificacin del ndice cadera-cintura
(CICC) para todos los casos.
5. Realiza una tabla cruzada entre las variables Sexo del individuo y La persona con la que
tuviste la primera relacin sexual era.
6. Realiza una grfica de caja para la variable ICC comparando por sexo.
7. Realiza grficas de caja para las variables Estatura autopercibida y Peso autopercibido
comparando por sexo.
8. Calcula media, mediana, mnimo, mximo y desviacin estndar comparando por sexo
para las variables altura de rodilla, estatura sentado, peso corporal, ndice de masa
corporal e ndice cintura-cadera.
9. Realiza histogramas para las variables estatura total y estatura sentado para cada sexo.
10. Considerando la estatura total como variable dependiente y la altura a la rodilla como
variable independiente:
a) Graficar los datos en un diagrama de dispersin. Se observa una tendencia lineal en
los datos?
b) Calcular el coeficiente de correlacin lineal. Interpretar
c) Ajustar el modelo de regresin lineal. Interpretar
d) Es un modelo adecuado? Calcular R 2 .

You might also like