You are on page 1of 38

3

Conceptos bsicos en bioestadstica


para el estudiante de medicina

7. Identificar y aplicar los mtodos estadsticos en el


manejo de la informacin generada en el mbito de
competencia.
8. Interpretar los resultados estadsticos en la revisin de
publicaciones mdico cientficas y valorar la aplicacin de los resultados de la lectura en su prctica profesional.

Resumen

Editorial El manual moderno Fotocopiar sin autorizacin es un delito.

Los profesionales de la medicina, hoy ms que nunca,


deben mantenerse actualizados en su rea de conocimiento, por lo que la consulta de fuentes bibliogrficas es
imprescindible. Para realizar un anlisis crtico de la
informacin requieren aplicar criterios que les permitan
valorar la consistencia de la metodologa y resultados de
investigacin, as como de los mtodos estadsticos usados. Estas habilidades y conocimientos resultan an ms
necesarias cuando incursionan de lleno en la investigacin, ya que para la toma de decisiones metodolgicas, es
de suma importancia conocer los alcances y limitaciones
de los recursos estadsticos.
En el captulo la explicacin detallada de conceptos
bsicos se enmarca en dos estudios de actualidad, lo que
ofrece a los lectores un contexto cercano que facilita su
comprensin.
Los contenidos desarrollados son de gran utilidad para
los mdicos en formacin, quienes han de continuar profundizando en el estudio de herramientas y conceptos estadsticos de mayor alcance a fin de fortalecer las competencias establecidas para esta rea del ejercicio de la medicina.

I. INTRODUCCIN GENERAL
La prctica de la medicina requiere del conocimiento y
buen uso de herramientas provenientes de diversas disciplinas y reas del conocimiento. Los mtodos estadsticos
forman una parte importante de estas herramientas.
Si bien la importancia de la estadstica es clara en el
campo de la investigacin mdica, una adecuada comprensin de sus mtodos bsicos es igual de indispensable en el rea clnica y poblacional. Para mantenerse
actualizado en los avances del conocimiento mdico, el
profesional de la salud debe ser capaz de comprender los
informes de investigacin que se consignan en revistas
especializadas o se comunican en los congresos mdicos.
Para ser capaz de llevar a cabo una lectura crtica de los
resultados de investigacin as como entender errores
potenciales, el mdico necesita adquirir los conocimientos que le permitirn evaluar la metodologa y los resultados de los anlisis estadsticos utilizados en las diferentes comunicaciones.
En el caso del estudiante de medicina que desee continuar su carrera en el campo de la investigacin, la necesidad del conocimiento estadstico es an ms clara. Ya
sea que se trate de elaborar un breve informe de una
serie de observaciones clnicas, o de aspectos ms complejos de la investigacin bsica, de la evaluacin del
efecto de un medicamento o de la investigacin epidemiolgica, los mtodos estadsticos permiten, entre otras
cosas, resumir, describir y comunicar la informacin
obtenida o evaluar hiptesis sobre la relacin entre los
factores de inters y un posible cuadro clnico.

Competencias
1. Identificar la importancia de la bioestadstica para el
anlisis de los problemas de salud-enfermedad a nivel
individual y colectivo.
2. Aplicar los principios bsicos estadsticos para el
manejo de la informacin haciendo nfasis en los distintos tipos de variables y escalas de medicin.
3. Seleccionar los mtodos apropiados para la descripcin y anlisis de datos.
4. Aplicar la estadstica descriptiva para el manejo e
interpretacin de datos.
5. Analizar e interpretar los resultados de las pruebas
estadsticas ms utilizadas.
6. Conocer la utilidad y uso de la bioestadstica en la
prctica mdica.

Salud Pblica. Teora y prctica

Descritas antes en este documento. Estas competencias estn


adecuadas de las competencias definidas a partir del Taller
Competencias en salud pblica para estudiantes de medicina 2006.

Se espera que, al terminar de estudiar este captulo, los


estudiantes comprendan los conceptos bsicos de estadstica y algunos aspectos metodolgicos relevantes con la finalidad de que identifiquen la pertinencia y alcances del uso
de mtodos estadsticos bsicos y que valoren de forma crtica la consistencia de datos de investigacin y sus posibilidades de aplicacin en la prctica clnica.

II. CONCEPTOS BSICOS DE ESTADSTICA Y


ANLISIS EXPLORATORIO DE DATOS
1. Introduccin
El propsito primario de este captulo es el de proveer a los
estudiantes de medicina con el conocimiento bsico que les
permita entender los procedimientos estadsticos y la discusin correspondiente que aparecen en los artculos especializados. Teniendo esto en cuenta, en esta seccin se presentarn y discutirn los elementos y procedimientos bsicos
para la identificacin, el resumen y la descripcin de la
informacin cuantitativa que es generada en investigaciones
mdicas. El contenido se divide a su vez en dos grandes
rubros, el primero trata con todos aquellos conceptos estadsticos ligados a la definicin, planeacin y diseo de los
estudios; el segundo trata con los procedimientos bsicos
(grficos y numricos) enmarcados dentro del llamado anlisis exploratorio de datos.
Los conceptos que se discutirn en el primer rubro
son: poblacin y muestra, censo y encuesta, parmetros y
estimadores, variables aleatorias y escalas de medicin.
Los procedimientos a discutir en el segundo rubro son en
la parte grfica: diagrama de pastel, histogramas, diagrama de cajas y bigotes y diagrama de dispersin; y en la
parte numrica: medidas de localizacin (media, mediana y moda), medidas de dispersin (rango, rango intercuartil, varianza y desviacin estndar) y medidas de
forma (curtosis, sesgo y percentiles).
Para facilitar la comprensin y discusin de dichos conceptos estadsticos, la presentacin de los mismos se enfocar en trminos de los resultados de dos ejemplos de estudios
generados dentro del rea de salud. Los ejemplos mencionados son versiones abreviadas y simplificadas (con fines
acadmicos) de estudios recientes. El primero de ellos se
basa en la Encuesta Nacional de Salud y Nutricin
(ENSANut-2006) realizada en 2006 en Mxico y el segundo es un estudio que forma parte del proyecto Impacto de
los depsitos de plomo en hueso materno sobre las concentraciones plasmticas de plomo durante el embarazo, la lactancia y el desarrollo neuroconductual del nio desarrollado entre 1997 y 2001.

2. ENCUESTA NACIONAL DE SALUD Y


NUTRICIN (ENSANUT-2006)
En 2006 se realiz la ENSANut-2006 bajo la coordinacin del Instituto Nacional de Salud Pblica y con la participacin de distintas instancias gubernamentales tanto
federales como estatales. La ENSANut-2006 se dise

manual moderno Fotocopiar sin autorizacin es un delito

En este captulo se presenta, de manera sucinta, el


material e informacin relacionados con los mtodos
estadsticos bsicos que estn ligados a una serie de competencias o habilidades mnimas deseables1 que requieren los estudiantes de medicina para cumplir con las
tareas mencionadas. El captulo consta de dos secciones,
como se describe en la figura 3-1. En la primera seccin
se presenta una introduccin al llamado anlisis exploratorio y resumen de datos, y en la segunda parte una
introduccin al llamado anlisis inferencial de datos.
En la primera seccin se explica al estudiante los principios para la elaboracin de descripciones estadsticas de un
conjunto de datos y su correspondiente interpretacin. Se
presentan brevemente los conceptos de poblacin y muestra, censo y encuesta, parmetros y estimadores, variable
aleatoria, escalas de medicin de una variable.
Se discute as mismo cmo, a travs del uso de cuadros,
figuras y medidas de resumen de los datos, es posible mostrar un panorama general del comportamiento de los datos,
las tendencias que se muestran, as como el efecto por la
presencia de un factor de riesgo, una enfermedad, o cualquier otra caracterstica, en una poblacin de estudio.
La segunda seccin tiene como objetivo conocer y
comprender el uso de mtodos estadsticos para la exploracin y confirmacin de la presencia de asociaciones
entre variables o caractersticas medidas en individuos.
Esto permitir saber, por ejemplo, si un potencial factor
de riesgo en realidad se asocia con determinada enfermedad, o si un tratamiento tiene algn efecto en el estado de
salud de un grupo de pacientes. Para responder a lo anterior,
ser necesario que el estudiante sea capaz de traducir el significado de una hiptesis de investigacin en una hiptesis
estadstica, y de identificar el mtodo ms apropiado de
anlisis que junto con la informacin recabada, permita
tomar la mejor decisin sobre la hiptesis mencionada.
Asimismo, al leer un artculo mdico, el futuro mdico debera ser capaz de distinguir con claridad cul es la
hiptesis que los autores proponen, cul fue la estrategia
estadstica mediante la cual se le puso a prueba, y si los
resultados informados en el texto corresponden a los
resultados estadsticos encontrados. Para cumplir estos
objetivos, el material que se presenta cubre, a un nivel
introductorio, los temas de conceptos bsicos de probabilidad, distribuciones de probabilidad, estimacin puntual y por intervalo, y prueba de hiptesis.
En resumen, en este captulo se presentan conceptos
esenciales de la metodologa estadstica para el estudiante
de medicina. Aunque en algunos casos se comenta sobre la
forma de clculo y construccin de los mtodos presentados, para la mayor parte de los temas el nfasis principal se
ha puesto en el aspecto de interpretacin de resultados y
traduccin al contexto del problema bajo estudio.
El nivel de presentacin del material permite mostrar un panorama general acerca de una serie de mtodos
estadsticos bsicos en los que el lector interesado podr
posteriormente profundizar.

(Captulo 3)

Editorial El

Conceptos bsicos en bioestadstica para el estudiante de medicina

Conceptos bsicos en bioestadstica


para el estudiante de medicina

Elementos de inferencia
estadstica

Conceptos bsicos y
anlisis exploratorio de datos

Probabilidad

Conceptos bsicos I
(Planeacin y Diseo)

Distribuciones de
probabilidad

Conceptos bsicos II
(mtodos grficos y
cuantitativos)

Distribucin
muestral

Estimacin, intervalos de
confianza y prueba de
hiptesis

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

Figura 3-1. Estructura del captulo.

para recabar informacin sobre diferentes aspectos de


salud de la poblacin mexicana.
En la ENSANut-2006 se seleccionaron de manera
aleatoria y se visitaron 48 304 viviendas en todo el pas
y se entrevistaron a 206 700 integrantes del hogar, tambin seleccionados al azar: 24 098 nios (0 a 9 aos), 25
166 adolescentes (10 a 19 aos) y 45 446 adultos (20 y
ms aos).
Entre los objetivos que se propusieron en el diseo
de esta encuesta estn:
1. Estimar la frecuencia y distribucin de indicadores
positivos de salud, factores de riesgo de enfermedad,
estado nutricio y deficiencias de nutrimentos, enfermedades, lesiones y discapacidad en los mbitos
nacional, regional, urbano y rural, y para cada una de
las entidades federativas en Mxico.
2. Identificar y conocer los factores ambientales, socioeconmicos, culturales y de estilos de vida asociados
con la salud y las enfermedades estudiadas.
A partir de las entrevistas llevadas a cabo en la ENSANut2006, al igual que en la mayora de los estudios, se generan

datos o informacin sobre diversas caractersticas de los individuos y en este caso, tambin de los hogares visitados.

3. CONCEPTOS BSICOS I
Para responder a los objetivos del estudio, as como a las
preguntas de investigacin derivadas de los mismos, es
necesario llevar a cabo una serie de procedimientos de
anlisis de la informacin recabada que permita su
entendimiento y ubique los puntos crticos para las respuestas.
Una parte importante del proceso anterior es el llamado anlisis estadstico. Este paso consiste en la realizacin de procedimientos grficos y cuantitativos de
modo que permitan en forma conjunta, entender la
estructura interna de la informacin y con ello, responder a las preguntas de investigacin.
Para ubicar cules son los mejores procedimientos y
cul es la mejor manera de presentarlos en los informes,
es importante identificar con claridad algunos conceptos
estadsticos que aparecen en el proceso de planeacin y
diseo del estudio, as como el lenguaje propio de esta

Salud Pblica. Teora y prctica

Poblacin y muestra
Un primer concepto es la poblacin de estudio o poblacin objetivo, en este caso, de acuerdo con el marco de
referencia en donde se desarroll la ENSANut-2006,
esta poblacin es precisamente toda la poblacin residente en la Repblica Mexicana en el 2006, que no se
encuentra institucionalizada y que habita en una vivienda.2 En general, la identificacin de lo que constituye la
poblacin de estudio, se centra en dos puntos: el primero, es la ubicacin de un conjunto de individuos que tienen una o ms caractersticas en comn y de inters; y el
segundo, que para el conjunto se cumplan todas las conclusiones y resultados del estudio, es decir, que sean vlidas para todos y cada uno de los elementos o miembros
de dicho conjunto.
La poblacin es el conjunto de todos los individuos que
comparten una caracterstica que se desea analizar o
estudiar.

Ligado al anterior, se tiene el concepto de muestra,


que es una parte o subconjunto de la poblacin de estudio en donde, para cada uno de sus miembros se miden
o determinan las caractersticas importantes.
La muestra es un subconjunto de elementos de la poblacin.

El obtener informacin sobre toda la poblacin de estudio requiere de una gran cantidad de recursos (financieros,
humanos o de tiempo), haciendo que en algunas ocasiones,
esta actividad sea en su totalidad imprctica o muy costosa.
En esas ocasiones, se suele preferir realizar el estudio slo
sobre una muestra representativa de dicha poblacin.
En el caso de la ENSANut-2006, la muestra es el
conjunto de individuos seleccionados, haya o no aceptado responder el cuestionario de la encuesta. Hay que
notar que en esta encuesta en particular, se conformaron
distintas muestras representativas, una de habitantes del
hogar, una de nios y una de adolescentes.
Las muestras son tiles cuando es imprctico o muy
costoso obtener la informacin de toda la poblacin.

Dependiendo del proceso por el cual se identifican o


seleccionan los miembros de la poblacin que forman
una muestra en particular, se puede evaluar la calidad, la
utilidad y la capacidad de la misma, y de la correspondiente informacin que se genera para contestar las pre2 Por ejemplo excluye a los nios de la calle o a las personas que
estn en prisiones u hospitales.

guntas de investigacin con alto grado de credibilidad y


confianza. Hay procesos estructurados de seleccin ligados a procesos probabilsticos que dan por resultados las
llamadas muestras representativas.
Una muestra representativa permite obtener conclusiones generalizables a toda la poblacin.

La caracterstica principal de las muestras representativas es que reflejan de manera no sesgada las principales caractersticas que presenta la poblacin objetivo ya
que se recuperan los mismos patrones. En el caso de la
ENSANut-2006, el proceso de seleccin cumple con
seguir una estructura probabilstica para generar una
muestra representativa de la poblacin mexicana.
La figura 3-2 es una grfica que muestra un comportamiento compatible con el hecho de la mencionada
representatividad, sta corresponde a una grfica demogrfica conocida como pirmide de edad por sexo.
Como puede verse, la composicin en edad y sexo
de la muestra definida para la ENSANut es muy similar
a la correspondiente poblacin mexicana en el ao 2000
de acuerdo al Censo Nacional de Poblacin y Vivienda.
Este tipo de similitud se espera que se presente para
cualquier otra caracterstica que sea de inters para el
objetivo del estudio; por ejemplo, el estado de salud de
los individuos, su antropometra, el uso de servicios de
salud, patrones de tabaquismo, entre otros.

Censo y encuesta
Cuando se obtiene informacin cuantitativa sobre una o
varias caractersticas objetivas y subjetivas (peso, estatura, estado nutricio, entre otros) en todos y cada uno de
los elementos de la poblacin de estudio, se dir que se
ha realizado un censo de dicha poblacin.
Por el contrario, cuando la informacin se capta slo
en una fraccin o subconjunto de los miembros de una
muestra, se dir que se tiene una muestra o encuesta. La
encuesta se utiliza para estimar las caractersticas de la
poblacin blanco. La realizacin de una encuesta considera diferentes aspectos que van desde la forma en que
se determina la muestra hasta la manera en que se obtiene la informacin deseada; todos estos aspectos determinan distintos tipos de encuesta.
Las encuestas por muestreo son aquellas en donde se
selecciona la muestra de tal forma que sea representativa de
la poblacin total, es decir, el diseo muestral es de tipo probabilstico, lo que significa que todo elemento o unidad
tiene una determinada probabilidad de integrar la muestra
y esa probabilidad es posible de ser calculada de forma
matemtica.
En una encuesta por muestreo se capta informacin de
una muestra representativa.

La ENSANut-2006 es entonces una encuesta por


muestreo probabilstico. Este tipo particular de encues-

manual moderno Fotocopiar sin autorizacin es un delito

rea. En este apartado se describirn algunos de los procedimientos que permiten responder a los dos objetivos
descritos antes por lo que los conceptos mencionados
sern ubicados en el contexto de la ENSANut-2006.

(Captulo 3)

Editorial El

Conceptos bsicos en bioestadstica para el estudiante de medicina

ENSANut 2006

CENSO 2000

Mujeres

Hombres

6 000 000

5 000 000

4 000 000

3 000 000

2 000 000

1 000 000

1 000 000

2 000 000

3 000 000

4 000 000

6 000 000

6 000 000

5 000 000

4 000 000

3 000 000

1 000 000

5 000 000

Pirmide poblacional de la Repblica Mexicana


100 o ms
95-99
90-94
85-89
80-84
75-79
70-74
65-69
60-64
55-59
50-54
45-49
35-39
30-34
25-24
15-19
10-14
5-9
0-4

2 000 000

1 000 000

2 000 000

3 000 000

4 000 000

5 000 000

6 000 000

Hombres

Pirmide poblacional de la Repblica Mexicana


100 o ms
95-99
90-94
85-89
80-84
75-79
70-74
65-69
60-64
55-59
50-54
45-49
35-39
30-34
25-24
15-19
10-14
5-9
0-4

Mujeres

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

Figura 3-2. Pirmides de poblacin del Censo 2000 y de la ENSANut 2006, Mxico.

tas se considera como el ideal desde un punto de vista


estadstico, ya que permite la extrapolacin directa de los
resultados del anlisis con informacin de la muestra
hacia los resultados esperados en la poblacin de estudio.
Por otro lado, existen un gran nmero de encuestas no
probabilsticas. Algunas de ellas se realizan de tal forma
que tienen muy poca capacidad para reflejar patrones o
comportamientos claves que se presentan en la poblacin objetivo lo que representa una fuerte desventaja
con respecto a las encuestas probabilsticas; sin embargo, hay algunas otras encuestas en las cuales el marco
en donde se define su realizacin tiene una estructura
que permite, con algunas restricciones, justificar cierto
nivel de extrapolacin de resultados.
Ejemplos de encuestas no probabilsticas son las
encuestas en un punto de reunin (hospitales, tiendas,
plazas, entre otros) en donde se invita a los asistentes
para solicitarles su participacin en el estudio; encuestas
por Internet que consisten en colocar un cuestionario
en una pgina Web; encuestas televisivas-telefnicas
que consisten en plantear una pregunta a los televidentes solicitando su respuesta va telefnica, entre otras. La
principal caracterstica de estas encuestas es que no es
posible estimar la incertidumbre con la que se realizan
las estimaciones ya que no se tiene informacin sobre las
probabilidades de seleccin de los participantes.
Hay otros tipos de encuestas, algunas basadas en
muestras no probabilsticas y con limitada capacidad de
generalizacin, por ejemplo, algunas encuestas telefnicas o encuestas en sitios de reunin.

conocen como parmetros, mientras que las correspondientes caractersticas reflejadas en la muestra se conocen como estimadores. Por lo anterior, para contar con
una forma ms precisa de identificacin se podr hablar
de parmetros poblacionales y de estimadores muestrales, aunque por lo general, bastar con hablar de parmetros y estimadores.
Un parmetro es un valor numrico que refleja alguna
caracterstica de la poblacin.
Un estimador es la versin muestral del parmetro.

Hay que notar que los parmetros son valores o condiciones desconocidas mientras que los estimadores son
valores o condiciones que pueden calcularse u obtenerse
con la informacin de la muestra.

Ejercicio 1
Con base en sus conocimientos, analice y responda lo
siguiente: en un estudio en donde se quiere estudiar el
uso de servicios y programas de salud, se pregunta a los
participantes sobre el tipo de derechohabiencia que tienen. Las opciones de respuesta de esta pregunta son
IMSS, ISSSTE, Defensa o Marina, Seguro Popular,
Seguro Privado, otro tipo de seguro mdico y sin servicio
mdico. Se decide asignar los nmeros 1, 2, 3, 4, 5, 6 y 7
de manera respectiva a cada respuesta para su registro.
Qu significado tendra el valor del promedio de los
nmeros resultantes?
Compare su respuesta con la informacin que se
expone enseguida.

Parmetros y estimadores

Escalas de medicin

Dentro del anlisis estadstico hay un lenguaje preciso


para describir las caractersticas de la poblacin y diferenciarlas de las caractersticas de la muestra. Las caractersticas de la poblacin que son relevantes para responder a las preguntas de investigacin, por lo general se

Cuando se planea una encuesta, se tiene como parte de


esta planeacin, la definicin, construccin o ubicacin de
un instrumento de medicin que permita indagar las caractersticas de inters en los individuos de la muestra. El tipo
de caracterstica a medir y el grado de precisin con que

Salud Pblica. Teora y prctica

dicha caracterstica es medida, determina lo que se conoce


como la escala de medicin de dicha caracterstica. Esta
escala de medicin determina adems la forma en que la
informacin correspondiente se analizar y ser informada.
En forma general se reconocen tres escalas de medicin, la
escala nominal, la escala ordinal y la escala numrica.
El anlisis estadstico de una caracterstica depende de
los objetivos del estudio pero tambin de su escala de
medicin

En este tipo de datos, se puede decir que hay observaciones que estn por encima o tienen ms o son
mayores que otras observaciones, aunque no es posible
saber o decir por cunto. Por ejemplo, un individuo con
lesin mortal tuvo una lesin de mayor intensidad que
uno que sufri una lesin leve, o bien, un individuo con
sobrepeso tiene mayor ndice de masa corporal que uno
con bajo peso.
En muchos casos se suele numerar estas categoras
en funcin del orden que representan, es decir, 1, 2, 3,
entre otros, o en orden decreciente. Sin embargo, se debe
tener claro que estos nmeros no son reflejo de una magnitud o concentracin especfica, por lo que cualquier
operacin aritmtica entre ellos no tiene sentido alguno
ni tampoco interpretacin vlida. El anlisis estadstico
bsico de este tipo de variables es similar al que se realiza para datos nominales, pero manteniendo el orden
natural de la variable.
No es vlido hacer operaciones aritmticas con los valores numricos asignados a las categoras de una variable ordinal

Cuando el proceso de medicin de una caracterstica


genera cantidades numricas con un significado claro sobre
magnitud concentracin, grado, intensidad, entre otros, se
dir que la escala de dicha caracterstica es numrica.

Los datos registrados en una escala nominal son llamados


observaciones o datos categricos y dentro del anlisis
estadstico bsico se describen en trminos de porcentajes o proporciones y se informan como tablas de frecuencias o porcentajes, o bien con grficas de barras o de pastel. Estos procedimientos se discutirn ms adelante.
En algunos otros casos, las opciones tienen un orden
inherente o natural de acuerdo con su definicin, ste
sera el caso, por ejemplo, cuando se determina el nivel
de obesidad de un individuo por: bajo peso, normal,
sobrepeso, obesidad, obesidad mrbida. En estos casos se
dice que la variable obesidad est medida en una escala
ordinal. Otro ejemplo se tiene en las lesiones que se pueden clasificar segn el nivel de gravedad presentado,
como lesin mortal, grave, moderada y leve.

En general, se puede reconocer dos tipos de variables


en escala numrica. Las llamadas variables de conteo que
como su nombre lo dice, reflejan un conteo sobre el nmero de veces que ocurre o se presenta una condicin en cada
individuo de la poblacin. Tambin son llamadas variables
cuantitativas discretas. Un ejemplo de este tipo de variables
es el nmero de visita al mdico en un ao que, con fines de
control diabtico, realizan los pacientes con diabetes tipo II.
De igual forma, se tiene el nmero de hijos vivos que tiene
una mujer mexicana en edad reproductiva. Hay que notar
que en estos casos, hay un nmero restringido de posibles
valores para la variable bajo estudio.
Tanto el nmero de visitas al mdico as como el nmero de hijos puede ser 0, 1, 2, entre otros, sin embargo no
se puede definir un valor mximo para cada caso.
Hay que notar que la diferencia entre dos valores
diferentes no puede ser menor que 1, de hecho la diferencia es siempre un valor entero mayor o igual que 1.
Por otro lado, se tienen las llamadas variables continuas para las cuales no hay un nmero restringido de
posibles valores y la diferencia entre dos de ellos puede

manual moderno Fotocopiar sin autorizacin es un delito

El nivel ms alto de medicin es una escala numrica, ya


que acepta la comparacin individual junto con una
medida de la diferencia entre dos valores dados (acepta
la aplicacin de operaciones aritmticas)

En la escala ordinal de medicin es posible la comparacin


a nivel individual en trminos de identificar, por ejemplo,
cules individuos tienen mediciones mayores a otras.

Existen dos grandes tipos de variables numricas: las


de conteo y las continuas

Editorial El

La escala nominal es la forma ms simple de medicin


de una caracterstica. La respuesta es una de un grupo de
opciones que se identifican por nombres. El ejemplo ms
comn son las mediciones cuya respuesta es s o no como
sera la presencia de una condicin o padecimiento en un
individuo. En este ltimo caso, se tendr lo que se conoce
como una variable dicotmica o binaria.
En el cuestionario que se aplic en la ENSANut
existe un gran nmero de variables de este tipo, entre
otras cosas, la batera de preguntas a que se refiere al
diagnstico de diversos padecimientos como diabetes,
hipertensin, obesidad, discapacidades, entre otros.
Cuando existen ms de dos opciones de respuesta, se
tendr una variable llamada politmica, como ejemplo se
tiene el tipo de institucin de salud a la cual puede asistir un
individuo en busca de atencin mdica, cuyas opciones
estn dadas por IMSS, ISSSTE, SS, PEMEX, SEDENA,
SEMAR, servicios privados y otros. O bien, otro ejemplo es
el tipo de servicio de salud que se utiliz en los ltimos 12
meses, cuyas opciones son: tratamiento de enfermedad no
quirrgico, ciruga, parto, cesrea, problemas de embarazo y
puerperio, lesiones por accidente, lesiones por agresin,
estudio de chequeo, otros motivos.

(Captulo 3)

Las mediciones en escala nominal slo se analizan en trminos de las proporciones de las respuestas posibles, ya
que no es factible la comparacin a nivel individual

Conceptos bsicos en bioestadstica para el estudiante de medicina

ser tan pequea como permita el instrumento de medicin. Este tipo de variables tambin se les conoce como
variables cuantitativas continuas. El ejemplo clsico de
este tipo de variables es el peso de una persona; dependiendo del instrumento de medicin y de la precisin del
mismo, la diferencia en peso entre dos personas puede
ser de 0.1, 0.01, 0.001 kg entre otros.
Hay algunos estadsticos que reconocen a su vez, dos
tipos de variable continuas: las llamadas variables de
intervalo en donde el valor 0 es arbitrario (p. ej., la temperatura en escala Celsius) y las llamadas variables de
razn en donde el valor 0 es absoluto e indica la ausencia total de medida (p. ej., concentracin de un frmaco
en sangre o la concentracin de hemoglobina en sangre).
Sin embargo, los procedimientos de anlisis estadstico bsico para estos dos tipos de variables son iguales,
por lo que en este documento no se considerar esta
diferencia y slo se hablar de variables continuas.
El anlisis estadstico de la informacin de las variables que son medidas en una escala numrica, se basa en
la presentacin de una variedad de tablas, de diferentes
tipos de grficas y de algunos valores que resumen las
principales caractersticas de dichas variables.

Grficas
Los datos de las caractersticas medidas en el cuestionario de la ENSANut-2006, as como de cualquier otra
encuesta o estudio, se organizan para ser captados, por lo
general, en medios electrnicos.

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

Las grficas son una ayuda visual para el anlisis


exploratorio de datos, ya que permiten identificar el
comportamiento de caractersticas esenciales de una o
ms distribuciones y las posibles relaciones entre
variables.

Visualizar de forma directa la base de datos resultante difcilmente permite una interpretacin inmediata de
la informacin contenida y por lo tanto, apenas se puede
pensar en obtener las respuestas a las preguntas de investigacin de manera inmediata sin hacer un ejercicio sistemtico de resumen o sntesis de la informacin. Por lo
anterior, se suele organizar la informacin en forma de
tablas y grficas, de tal manera que reflejen los elementos crticos y fundamentales de la informacin. El tratamiento de datos se realiza de diversas maneras, dependiendo de la escala de medicin de las variables y de la
cantidad de datos colectados.
Si los datos son categricos, la informacin de la
muestra se agrupa segn la frecuencia y la proporcin o
porcentaje de cada categora y se representan grficamente mediante diagramas circulares llamadas grficas
de pastel y tambin con diagramas de barras; o bien,
mediante tablas o cuadros que son arreglos de informacin resumida. Tanto las grficas como las tablas, deben
ser tan claras que se han de explicar por s mismas en
cuanto al ttulo, encabezados o leyendas usadas. En el
caso de grficas con ejes coordenados, stos deben rotu-

larse con claridad dando las unidades de medicin de las


variables y en el caso de tablas, la informacin debe contener tambin descripcin.
En las grficas de pastel, se muestran rebanadas del
mismo, una rebanada por categora y cuyo tamao refleja el
porcentaje de observaciones de dicha categora con respecto al total. El tamao total de pastel ser entonces de 100%.
Una grfica de pastel se emplea para representar las proporciones de cada uno de las posibles nombres o categoras de una variable nominal u ordinal

En los diagramas de barras, se representa una barra por


categora; por lo general, la base de cada una de ellas es del
mismo tamao y es en la altura en donde se refleja la frecuencia o la proporcin de las categoras. Los diagramas de
barras se presentan ya sea en forma vertical (los ms comunes) u horizontal y las barras no son colindantes.
Una grfica de barras se emplea para analizar informacin con una escala nominal u ordinal; se construye a
partir de rectngulos separados, del mismo ancho y de
altura dependiendo de la proporcin de la categora que
representan.

Con el fin de representar o buscar estructuras


importantes en la informacin, se suele incluir ms de
una variable en la construccin de este tipo de grficas.
Por ejemplo, para la variable obesidad mencionada antes,
podra ser de inters, hacer el diagrama de barras de esta
variable considerando sexo y lugar de residencia del
entrevistado.
Si los datos son numricos, se pueden utilizar el
mismo tipo de grficas descritas antes, previo un proceso de clasificacin y simplificacin de la informacin. De
esta forma, el rango de posibles valores de una variable
se divide en intervalos (en general del mismo tamao)
llamados intervalos de clase y se contabiliza la frecuencia de ocurrencia de los valores observados en cada uno
de estos intervalos. Considerando los intervalos de clase
como categora, con las frecuencias observadas, se construye un diagrama de barras, que en este caso se representa con barras contiguas, en el orden que genera la
definicin de los intervalos de clase. La grfica resultante se denomina histograma de frecuencias. Tambin es
posible construir este histograma con las frecuencias
relativas, es decir, las frecuencias observadas divididas
entre el total de valores observados. Esto da por resultado el llamado histograma de frecuencias relativas.
Un histograma es una grfica de barras con bases iguales al rango de los intervalos y con rea proporcional a
sus frecuencias

Por ltimo, otra forma de representar grficamente las


frecuencias observadas (o relativas) en los intervalos de clase
es el llamado polgono de frecuencias (o de densidades).
Este polgono se construye uniendo con una lnea continua,

Salud Pblica. Teora y prctica

Material predominante del piso de la vivienda. Es una


variable nominal con cuatro posibles categoras: tierra;
mosaico, madera u otros recubrimientos; cemento o
firme; no especificado.
Disponibilidad de agua en el hogar. Esta variable es
nominal con tres posibles categoras: agua entubada
dentro de la vivienda, agua entubada fuera de la
vivienda, otra fuente no entubada.
Disponibilidad de drenaje. Esta variable tambin es
nominal con tres categoras: est conectado a la calle,
est conectado a una fosa, sin drenaje.
Para la muestra de adultos:
Edad. Es una variable numrica de conteo, ya que se
registra en aos cumplidos al momento de la entrevista. Por la forma en que se mide esta variable, existe un
nmero restringido de posibles valores: 20,..., 99 (no
ms de 80 valores).
Sexo. Es una variable dicotmica con categoras hombre y mujer.
Peso. Variable continua medida en kg.
Estatura. Variable continua medida en centmetros y
milmetros.
Tabaquismo actual. Variable dicotmica que identifica
si el entrevistado fuma con regularidad a la fecha de
la entrevista o no.
Uso de servicios hospitalarios y motivo de atencin en
los 12 meses previos a la entrevista. Es una variable
nominal con nueve categoras descritas ya antes.
ndice de masa corporal. Es una variable continua construida a partir de la ecuacin:
IMC =

Peso en kilogramos
Estatura en metros2

ndice de obesidad. Variable ordinal con cuatro categoras: obesidad (si el individuo tiene un ndice de masa
corporal, IMC, mayor o igual a 30), sobrepeso (si el
individuo tiene un IMC entre 25 y 29.99), normal (si
el individuo tiene un IMC entre 18.50 y 24.99) y bajo
peso (si el individuo tiene un IMC menor que 18.50).
Para la muestra de nios:
Edad. Es una variable numrica de conteo como ya se
coment antes, aunque en este caso el nmero de posibles valores es an ms restringido: 0, 1, 2, 3,, 9 aos.
Sexo. Es una variable dicotmica con categoras hombre y mujer.
Anemia. Es una variable dicotmica con posibles valores s y no que se determina a partir de la concentracin de hemoglobina en las muestras de sangre
capilar y puntos de corte de acuerdo con la edad y
ajustados por la altitud del lugar de residencia (metros
sobre el nivel del mar).
Accidentes. Es una variable dicotmica que indica si un
nio sufri o no algn accidente en el ao previo a la
encuesta.
Para la muestra de adolescentes:
Edad. Es una variable numrica de conteo con un
nmero de posibles valores igualmente restringido
como en el caso anterior: 10, 11, 12, , 19.
Sexo. Es una variable dicotmica con categoras hombre y mujer.
Tabaquismo. Es una variable dicotmica que indica si
un adolescente ha fumado ms de 100 cigarrillos en
su vida, o no.
Uso y tipo de mtodo anticonceptivo. Es una variable
categrica que slo se capta en aquellos individuos que
ya tuvieron relaciones sexuales antes al momento de la
entrevista. Esta variable indica el tipo de mtodo anticonceptivo que us el adolescente o su pareja durante la
primera relacin sexual. Se tienen cuatro opciones de
respuesta: condn, hormonales, otros y ninguno.
En el informe de la ENSANut-2006, se describen las principales caractersticas de las viviendas en la muestra a partir
de diagramas de pastel. Se tomaron en cuenta aquellos factores que pudieran ser determinantes en el estado de salud
de los entrevistados, como lo son la disponibilidad de agua
potable o drenaje o el material del piso de la vivienda.
Asimismo, sabiendo que en zonas rurales las condiciones en este sentido son menos favorables, se consider el tipo de localidad como otra caracterstica dentro de
la descripcin. La variable tipo de localidad se defini
como el nmero de habitantes que residen en esa localidad y se catalog como localidad rural aquella con hasta
2 499 habitantes, como localidad urbana aquella de 2
500 a 99 999 habitantes y como localidad metropolitana
aquella con ms de 100 000 habitantes.
De acuerdo con los diagramas de pastel siguientes7,
se concluye que 22.2% de los hogares se localizan en
localidades rurales, 24.3% en localidades urbanas y el
54.4% en localidades metropolitanas.

manual moderno Fotocopiar sin autorizacin es un delito

los puntos medios de la parte superior de las barras del histograma correspondiente. Es usual que se presente el polgono de frecuencias en una figura sin incluir el histograma
que le dio origen. Este tipo de figuras son tiles para vislumbrar tendencias o patrones de comportamiento ligado al
incremento o disminucin de la variable bajo consideracin.
Sin embargo, cualquier implicacin derivada slo de
una apreciacin visual debe acompaarse de una verificacin cuantitativa, ya que el patrn obtenido en estas
figuras depende fuertemente de la longitud de los intervalos de clase, por lo que podra modificarse si se cambia
la longitud de dichos intervalos.
Para ejemplificar la forma de un anlisis grfico exploratorio de datos, tomemos las siguientes variables que fueron medidas a travs del cuestionario de la ENSANut-2006
o bien, fueron generadas a partir de las anteriores.
Para ilustrar el uso de distintos tipos de grficas y
figuras, se presentan a continuacin algunas figuras y
algunos cuadros tomados de forma directa del informe
de la ENSANut-2006 junto con una muy breve descripcin de los puntos clave de dichas figuras y cuadros.
Las variables que se emplearn en estos ejemplos se
describen a continuacin. Para la muestra de hogares se
incluyen:

(Captulo 3)

Editorial El

Conceptos bsicos en bioestadstica para el estudiante de medicina

Con respecto a los materiales predominantes de las


viviendas, se tiene que 8.6% tiene piso de tierra, 31.9%
tiene piso de mosaico, madera u otro tipo de recubriendo y que 59.4% tiene piso de cemento firme.
A nivel nacional, casi las tres cuartas partes de las
viviendas (74.2%) tiene agua entubada dentro de la
vivienda, 17.8% tiene agua entubada fuera de la vivienda y 7.9% tiene agua de otra fuente no entubada.
Por ltimo, para aquellas viviendas con drenaje, 13%
dijo que la vivienda tiene conectado el drenaje a una fosa
sptica, 15% no tiene drenaje y para 72% restante el drenaje est conectado a la calle. Con los datos de la ENSANut2006 tambin se ha generado la figura 3-48, que muestra la
prevalencia de tabaquismo en adultos por grupo de edad
(intervalos de clase de longitud 10 aos) y sexo.
Disponibilidad de agua en los hogares
7.9%

Ejercicio 2
Observe la grfica siguiente que muestra informacin
sobre la distribucin porcentual de la poblacin, segn
tabaquismo actual, y anote las relaciones que observe
entre las variables. Compare su respuesta con lo que se
seala despus de la grfica.
Este polgono de la distribucin porcentual permite
observar la tendencia en los adultos a una menor prevalencia de tabaquismo en los grupos de mayor edad. Sin
embargo, se puede notar que en los adultos, la cantidad
de hombres que fuman es casi tres veces mayor a la de
las mujeres que lo hacen, y esta relacin es en la prctica independiente de la edad que tengan.
De igual forma, se presenta en la figura 3-5 un diaDistribucin porcentual de la poblacin,
segn tamao de la localidad
22%

17.89%
54%

74.39%

24%
Agua entubada dentro de la vivienda
Agua entubada fuera de la vivienda
Otra fuente no entubada

Rural

Disponibilidad de drenaje

Urbana

Metropolitana

Material predominante en el piso de la vivienda

15%

0.1%
13%

8.6%

31.9%

72%

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

59.4%
Sin drenaje

Est conectado a la calle


Est conectado a una fosa

Tierra

Mosaico, madera u otros recubrimientos

Cemento
o firme

No especificado

Disponibilidad de agua, segn tamao de la localidad


22.3%
53.4%

24.3%
Rural

Urbana

Metropolitana

Figura 3-3. Caractersticas de las viviendas. Mxico, ENSANut 2006.

10

Salud Pblica. Teora y prctica

(Captulo 3)

%
60
50
40
30
20
10
0
20 a 29

30 a 39

40 a 49

50 a 59

60 a 69

80 a mas

70 a 79

Edad
Mujer

Hombre

Figura 3-4. Distribucin porcentual de la poblacin de 20 aos o


ms, segn tabaquismo actual, por grupo de edad y sexo. Mxico
ENSANut 2006.
Hombres

grama de barras superpuestas que describe la prevalencia


de sobrepeso y obesidad de acuerdo con el grupo de
edad y sexo. Se observa que el sobrepeso y la obesidad
son condiciones que afectan a casi 70% de la poblacin
mexicana entre 30 y 60 aos de edad tanto hombres
(66.7%) como mujeres (71.9%). Sin embargo, entre las
mujeres se observa un mayor porcentaje de obesidad que
entre los hombres que se mantiene en todas las edades.
La utilizacin de servicios hospitalarios en los 12 meses
previos al momento de la entrevista se informa a travs de
un diagrama de barras10 y se hace distincin por sexo del
entrevistado (figura 3-6). El primer motivo para el uso de
estos servicios fue el de tratamientos no quirrgicos
(37.5%) y dentro de este se encuentran ms hombres
(46.3%) que mujeres (32.8%); el segundo motivo ms
importante fueron las cirugas (26.2%); en tercer lugar se
pueden agrupar partos, cesreas, problemas de embarazo y
puerperio (20.8%); le siguen lesiones por accidentes (8.2%),
estudios y controles (1.1%) y lesiones por agresin (0.5%);
tambin se encuentra un grupo de individuos con otros
motivos no especificados (5.8%).
Mujeres

90
80
70
60
50
40
30
20
10
0

90
80
70
60
50
40
30
20
10
0

20-29

30-39

40-49

50-59

60-69

MO=30

70-79

80 +

20-29

30-39

40-49

50-59

60-69

MO=30

IMC de 25-29.9

70-79

80 +

IMC de 25-29.9

Figura 3-5. Prevalencia de sobre peso y obesidad, segn grupo de edad y sexo. Mxico, ENSANut 2006.
%

30

20

10

Hombres

Mujeres

Examen o chequeo

Lesiones por agresin

Problemas de embarazo
y puerperio

Cesarea

Otros motivos / NE

Lesiones por accidente

Parto

Ciruga

Tratamiento de
enfermedad no quirrgico

Total

Figura 3-6. Prevalencia de utilizadores de servicios hospitalarios durante los ltimos 12 meses, segn sexo y motivos de atencin. Mxico,
ENSANut 2006.

Editorial El

40

manual moderno Fotocopiar sin autorizacin es un delito

50

Conceptos bsicos en bioestadstica para el estudiante de medicina

%
10

%
30

25

11

8
20

7
6

15

5
10

4
3

Norte

0
0

Hombre

ENN 1999

Mujer

Figura 3-7. Distribucin de la poblacin de 0 a 9 aos que present


al menos un accidente en el ltimo ao, por edad y sexo. Mxico,
ENSANut 2006.

Por otro lado, con respecto a la informacin recabada


en la ENSANut en la poblacin menor de 10 aos, el informe menciona que la frecuencia de accidentes durante el
ao previo a la entrevista es muy diferente entre nios y
nias, lo mismo que la tendencia que sigue a diferentes
edades. Lo anterior se basa en la interpretacin de la primera de las siguientes figuras (figura 3-7). sta representa un
diagrama de barras de la incidencia de accidentes separado
por sexo del nio11. A partir del primer ao de vida, los
nios tienden a sufrir con mayor frecuencia accidentes que
las nias, y esto se refleja en casi todas las edades hasta los
nueve aos. La mayor diferencia entre nios y nias en
cuanto a prevalencia de accidentes se da a los dos aos y a
partir de los siete aos de edad.
La figura 3-8 tambin un diagrama de barras que
representa la prevalencia de anemia en nios en edad

Cd. de Mxico
Centro
Regin geogrfica

Sur

ENSANut 2006

Figura 3-8. Prevalencia nacional de anemia en nios preescolares


de ambos sexos. Estratificada por regin geogrfica. Comparacin
con la ENN 1999. Mxico.

escolar por sexo y regin geogrfica del pas junto con


una comparacin con los resultados correspondientes de
la Encuesta Nacional de Nutricin de 1999 (ENN1999).
Es clara la gran diferencia en las prevalencias de anemias de 1999 con las de 2006. En las cuatro regiones
geogrficas consideradas, ha habido una importante disminucin de la prevalencia de anemia en los siete aos
transcurridos entre ambas encuestas. Sin embargo, en la
regin sur slo se obtiene una reduccin de 0.4%.
Para la muestra de adolescentes, en primer lugar, se
tiene el cuadro 3-1 en el que se resume el patrn de
comportamiento en la primera relacin sexual con respecto al uso de mtodos anticonceptivos, tomando en
cuenta sexo y grupo de edad (se definen dos intervalos
de clase). Del total de adolescentes que ya haban tenido
relaciones sexuales al momento de la entrevista, un
mayor porcentaje de hombres declararon que usaron
algn mtodo anticonceptivo en la primera relacin

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

Cuadro 3-1. Porcentaje de adolecentes sexualmente activos de 12 a 19 aos de edad, segn uso de mtodos
anticonseptivos en la primera relacin sexual, por sexo y grupo de edad. Mxico, ENSANut 2006.
Edad
Hombres
Condn
Hormonales**
Otros***
Nada
Total

12 a 15 aos
n*
%

16 a 19 aos
n*
%

n*

85.9
1.6
0.3
35.1
122.9

835.2
109.3
19.6
393.6
1 327.6

921.1
110.9
19.9
428.7
1 450.4

63.5
7.6
1.4
29.6
15.8

921.1
110.9
19.9
428.7
1 142.1

38.0
6.8
1.6
56.6
13.0

69.8
1.4
0.3
28.5
2.4

62.9
8.2
1.5
29.6
32.8

Mujeres
Condn
26.1
27.9
408.4 38.9
Hormonales**
7.3
7.9
70.9
6.8
Otros***
2.5
2.7
16.2
1.5
Nada
62.0
66.9
584.7 55.8
Total
93.5
2.0
1 048.7 25.4
Nota: el 14.4% del total de adolecentes de 12 a 19 aos ha iniciado vida sexual
*Cantidad en miles
**Incluye pastillas o pildoras, inyecciones, pastillas de emergencia, Norplan
***Incluye vulos, jaleas, espumas o diafragma, ritmo, calendario, retiro, DIU, vasectoma u otro
Nota: Los porcentajes suman ms de 100% por el uso de dos anticonseptivos

Total

12

Salud Pblica. Teora y prctica

(Captulo 3)

%
30
25
20
15
10
5
0
10 a 12 aos
Rural

13 a 15 aos

16 a 19 aos
Metropolitana

Urbana

4. ESTUDIO SOBRE LA RELACIN ENTRE


LA EXPOSICIN MATERNA A PLOMO Y EL
DESARROLLO NEUROCONDUCTUAL DEL
NIO
El segundo ejemplo que se utilizar en esta seccin se
presenta a continuacin.
El objetivo principal del estudio es conocer el efecto del embarazo y la lactancia sobre la movilizacin del
plomo depositado en el hueso materno hacia el torrente
circulatorio y siendo el plomo un neurotxico, el de evaluar su posible asociacin con el desarrollo neuroconductual de los nios.
El primer proyecto se dise como un ensayo aleatorizado doble ciego3para evaluar el efecto de la suplementacin con calcio sobre los niveles de plomo en sangre en mujeres lactantes residentes de la ciudad de
Mxico tomando en cuenta las diferentes prcticas de
amamantamiento. Se identific una muestra de 617
mujeres que cumplieron los criterios de inclusin y que
aceptaron participar en el estudio. El seguimiento de esta
cohorte de mujeres se extendi hasta los 7 meses postparto y el de sus hijos hasta los cuatro aos edad.
3

Es decir, un ensayo en el cual las mujeres eran asignadas a grupos de intervencin o control de manera aleatorio, y sin que las mujeres ni los investigadores conocieran el estatus de asignacin.

Los resultados obtenidos corroboraron las hiptesis


planteadas y motivaron que en 1997 se iniciara el reclutamiento de una segunda cohorte de mujeres cuyo seguimiento inici desde el primer trimestre de embarazo y se
extendi hasta los tres aos de edad de los lactantes. En
este segundo estudio, se incluy como parte de la informacin, las mediciones de la concentracin de plomo en
plasma as como marcadores de resorcin sea.
A finales de 2000, se inici el reclutamiento de la
tercera cohorte, el diseo del estudio incorpor los datos
obtenidos en los dos primeros estudios y se propone de
nuevo la suplementacin con calcio desde el inicio del
embarazo como medida preventiva para reducir la exposicin prenatal a plomo, reduciendo la resorcin sea
materna y por ende, la posible movilizacin de plomo en
hueso hacia las concentraciones de plomo en plasma.
El resultado de esta exposicin al plomo a travs del
tiempo se ve reflejado en concentraciones elevadas de
esta sustancia en hueso en comparacin al informado en
otras poblaciones estudiadas; este plomo acumulado
podra ser movilizado durante el embarazo y la lactancia
constituyendo una fuente de exposicin prenatal y posnatal con posibles consecuencias en el desarrollo neuroconductual de los nios.
El diseo de estudio del segundo proyecto fue una
cohorte prospectiva4 en el cual se consider el reclutamiento de mujeres que estuvieran en el primer trimestre
de embarazo, derechohabientes del IMSS y residentes de
la ciudad de Mxico. En el marco de este segundo proyecto, se plane la realizacin de un estudio en donde
uno de los principales objetivos fue el de analizar el
impacto de la exposicin prenatal y posnatal a plomo
sobre el neurodesarrollo del nio a los dos aos de edad.
Entre mayo de 1997 y abril de 1999, se invitaron a
participar a 2 273 mujeres en el primer trimestre del
4

Una cohorte prospectiva es un diseo en el cual se recluta al estudio a un grupo de participantes (en este caso mujeres), y se les da
un seguimiento hacia el futuro, es decir, prospectivamente.

Editorial El

sexual. El mtodo ms popular es el uso de condn con


63.5% en el caso de hombres mientras que en el caso de
mujeres, slo 38% de ellas dijo que su pareja lo us al
momento de la primera relacin sexual.
Por otro lado, en cuanto al hbito de tabaquismo en
adolescentes, se encuentra que en las localidades metropolitanas existe un mayor porcentaje de jvenes que
fuman; y este hecho es mucho ms evidente a mayor
edad. Lo anterior se basa en el comportamiento que se
observa en la figura 3-9.

manual moderno Fotocopiar sin autorizacin es un delito

Figura 3-9. Distribucin porcentual de adolecentes de 10 a 19 aos de edad, segn tabaquismo, por grupo de edad y tamao de localidad.
Mxico, ENSANut 2006.

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

Conceptos bsicos en bioestadstica para el estudiante de medicina

embarazo (entre 10 y 14 semanas de gestacin) en cuatro hospitales del IMSS de la ciudad de Mxico. De todas
ellas, 327 mujeres que cumplieron los criterios de inclusin y aceptaron participar en el estudio (consentimiento informado). El proceso de captacin de la informacin
implic el seguimiento de manera trimestral durante el
embarazo, parto y al uno, tres, siete y 12 meses posparto
(con un total de ocho entrevistas). De las 327 mujeres
embarazadas, 216 mujeres concluyeron todas las etapas
del estudio.
En cada visita, se midi entre otras caractersticas, la
concentracin materna de plomo en sangre y se les aplic un cuestionario para captar informacin socioeconmica, nutricional y de exposicin a fuentes de plomo,
adems se tomaron medidas antropomtricas; al
momento del parto se registr el sexo del beb, el peso
al nacer y la edad gestacional. Los nios fueron evaluados cada seis meses y se monitore su neurodesarrollo
por un equipo de psiclogas que realizaron mediciones
estandarizadas. A los 24 meses de edad se midieron las
concentraciones de plomo en sangre de los nios y se
midi su desarrollo mental por medio de la prueba
Bayley Scales of Infant Development-II.
Al igual que se present parte del anlisis estadstico
bsico en el ejemplo anterior, se discutirn diversos conceptos estadsticos ligados a este segundo ejemplo. Se
comenzar con una breve identificacin de los elementos estadsticos ya discutidos antes para entonces proceder a la presentacin y discusin de nuevos elementos.
Como podr observarse, en este caso no se cuenta con
una definicin directa de la poblacin objetivo y no se tiene
un diseo probabilstico de muestreo para la seleccin de
la muestra base del estudio. En esta situacin, podra surgir
la duda sobre la representatividad de la muestra con respecto a la poblacin objetivo. Sin embargo, el contexto de
este estudio y el objetivo del mismo, est ligado a la caracterizacin y cuantificacin de un efecto en un proceso
puramente biolgico que se espera sea comn para cualquier individuo (mujer embarazada).
De manera adicional no hay elementos tericos que
hagan sospechar la existencia de algn patrn diferencial
en tiempo y espacio dentro de este contexto. Esto quiere decir que no hay datos que indiquen que el proceso
biolgico a estudiar en las mujeres embarazadas expuestas a plomo sea diferente en las mujeres que asisten a
otras instituciones y en otros tiempos distintos a los considerados en el reclutamiento. En este sentido, el anlisis
de la informacin generada en la muestra disponible y los
correspondientes resultados pueden ser extrapolados de
forma directa al proceso biolgico de referencia.
En este tipo de situaciones, la muestra se denomina
como muestra disponible y en este caso est formada por
las 327 mujeres embarazadas y de forma eventual por los
nios que nacieron y continuaron el seguimiento hasta los
24 meses. Hay que aclarar que no siempre una muestra disponible es apropiada para estudiar caractersticas y responder preguntas de investigacin en una poblacin.
En este caso las caractersticas y condiciones de inters fueron medidas en diferentes momentos en el tiempo. Se consideraron entrevistas a las madres, determina-

13

ciones biolgicas a madres e hijos a diferentes tiempos de


evolucin el proceso y evaluacin de desarrollo neurolgico en nios. Cabe mencionar, que en los estudios que
requieren seguimiento en el tiempo de los individuos de
la muestra, es posible que se presente una prdida de
individuos a lo largo del tiempo por cuestiones en su
totalidad ajenas a los objetivos del estudio. De lo anterior, por lo general se tiene una proporcin de individuos
que sin duda completan todas las etapas del estudio
mientras que otra proporcin abandona el estudio en
algn tiempo intermedio y de aqu que se tiene informacin incompleta de los individuos y del proceso.
En el caso del seguimiento de mujeres embarazadas
e hijos hasta los 24 meses de edad, se registr que slo
216 de ellas concluyeron todas las etapas de captacin de
informacin, esto no quiere decir que la informacin de
las 111 mujeres que no se siguieron hasta el final no sea
utilizada en los anlisis y procedimientos estadsticos
apropiados. Otra posible fuente de informacin incompleta se presenta cuando los individuos no responden
todas las preguntas del cuestionario o cuestionarios que
se aplican, o bien, cuando algunas determinaciones biolgicas no se hacen o se pierden. A menos que la informacin sea completa, es recomendable aclarar dentro del
informe el nmero de observaciones que se usan en cada
uno de los procedimientos de anlisis.
Al igual que en el caso de ENSANut-2006, parte del
anlisis exploratorio grfico del estudio de la segunda
cohorte de plomo, se puede presentar con base en las
grficas y tipo de figuras que ya discutieron antes. Sin
embargo, existen otro tipo de grficas complementarias
y medidas numricas que permiten una descripcin ms
detallada de la informacin y que aportan ms elementos para una buena descripcin de resultados.
Estas otras grficas y las medidas mencionadas se
generan slo para el caso de variables numricas y no
para el caso de nominales ni ordinales, ya que requieren
el que los valores particulares que se midan en cada individuo tengan una clara interpretacin.
Para facilitar la presentacin, se consideran las
siguientes variables separadas de acuerdo con la muestra
a la que estn asociadas:
Para la muestra de mujeres embarazadas se considera:
Edad gestacional al momento de parto. Es una variable
de conteo que refleja el nmero de semanas de gestacin al momento del nacimiento del hijo.
Estado civil. Esta variable es nominal con cuatro categoras: casada, unin libre, soltera y separada.
Para la muestra de nios:
Sexo. Es una variable dicotmica con categoras: masculino y femenino.
Peso al nacer. Variable cont inua medida en kg.
Concentraciones de plomo a los 24 meses. Es una variable continua en (g/dL) que mide la concentracin de
plomo en sangre en los nios a los 24 meses de edad.
ndice de desarrollo mental MDI, por sus siglas en
ingls. Es una variable cuantitativa discreta que refle-

Salud Pblica. Teora y prctica

(Captulo 3)

Como se mencion en el primer ejemplo, en el lenguaje estadstico se suele denotar los valores observados de una
variable en una muestra de tamao n como x1, x2,, xn.
Esta notacin significa, de manera genrica, que x1 es el
valor de la variable que se midi en el primer individuo de
la muestra, x2 el correspondiente en el segundo individuo
y as de manera sucesiva hasta xn para el ltimo individuo
o sea el nmero n o el llamado n-simo individuo.
La media aritmtica se denota por y se calcula como
sigue, en donde la segunda igualdad es una manera usual de
notacin que significa sumar todos los valores de las mediciones cuyos ndices van desde el 1 hasta el n:
x

x=

x1 + x2 + L + xn 1 n
= xi
n
n i =1

Por lo general, es el valor ms representativo del conjunto de valores obtenidos en la muestra, pero tiene el pro-

a i
i =1

1/ n

a1 a 2 ...a n

manual moderno Fotocopiar sin autorizacin es un delito

Las medidas de tendencia central identifican los valores


ms representativos de una variable en la poblacin

Peso al nacer

peso al nacer

Figura 3-10. Histograma de frecuencias de peso al nacer.

Editorial El

Una medida de localizacin o de tendencia central


es una cantidad que dice el valor tpico, representativo, o
central de alguna forma que se identifica sobre el rango
de valores donde la variable estudiada con regularidad
ocurre. Se definen varios tipos de medidas de tendencia
central, entre los ms comunes y simples se tiene a la
media aritmtica, la mediana y la moda.
La media aritmtica o valor esperado es con claridad
el promedio numrico de los valores observados de la
variable estudiada.

25

Las tablas de frecuencias y las grficas permiten organizar la presentacin de informacin e identificar posibles
relaciones entre variables. No permiten una completa
evaluacin numrica de los patrones detectados.

20

Si se desea entender por completo la manera cmo se distribuyen los valores del MDI en los nios de 24 meses de
edad de madres que estuvieron expuestas a plomo, entonces se debe especificar la ecuacin de su curva de probabilidad; lo mismo sucedera si lo que se quiere para cualquier
otra variable numrica. Por otro lado, si se quiere entender
cmo se distribuyen los valores de edad gestacional o cualquier otra de conteo, se debera especificar la probabilidad
con que ocurre cada uno de los valores posibles. Sin embargo, a nivel exploratorio se suele simplificar este requerimiento y slo indicar o describir algo acerca de la distribucin de la variable, lo cual se establece al especificar sus
caractersticas y aspectos principales como son localizacin, dispersin y forma de la misma.

porcentaje
15
10

1. CONCEPTOS BSICOS II

blema, cuando se trata de muestras pequeas, que se ve


muy influenciada por los valores extremos, es decir, por
los ms pequeos o ms grandes. Esto quiere decir que si
se elimina el valor ms pequeo o el valor ms grande de
los observados en la muestra, el promedio de los valores
restantes puede cambiar fuertemente con respecto al
que se obtiene con todos los valores.
En el estudio de plomo, el peso al nacer fue registrado
en 215 nios, y los valores encontrados varan entre 1000 y
4 475 kg. La media de los 215 valores es de 3 076.
Los 3 valores ms pequeos son 1 000, 1 175 y 1 900
kg. Los correspondientes tres valores ms grandes son 4
100, 4 200 y 4 475 kg. El histograma de frecuencias relativas se muestra en la figura 3-10. En la grfica se muestra
con claridad la separacin de los dos valores ms pequeos de la muestra con respecto al resto, estos dos valores
llamados extremos deben de ser analizados, en el marco del
estudio, para verificar si en realidad se deben considerar
como valores atpicos o inusuales y de esta determinacin
valorar su inclusin o exclusin en el anlisis.
Como se mencion, el peso promedio obtenido en la
muestra es de 3 076, mientras que si se calculara sin los
dos valores ms pequeos, entonces se debera informar
el peso promedio a partir de 213 observaciones y tendra
un valor de 3 094.
Hay que notar que an cuando visualmente, estos
dos valores, estn separados del resto, el impacto que tienen sobre la media de peso se reduce a una diferencia de
0.018 kg.
Existen otras situaciones en donde el cambio que se
observa en la media aritmtica al ignorar algn o algunos
valores extremos, es relevante en trminos de la escala y del
contexto. Es en este tipo de situaciones donde se debe considerar la posibilidad de no incluir todas las observaciones
en el anlisis correspondiente. Esto en algunos textos se
describe como media recortada a cierto porcentaje de los
datos, por ejemplo 95%. Este clculo dejara fuera 2.5% de
los valores extremos. Otro procedimiento para eliminar el
efecto de los valores extremos es utilizar la media geomtrica que se define de la siguiente manera:

ja el ndice de desarrollo mental del nio a los 24


meses de edad de acuerdo con la escala de Bayley.

14

Conceptos bsicos en bioestadstica para el estudiante de medicina

La segunda medida ms comn usada como medida de


localizacin es la mediana de la variable o de la distribucin de la variable. Esta medida se define como aquel
nmero que sirve como un punto de corte en un conjunto ordenado de valores para obtener partes iguales en
ambos lados. Esto es, 50% de los valores de la variable
son menores o iguales que la mediana y por lo tanto el
otro 50% son valores mayores o iguales que la mediana.
La ventaja principal la mediana sobre la media, es que no
es sensible a valores extremos en la muestra
Para el peso al nacer, la mediana de las 215 observaciones es el valor 3 100 kg.
Es decir, alrededor de la mitad de los nios de la
muestra registraron un peso al nacer menor o igual que
3 100 kg y al mismo tiempo, la otra mitad de ellos registraron un peso al nacer mayor o igual que 3 100 kg.
Si no se incluyen las dos observaciones ms pequeas
de esta variable, la mediana de las 213 observaciones restantes es tambin de 3 100 kg, con lo cual se muestra en el
contexto de este estudio, el efecto mnimo sobre este valor
cuando existen valores extremos en la muestra.
Otra de las variables que se mencionaron fue la concentracin de plomo en sangre en los nios a los 24 meses de
edad. Esta variable se pudo determinar en 204 nios, registrndose valores entre 0.8 y 36.8 g/dL. Los valores ms
pequeos son 0.8 y 1.0 con cuatro observaciones cada uno,
mientras que los valores ms grandes son 17.5, 18.6 y 36.8
con una observacin cada uno. En este caso, el conjunto de
extremos lo forman cinco observaciones, cuatro de ellas con
valor 0.8 y una con valor 36.8. La media y la mediana de la
muestra completa son 4.98 y 4.3 de manera respectiva.
Hay que notar la gran diferencia entre los dos valores ms grandes, dado que el valor 36.8 est alejado de
forma considerable del resto de valores. Esto es claro en
el histograma de frecuencias que se presenta en la figura
3-11 y en donde se muestra la distribucin o comportamiento de todas las concentraciones obtenidas.

La media y la mediana cuando se ignora el valor


extremo de 36.8, resultan ser 4.82 y 4.3 de manera respectiva. De nuevo se encuentra un cambio relativamente pequeo en la concentracin promedio de plomo en
sangre, mientras que la mediana no cambia.
Vale la pena mencionar que el individuo que registra
un valor extremo en una variable, no necesariamente lo
registrar en las dems variables. Por ejemplo, en este
modelo, el nio que naci pesando 1 000 kg, registr una
concentracin de plomo en sangre (a los 24 meses de
edad) de 1.4 g/dL; mientras que el nio que tuvo la
concentracin de plomo de 36.8, tuvo un peso al nacer
de 3 000 kg. Sin embargo, tambin debe mencionarse
que no se pueden hacer inferencias a partir de observaciones individuales.
La siguiente medida es la moda que se define como
aquel valor que se presenta con mayor frecuencia, ya sea
en una muestra o en toda la poblacin. Tiene la desventaja de que en algunos casos, no es nica, ya que pueden
existir dos o ms valores distintos, pero de igual manera
frecuentes; o tambin puede suceder que no exista valor
alguno que se repita. Su contribucin al entendimiento
de los datos se restringe a identificar su posicin, en caso
de que exista, con respecto al resto de valores, pero no
existen procedimientos estadsticos asociados a la moda
a diferencia de los que se han desarrollado dentro de la
teora estadstica para la media y para la mediana.
Las tres medidas de tendencia central que ms comnmente se usan son la media, la mediana y la moda.

Editorial El

60
40

Frecuencia

57

29

20

14
5
0

manual moderno Fotocopiar sin autorizacin es un delito

80

El valor de la moda del peso al nacer de los 215


nios con esta informacin, se sita en 3 000 kg con una
frecuencia de 16 nios nacidos con este peso. En el caso
de la concentracin de plomo, la moda de los 204 valores es igual a 4.3 g/dL con una frecuencia de siete nios.

66

26

15

10 12 14 16 18 20 22 24 26 28 30 32 34 36 38
Concentracin de Plomo

Figura 3-11. Histograma de frecuencias de concentraciones de plomo en sangre en nios a los 24 meses de edad.

Salud Pblica. Teora y prctica

La media es la medida de tendencia central ms usada;


sin embargo, su sensibilidad a los valores extremos
hace que la mediana sea ms conveniente cuando las
distribuciones tienen un sesgo muy marcado. La moda
se utiliza con menos frecuencia.

En el caso de las llamadas variables simtricas, estas


tres cantidades coinciden. En este caso, el comportamiento de los valores a la izquierda del valor comn es
idntico al comportamiento de los valores a la derecha.
Esto sin importar el tipo particular de comportamiento.
Si la distribucin de los valores observados es asimtrica en forma negativa (cola izquierda prolongada), el
orden entre estas tres variables es media, mediana y
moda. Por el contrario, si la distribucin de valores es asimtrica en forma positiva, el orden que se espera es
moda, mediana y media. Este ltimo sera el caso del
ndice de desarrollo mental con valores 88, 90 y 91.48 de
manera respectiva.

Porcentaje
10

15

Puntuacin en la escala de Bayley

Otro aspecto importante de una distribucin o de


un conjunto de valores de una variable numrica es la
dispersin. Una medida de dispersin o variacin es una
cantidad que refleja cun esparcidos o separados se
encuentran los datos, ya sea en forma global o bien con
respecto a un punto de referencia.
Para describir de mejor manera el comportamiento de
una variable o de la distribucin, se requiere adems de
la tendencia central, informacin sobre la dispersin de
los datos.

Este concepto surge pues adems de tener una


medida de la tendencia de los valores observados a agruparse en las cercanas de un valor promedio, es deseable
saber cunto se dispersan o varan entre ellos. Hay varias
medidas de dispersin, entre las ms comunes se encuentran el rango, la varianza, la desviacin estndar o tpica
y el rango intercuartil.
La medida ms sencilla de dispersin es el rango o
amplitud que se define como la diferencia entre el valor
mximo y el mnimo de la muestra, es decir, es la medida de la distancia total en la escala numrica a lo largo de
la cual varan las observaciones de la variable en estudio.
En algunos casos, el rango se presenta como la pareja formada precisamente por el mnimo y el mximo
valores de la muestra. De esta definicin, es claro que
sta es una medida que puede ser indebidamente influida por un valor no usual de la variable, y adems es muy
sensible al tamao de muestra. La notacin usual para el
valor mximo y mnimo de una muestra de tamao n es
X(n) y X(1) de manera respectiva, por lo que:
rango = X(n) - X(1)

El rango del peso al nacer de los nios es 3 475 kg o bien


en forma de intervalo como (1 000, 4 475) kg. Para la
concentracin de plomo en sangre es 36 g/dL o bien
(0.8, 36.8) g/dL. Por ltimo, para el ndice de desarrollo mental es de 54 unidades o bien (68,122) unidades.
Hay que notar que el rango de las dos primeras variables
puede cambiar un poco o radicalmente si se ignoran los
valores extremos identificados.
Por ejemplo, para la concentracin de plomo, al ignorar el valor 36.8, el rango quedara como 17.8 g/dL o
(0.8, 18.6).
Otra medida de distancia entre observaciones es el
rango intercuartil que se define como la diferencia numrica entre los llamados tercer y primer cuartiles. Estos dos
valores surgen de manera similar a la mediana, es decir
como puntos de corte e informativos de la serie ordenada
de valores observados en la muestra de alguna variable.

Las medidas ms sencillas de dispersin son el rango y


el rango intercuartil. Dan una idea de qu tan lejos estn
los valores ms pequeos de los valores ms grandes.
65

70

75

80

85

90

95

100 105 110 115 120 125

Figura 3-12. Histograma de frecuencias de la puntuacin en la escala Bayley de los nios en el estudio de plomo.

Los cuartiles Q1, Q2 y Q3, son tres valores que dividen a la distribucin en cuatro partes iguales. El primer

manual moderno Fotocopiar sin autorizacin es un delito

Hay que notar que la moda est referida a la frecuencia


de un valor particular de la variable y no a la frecuencia
de un intervalo de clase reflejado en la altura de las
barras de un histograma.
Con respecto al ndice de desarrollo mental de
Bayley, esta variable se pudo determinar en todos los 216
nios de la muestra. Los valores registrados van de 68 a
122 puntos. Los valores extremos menores y mayores
son 68, 70 y 120, 122 de manera respectiva.
El ndice medio es de 91.48 unidades, la mediana se
sita en 90 unidades y la moda es 88 con 17 observaciones. El comportamiento grfico se muestra en el siguiente histograma de frecuencias relativas (figura 3-12):
En general, estas tres medidas de tendencia central
son diferentes pues como ya se mencion, cada una de
ellas de manera distinta es sensible o se ve influenciada
por los valores extremos. Dependiendo de la relacin de
orden que exista entre ellas, se puede hacer una primera
identificacin del tipo de distribucin que se tiene.

(Captulo 3)

Editorial El

16

Conceptos bsicos en bioestadstica para el estudiante de medicina

80

Puntuacin
90
100

110

120

Puntuacin en escala de Bayley segn sexo

70

cuartil tiene 25% de casos menores o iguales que dicho


valor; el segundo cuartil coincide con la mediana y el tercer cuartil deja 25% de valores superiores o iguales a l.
Obtenidas las posiciones, si son enteras, se buscan los
valores que las ocupan en la muestra ordenada, si no son
enteros, se toma el promedio de los valores que reflejan
la posicin.
El valor que divide a esta serie de tal forma que 25%
de los valores son menores o iguales que dicho valor, se
conoce como el primer cuartil y se denota por lo general
como Q1; el valor que lo hace con el 75% de los valores se
conoce como el tercer cuartil y se denota por Q3.
Entonces, esta segunda medida de dispersin est dada por:

17

Rango intercuartil = Q3 Q1

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

En el sentido descrito arriba, la mediana es el segundo


cuartil de la muestra y se puede denotar por Q2. En un
contexto ms amplio, se puede considerar otro tipo de
punto de corte y de ah otro tipo de particin de la
muestra ordenada. Por ejemplo, se puede dividir la serie
ordenada de valores de tal forma que a la izquierda del
punto de corte quede el k% de valores y a la derecha del
punto del corte quede el (100-k)% restante de ellos, el
valor con esta caracterstica se conoce como el percentil
k-simo de la muestra o de la distribucin.
Los percentiles definidos para k igual a 90, 95 y 99
desempean un papel importante en la mayora de los
procedimientos estadsticos inferenciales, como se discutir en la segunda parte de esta seccin.
Una forma grfica que permite mostrar la dispersin
de los datos tomando en cuenta la informacin de los
cuartiles es la llamada grfica de cajas y bigotes. Una
grfica de este tipo usa la relacin entre el valor mnimo,
la mediana, el primer cuartil, el tercer cuartil y el valor
mximo para describir la distribucin. Se construye con
la idea de comparar visualmente la posicin mediana con
respecto a los dos cuartiles mencionados y as ubicar el
grado de asimetra de una distribucin.
Las grficas de caja y bigotes son figuras que de manera visual identifican la posicin de la media y los valores
extremos en relacin al conjunto total de valores

De manera adicional, si la distribucin es simtrica,


el primer y el tercer cuartiles deberan estar de igual
manera espaciados de la mediana que es a su vez igual a
la media. Si el tercer cuartil est ms alejado de la mediana que el primer cuartil, la distribucin es sesgada positivamente y la mediana es menor que la media. Por ltimo, si el primer cuartil est ms alejado de la mediana
que el tercer cuartil, la distribucin es sesgada negativamente y la mediana es mayor que la media.
Es usual presentar este tipo de grficas para la variable de inters, pero por grupos naturales de individuos
con el fin de hacer comparaciones como parte de la descripcin. Para el ndice de desarrollo mental, se obtiene
la siguiente grfica en la cual se presentan las cajas por
separado por el sexo del nio (figura 3-13).

masculino

femenino

Figura 3-13. Cajas y bigotes para la puntuacin en escala Bayley


segn sexo.

La lnea horizontal interna que se muestra en las


cajas indica la posicin de la mediana de esta variable por
sexo, las cuales son 88 para los hombres y 94 para las
mujeres. Estas cantidades son en la prctica iguales a las
medias que resultan ser 88.64 y 94.16 respectivamente.
El lmite superior de una caja indica el tercer cuartil
y el lmite inferior el primer cuartil. En este caso los lmites superiores son 96 y 102 para los hombres y mujeres,
mientras que los lmites inferiores son 80 y 86. A partir
de la grfica resultante se puede concluir que en general
hay una tendencia a observar un ndice de desarrollo
mental mayor en las nias que en los nios a los 24
meses de edad. Al identificar que la mediana en cada caja
est situada alrededor de la mitad de la misma, hay elementos que sugieren un alto grado de simetra de esta
variable dentro de cada uno de los dos grupos (nios y
nias). Estos resultados se basan en los 216 nios de la
muestra separados en 105 (48.61%) hombres y 111
(51.39%) mujeres.
El ancho de la base de cada caja no tiene significado
alguno por lo que no es interpretable. Hay que notar
que, de manera adicional a las cajas, en la grfica existen
lneas verticales hacia arriba y abajo que parten del
punto central de la base superior e inferior de manera
respectiva. Estas lneas son los llamados bigotes y hay
distintas propuestas para determinar su longitud. Una de
las ms comunes es que la longitud est en funcin del
rango intercuartil. El bigote inferior comienza en el valor
dado por:
Mximo (Q1 1.5*(Q3-Q1), X

(1))

y termina en el valor Q1, mientras que el bigote superior


comienza en el valor Q3 y termina en el valor dado por
Mnimo (Q3 + 1.5*(Q3-Q1), X(n)).

Otro ejemplo de estas grficas es para la variable peso


al nacer tambin separado por sexo del nio (figura 314). La interpretacin de esta figura es similar a lo ya
descrito.

Salud Pblica. Teora y prctica

(Captulo 3)

Peso al nacer segn sexo

S=

1 n
(xi x )2

n 1 i =1

femeni no

Figura 3-14. Cajas y bigotes para peso al nacer segn sexo.

En este caso, lo que resalta es la presencia de puntos


situados fuera de los bigotes, pero a lo largo de la misma
direccin. Estos puntos indican valores extremos determinados con base en la informacin de los cuartiles. En
general, se espera que dentro de los valores que delimitan los bigotes se encuentren 99% del total de observaciones, mientras que, por construccin, 50% de las observaciones se encuentra dentro de la caja.
Por otro lado, una medida de dispersin usada de
manera habitual en el contexto estadstico es la llamada
desviacin estndar que a su vez depende de otra medida de dispersin llamada varianza.
La medida ms usada de dispersin es la varianza. Este
valor refleja que tan disperso es un conjunto de datos
con respecto a su media.

La varianza, que se denota por S2, es una medida de


dispersin que toma en cuenta todos los valores observados y que caracteriza la separacin de los valores individuales partiendo de un punto de referencia dado por la
tendencia central. Esta medida se calcula como:
S2 =

n
1
(xi x )2

n 1 i =1

es decir, se consideran los cuadrados de las diferencias de


cada valor observado con respecto a la media aritmtica,
por lo que este indicador de dispersin est medido en
unidades al cuadrado, es decir, la varianza del peso al
nacer est en kg al cuadrado, la varianza de la concentracin de plomo est en g/dL al cuadrado, entre otros. El
que la varianza de cualquier variable est en unidades al
cuadrado, no permite una fcil interpretacin de su valor
que ubique el grado de dispersin que se presenta en la
informacin.
Por la razn anterior, la interpretacin de la dispersin de los datos se lleva a cabo a partir de la raz cuadrada de la varianza que se conoce como la desviacin
estndar, se denota por S, y est dada en las mismas unidades fsicas de la variable en cuestin.

Coeficiente de asimetra =

3(media mediana)
desviacin estndar

3( x - Q2 )
S

sta es una medida que no depende de las unidades fsicas de medicin de la variable considerada y toma el
valor 0 cuando la distribucin es simtrica. Cuando la
distribucin tiene la cola izquierda ms prolongada, la
media es menor que la mediana y este coeficiente de asimetra ser negativo y de aqu el nombre usado de distribucin asimtrica en forma negativa. Entre ms alejada
est la media de la mediana, se esperara ver una cola
izquierda ms larga. Esto mismo ocurre en el caso, pero
considerando valores positivos del coeficiente para la
cola derecha de la distribucin.
Otra medida es la llamada propiamente sesgo, la
cual tiene propiedades estadsticas que permiten una
evaluacin ms objetiva que la anterior. Esta medida
El sesgo es una medida que refleja el grado de alejamiento de una distribucin con respecto a la simetra
alrededor de la media. Esto es, qu tan diferente puede
ser el lado derecho (cola derecha) del lado izquierdo
(cola izquierda) de la distribucin.

depende de los llamados momentos de la distribucin


con respecto a la media que estn dados por la siguiente
expresin:

mr =

1 n
(xi x )r

n 1 i =1

en donde r se puede sustituir por los valores 1, 2, 3,


obtenindose el llamado r-simo momento central. El
primer momento central (r =1) es siempre igual a 0,
mientras que el segundo momento central (r =2) es igual

manual moderno Fotocopiar sin autorizacin es un delito

mascul ino

La desviacin estndar del peso al nacer para todos los


nios es 0.485 kg, la de la concentracin de plomo en
sangre a los 24 meses de edad es de 3.75 g/dL y la del
ndice de desarrollo mental es de 11.45 unidades.
Al separar por sexo, la desviacin estndar del peso
al nacer es igual a 0.499 kg para los hombres y 0.474
para las mujeres.
Otra de las caractersticas que suelen utilizarse para
entender la distribucin de los valores de una variable es
la forma de la misma. Para describir la forma de una distribucin se utilizan dos aspectos principales, qu tan
sesgada y qu tan puntiaguda es.
Hay distintas formas de determinar el sesgo de una
distribucin o de un conjunto de valores. Entre las ms
sencillas se encuentra el llamado coeficiente de asimetra
que se calcula como:

Editorial El

Kg

18

Conceptos bsicos en bioestadstica para el estudiante de medicina

a la varianza. Para r =3 y r =4 se obtienen el tercer y cuarto momento central, y as sucesivamente para otros valores de r. El sesgo est dado por la ecuacin:
Sesgo =

m3
S3

es decir, el tercer momento central de la distribucin


dividido entre la desviacin estndar al cubo y no depende de las unidades fsicas de la variable. La interpretacin
de esta medida utiliza la misma referencia que la del coeficiente de asimetra, es decir, para distribuciones simtricas el sesgo es 0, para asimetra por la izquierda el
sesgo toma un valor negativo y para asimetra por la
derecha el sesgo toma un valor positivo.
La picudez o curtosis es una cantidad que mide
cun puntiaguda es una distribucin, se puede pensar
tambin en trminos de un histograma, como qu tan
alta es la barra correspondiente a la moda con respecto a
las barras restantes. Esta medida tiene una interpretacin
clara cuando la distribucin es unimodal, es decir, tiene
slo una moda. La picudez se refiere al comportamiento
de la distribucin alrededor de esta nica moda.
La curtosis es una medida asociada a distribuciones con
una sola moda y refleja que la alta es esa moda con
respecto al resto de valores.

Al igual que la medida anterior de asimetra, existen


varias formas de medir esta caracterstica. La forma ms
simple est dada a partir de los percentiles 90 y 10 junto
con los cuartiles tercero y primero:

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

Q3 Q1
2( Percentil 90 Percentil 10)

La interpretacin de este valor toma como referencia el


comportamiento de la distribucin normal para la cual
esta relacin es 0.263. Valores menores que esta cantidad
indican distribuciones con un pico muy alto, mientras
que valores mayores indican distribuciones con un pico
bajo y colas ms pesadas.
La curtosis es una medida con propiedades estadsticas adecuadas, que se define por la ecuacin:
Curtosis =

m4
S4

es decir, el cuarto momento central de la distribucin


dividido entre la desviacin estndar a la cuarta potencia
(que resulta igual que la varianza al cuadrado), de nuevo
este valor no depende de las unidades de la variable. La
referencia para la interpretacin es de nuevo la distribucin normal para la cual toma el valor 3.
Si para un conjunto de valores de un variable, la curtosis es mayor que 3, se espera ver un pico mucho ms
pronunciado y se denomina que la variable tiene una distribucin leptocrtica. Si la curtosis es menor que 3, el
pico es mucho ms bajo y se denomina distribucin pla-

19

ticrtica. Por ltimo la normal se identifica como una


distribucin mesocrtica.
En cuanto a la forma de la distribucin de las tres
variables numricas de los nios del estudio de plomo se
obtienen los siguientes resultados. Para el ndice de desarrollo mental a los 24 meses de nacidos, el sesgo es de
0.207 y la curtosis de 2.573, en donde hay que recordar
que la media, mediana y moda son 91.48 unidades, 90
unidades y 88 unidades de manera respectiva.
Por lo anterior, se puede decir que esta distribucin
es muy parecida una distribucin normal, aunque habra
que considerar verificaciones de tipo inferencial para justificar esta afirmacin por completo.
En nuestro ejemplo, la concentracin de plomo en
sangre a los 24 meses de nacidos se distribuye de tal
forma que el sesgo es 3.72 y la curtosis es 27.97, junto
con una media de 4.97 g/dL, una mediana y moda de
4.3 g/dL.
Otro elemento en la descripcin de la distribucin de
una variable es la forma. Hay dos medidas para describir la forma de la distribucin, el sesgo y la curtosis

Estos valores nos indican una distribucin con un


alto grado de asimetra positiva, es decir, con una cola
derecha bastante prolongada y un pico bastante pronunciado alrededor de la moda.
Por ltimo, para el peso al nacer de los nios se tiene
un sesgo de -0.597 y una curtosis de 4.99, adems la
media es 3 076 kg, la mediana 3 100 kg y moda 3 000
kg. En este caso se tiene una variable con un buen grado
de simetra, aunque con una pequea tendencia a la
izquierda que puede ser debida a la presencia de las dos
observaciones extremas ms pequeas ya discutidas
antes; el pico de esta distribucin es ligeramente ms alto
que en el caso normal.
Una descripcin complementaria podra incluir las
cuantificaciones de sesgo y curtosis para cada una de las
tres variables pero considerando por separado a los nios
y a las nias. Esto permitira comparaciones adicionales
entre estos dos grupos.
Con el fin de presentar algunas otras formas de caracterizar o describir a las variables de estudio, tomaremos
ahora la informacin de las variables asociadas a las mujeres
embarazadas que estuvieron en la muestra. De las 327
mujeres, una de ellas no inform sobre su estado civil, por
lo que se dice que hay un dato perdido para esta variable.
La mayora de ellas informa estar casada o vivir en
unin libre (237 y 64 de manera respectiva) y el resto ser
soltera o estar separada (23 y dos de manera respectiva).
Esta distribucin se observa de forma grfica en el diagrama de barras siguiente (figura 3-15), en donde se
recuerda que la base de cada barra no tiene interpretacin alguna y la altura en este caso refleja el porcentaje
de cada categora con respecto al total:
En cuanto a la variable edad gestacional, como se
indic, esta variable est medida de tal forma que resulta una variable de conteo. Para este tipo de variables se
pueden calcular las medidas de tendencia central, de dis-

20

Salud Pblica. Teora y prctica

(Captulo 3)

Cuadro 3-2. Frecuencias de edad gestacional al


momento del nacimiento en el estudio de plomo

Estado civil de la madre


80

porcentaje

60

40

20

0
casada

unin libre

soltera

separada

Edad gestacional al
momento de nacimiento
(en semanas)
27
33
34
35
36
37
38
39
40
41
42
Total

Frecuencia

2
4
2
2
13
15
48
48
64
13
2
213

Figura 3-15. Estado civil de la madre en el estudio de plomo.


El diagrama de barras de una variable de conteo se
conoce como diagrama de bastones

Edad gestacional

25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Semanas
Figura 3-16. Diagrama de rayos o bastones de edad gestacional en el estudio de plomo.

manual moderno Fotocopiar sin autorizacin es un delito

El mensaje de la grfica anterior es que no existen


valores intermedios entre cada uno de dos valores que
tienen un rayo. Esto se debe a que en este estudio la
informacin se recuper en semanas completas.
La media es 38.59 semanas, la mediana 39 semanas
y la moda es 40 semanas. En el caso de variables de conteo, la mediana y la moda son ms informativas que la
media. Los cuartiles primero y tercero son 33 y 40 sem
de manera respectiva.
El rango intercuartil es de siete semanas, aunque hay
que notar que la separacin entre cuartiles con respecto
a la mediana no es simtrica; de Q1 a Q2 (mediana) hay
seis semanas de diferencia mientras que de Q2 a Q3 slo
hay una semana. La desviacin estndar es 1.987 semanas, el sesgo es -2.381 y la curtosis es 13.02. Se detecta
una cola (de tipo discreto) izquierda ms pronunciada y
un pico en la moda bastante ms alto que el resto.
Para concluir, adase que existen un gran nmero
de opciones para describir en forma simple, el comporta-

Editorial El

Frecuencia
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71

persin y de forma de su distribucin de valores, de igual


manera que en el caso continuo. Sin embargo, es recomendable tener cuidado en la presentacin de resultados
bsicos, pues estrictamente hablando esta variable slo
puede tomar un nmero restringido de valores.
Por ejemplo, para las 213 observaciones de esta
variable, la distribucin de los valores se resume con claridad en las frecuencias observadas de cada posible valor,
como se presenta en el cuadro 3-2.
El rango es 27 a 42 semanas, pero hay que enfatizar
que no es de manera continua. En forma grfica, un histograma reflejara de forma equivocada la posibilidad de
obtener valores continuos de esta variable a lo largo del
rango de valores.
Por la razn anterior y para enfatizar el carcter de
conteo de esa variable, es recomendable utilizar como
representacin grfica un diagrama de barras especial llamado diagrama de rayos o bastones, en el cual, se refleje las frecuencias observadas (o las frecuencias relativas)
y cada rayo slo se refiera al valor particular que les
corresponde. En este caso, este diagrama tendra la
siguiente forma (figura 3-16):

Conceptos bsicos en bioestadstica para el estudiante de medicina

miento de los valores de las variables generadas en cualquier estudio o investigacin.


Hasta aqu se han mostrado algunos de los procedimientos grficos y numricos ms comunes que se encuentran en informes o en artculos, pero de ninguna manera son
los nicos. El uso de estos procedimientos y su interpretacin slo permiten generar resultados a nivel exploratorio,
pero no concluyente. Los procesos que permiten llegar a
conclusiones y respuestas sobre las preguntas de investigacin requieren de procedimientos estructurados con base
en teora estadstica llamados procedimientos o mtodos
inferenciales. En la siguiente parte de esta seccin se abordarn algunos de estos procedimientos.

III. ELEMENTOS DE INFERENCIA ESTADSTICA


1. Probabilidad

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

En el mbito de la investigacin y de la prctica clnica,


los profesionales de la salud trabajan con regularidad slo
con muestras de individuos a partir de las cuales desean
obtener conclusiones vlidas para la poblacin de estudio. De hecho, y en la prctica, se trabaja casi siempre
con muestras y no con la poblacin, a menos claro, que
se trate de un censo. En trminos generales, el proceso
mediante el cual se pueden hacer conclusiones acerca de
la poblacin a partir de informacin obtenida en la
muestra encuentra su fundamento en conceptos relacionados con la probabilidad.

1.1 Significado de la probabilidad


Aun sin estar conscientes de ello, todos usan de manera
cotidiana trminos relacionados con la probabilidad.
Muchas de las decisiones que se toman da a da recaen
en el juicio subjetivo que se hace sobre la probabilidad
de ocurrencia de un evento. Expresar una opinin con
respecto a la posibilidad de lluvia en un da cualquiera
del verano, o sobre la posibilidad de que un paciente plido y sudoroso padezca una hemorragia interna, o sobre
la de que un paciente con antecedentes de haber fumado por ms de 20 aos tenga cncer pulmonar, hacen
referencia todas ellas a la probabilidad de ocurrencia de
dichos eventos.
Si se analiza la expresin Leyes del azar, por ejemplo,
puede parecer una contradiccin, si se entiende al azar
como ausencia de ley o regularidad. Sin embargo, los
eventos azarosos en conjunto ocurren en forma ordenada con una regularidad. Del desorden de la aleatoriedad,
el investigador obtiene prediccin de los fenmenos.

Aunque el trmino tiene un significado cotidiano, el


clculo de probabilidades puede ser una actividad que,
en algunos casos, destroce los nervios. Desde un punto
de vista probabilstico, un evento que no puede ocurrir,
como que un hombre pueda desarrollar cncer de ovario,
tiene probabilidad cero. Mientras que un evento cuya
ocurrencia sea segura, como la muerte en algn momento, tiene probabilidad uno.

21

Por otro lado, y desde un punto de vista estadstico,


la definicin tiene un trasfondo emprico.
En trminos simples, si se observa 10% de ocurrencia de diabetes gestacional en una muestra representativa de 500 mujeres con sobrepeso que se estudian durante el embarazo, entonces la probabilidad de que una
mujer seleccionada al azar, de la misma poblacin estudiada, desarrolle diabetes gestacional es de 0.10. As, una
interpretacin de la probabilidad radica en la frecuencia
relativa observada en un gran nmero de casos.
En las investigaciones epidemiolgicas esta probabilidad es referida como riesgo, un trmino usado de
manera extensa para delinear la susceptibilidad de padecer alguna enfermedad debida a la exposicin a un factor desfavorable. Si el riesgo, o probabilidad, de desarrollar diabetes gestacional es de 0.04 entre mujeres sin
sobrepeso, entonces, y con base en el ejemplo anterior, se
puede decir que el riesgo para las mujeres con sobrepeso es 2.5 veces ms grande que para las mujeres sin
sobrepeso.
Es importante mencionar que hay factores que pueden disminuir el riesgo de padecer una enfermedad,
como podra ser la vacunacin. En este caso la exposicin al factor disminuye el riesgo de desarrollar alguna
enfermedad o evento.
Por ejemplo, en un estudio en el que se analiz el
riesgo de muerte en choques vehiculares frontales, se
demostr que la bolsa de aire redujo la mortalidad en
63%, el cinturn de seguridad 72% y el uso combinado
de los mismos redujo el riesgo de muerte en 80%.
Entre otros usos, los conceptos de probabilidad son
tiles para entender e interpretar los datos y resultados
presentados en artculos cientficos. De hecho, la comprensin de la probabilidad es fundamental para entender el significado del valor p (p value) hallado muchas
veces en el texto de los artculos cientficos del rea
mdica y epidemiolgica.

1.2 Propiedades y definiciones bsicas


Se utilizar un ejemplo sencillo para ilustrar algunas de
las propiedades ms importantes de la probabilidad, as
como algunas reglas en el clculo de probabilidades. El
ejemplo se refiere a la distribucin de los tipos sanguneos segn el sexo, los datos fueron recolectados en un
banco de sangre de la ciudad de Mxico y se muestran en
el cuadro 3-3.
En trminos de probabilidad, un experimento es
definido como el proceso mediante el cual se recolecta
un conjunto de datos. Para este ejemplo, el experimento
consiste en el proceso de determinar el tipo de sangre de
los 1 200 individuos analizados. En trminos generales,
un experimento est compuesto por un nmero indeCuadro 3-3. Distribucin del tipo de sangre por sexo
Tipo
O
A
B
AB
Total

Hombres
240
288
72
18
618

Mujeres
264
228
60
30
582

Total
504
516
132
48
1 200

Salud Pblica. Teora y prctica

(Captulo 3)

P (Sangre tipo B) =

132

= 0.11

1200

Esto significa que si se selecciona al azar un individuo de


esta muestra se tiene 11% de posibilidades de seleccionar
alguien con sangre de tipo B. O dicho en otras palabras,
se espera que de cada 100 sujetos seleccionados al azar,
11 poco ms o menos, tengan sangre de tipo B.
Presentar los datos del cuadro 3-3 en trminos de probabilidades puede ser de utilidad para introducir un par de
conceptos importantes en relacin a la probabilidad.
Los datos del cuadro 3-4 sirven para mostrar dos
importantes caractersticas o propiedades de la probabilidad.
a) La probabilidad de cada uno de los resultados (tipo de
sangre) es mayor o igual a 0.
b) La suma de probabilidades del conjunto de resultados
posibles es 1.
Un trmino til para hablar de probabilidad es evento. Un evento puede consistir de un resultado en particular (evento simple) o de un conjunto de resultados
(evento compuesto). Por ejemplo, un posible evento simple es ser mujer, en cuyo caso, la probabilidad sera:
P (Ser Mujer) =

582

= 0.485

1200

En otros casos el evento puede ser definido como


la combinacin de dos posibles resultados ser mujer
y tener sangre tipo AB. La probabilidad de tal evento es:
P (Ser Mujer y sangre tipo AB) =

30

Esta misma probabilidad puede ser hallada si se calcula


uno menos la probabilidad del evento mismo, siendo
este clculo ms sencillo en algunas situaciones.
P (Complemento de ser Mujer) = 1 - P(Ser Mujer) =
582
1= 1 - 0.485 = 0.515
1 200

1.3 Reglas de probabilidad


Cuando se tienen dos o ms eventos y la ocurrencia de uno
de ellos elimina la posibilidad de ocurrencia de los otros, se
tienen eventos mutuamente excluyentes. Esto significa, por
ejemplo, que una persona no puede ser hombre y mujer a
la vez, o que no puede tener tipo de sangre A y tipo de sangre O al mismo tiempo. La probabilidad de ocurrencia de
alguno de dos eventos mutuamente excluyentes es igual a
la probabilidad de que cualquiera de los dos eventos ocurra, y esto se encuentra al sumar la probabilidad de los dos
eventos, operacin que es conocida como la regla de la adicin de probabilidades.
Si se define como evento el que una persona seleccionada al azar tenga sangre tipo A o sangre tipo B, la
probabilidad es segn los datos del cuadro 3-4.
P (Sangre tipo A o Sangre tipo B) = P (Sangre tipo A) +
P (Sangre tipo B) = 0.43 + 0.11 = 0.54

La regla de la adicin puede ser utilizada cuando se tienen ms de dos eventos, siempre y cuando stos sean
mutuamente excluyentes.
Dos eventos no son mutuamente excluyentes cuando la ocurrencia de uno no elimina la posibilidad de ocurrencia del otro. En este caso, por ejemplo, el ser mujer
no elimina la posibilidad de tener sangre tipo O. Del cuadro 3-4, la probabilidad de ser mujer es 0.485 mientras
que la probabilidad de tener sangre tipo O es 0.42. La
probabilidad de ser mujer o tener sangre tipo O no es, sin
embargo, 0.485 + 0.42, puesto que en esta suma las
mujeres con sangre tipo O han sido contadas dos veces.
Lo que sucede en este caso, es que debe ser tomada en
cuenta la probabilidad de que ambos eventos ocurran, es
decir, la probabilidad de ser mujer y tener sangre tipo O,
0.22, de manera que esta cantidad sea sustrada del clculo final. Esto da origen a la llamada regla de la adicin
para eventos que no son mutuamente excluyentes. As, la
probabilidad de ser mujer o tener sangre tipo O es:

= 0.025

P (Mujer o sangre tipo O) = P (Mujer) +

1200

P (Sangre tipo O) - P (Mujer y sangre tipo O) =

En algunas ocasiones puede ser de utilidad conocer la


probabilidad de que un evento no suceda. Un evento
opuesto al evento de inters es llamado evento complementario. Por ejemplo, el evento complementario para
ser mujer es el evento no ser mujer. La probabilidad
del complemento es:
P (Complemento de ser Mujer) = P(No ser Mujer) =
618
P(ser hombre) =
= 0.515
1200

0.485 + 0.42 - 0.22 = 0.685


Cuadro 3-4. Distribucin de probabilidades
del tipo de sangre por sexo
Tipo
O
A
B
AB
Total

Hombres
0.2
0.24
0.06
0.015
0.515

Mujeres
0.22
0.19
0.05
0.025
0.485

Total
0.42
0.43
0.11
0.04
1

manual moderno Fotocopiar sin autorizacin es un delito

pendiente de ensayos (rplicas) bajo las mismas condiciones, en este caso, un ensayo consiste en la determinacin del tipo de sangre para un individuo particular.
Cada ensayo puede tener uno de cuatro resultados: O, A,
B, AB.
La probabilidad de un resultado particular, por decir
resultado T, se escribe P (T). Por ejemplo, en el cuadro 33, si el resultado T es sangre tipo B, la probabilidad de
que un individuo seleccionado al azar tenga tipo de sangre B es:

Editorial El

22

Conceptos bsicos en bioestadstica para el estudiante de medicina

1.3 Independencia y probabilidad condicional


Un concepto central no slo en el mbito de la probabilidad, sino de la estadstica en general es el de independencia. Implica que la probabilidad de ocurrencia de un
evento no influye sobre la probabilidad de ocurrencia de
otro evento. Para ilustrar este concepto utilizaremos un
ejemplo en el que se analiza la relacin entre el hbito de
fumar y el sexo.
Dos eventos son independientes si la probabilidad de
ocurrencia del uno no influye sobre la probabilidad de
ocurrencia del otro

Suponiendo que se tienen los datos de 100 personas,


50 hombres y 50 mujeres, con respecto a su hbito de
fumar, como se muestra en el cuadro 3-5.
De aqu se sabe que la probabilidad de fumar es P
(fumar) = 0.20 y que la probabilidad de ser mujer es P
(mujer) = 0.50. Si se define un nuevo evento como ser
mujer y fumar, entonces la probabilidad de tal evento se
hallar justo en la interseccin del rengln de los que s
fuman y de la columna mujer, es decir:
P (Mujer y fuma) =

10

= 0.10

100

Otra manera en que esta probabilidad puede ser calculada es mediante el uso de la regla de la multiplicacin
para eventos independientes. Esta probabilidad se obtiene al multiplicar la probabilidad de ocurrencia de ambos
eventos:

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

P (Mujer y fuma) = P (Mujer)


50
=
x
100
= 0.50 x
= 0.10

x P (fuma)
20
100
0.20

Es importante mencionar que esta regla funciona slo si


los eventos son independientes, por lo que es necesario,
en primera instancia, determinar si los eventos tienen
esta caracterstica, para ello se mencionarn un par de
conceptos tiles en el clculo de probabilidades: probabilidad marginal y probabilidad conjunta.
La probabilidad de fumar es 0.20 y la probabilidad
de ser mujer es 0.50, y ambas son llamadas probabilidades marginales puesto que se ubican en los mrgenes de
la tabla, es decir, en el rengln y columna de los totales y
definen la probabilidad de ocurrencia de un evento sin
tomar en cuenta la ocurrencia del otro. Mientras que la
probabilidad de ser mujer y fumar es 0.10 y es llamada
probabilidad conjunta, puesto que expresa la probabilidad de que ambos eventos ocurran de manera simultCuadro 3-5. Hbito de fumar segn sexo
Fuma
No
S
Total

Hombres
40
10
50

Mujeres
40
10
50

Total
80
20
100

23

nea. A partir de esta informacin se puede ahora definir


la independencia entre eventos.
Si dos eventos son independientes, el producto de las
probabilidades marginales ser igual a la probabilidad
conjunta de dichos eventos. En este caso:
P (Mujer y fuma)
10
=
100
0.10 =

= P (Mujer) x P (fuma)
50
20
x
100
100
0.10

Una mirada ms cercana a los datos dar mayor comprensin del concepto de independencia. De las mujeres,
20% fuma, cantidad idntica para los hombres. Como la
probabilidad de fumar es la misma para hombres y mujeres, se dir que la probabilidad de fumar es independiente del sexo. En este sentido, la independencia entre
dos variables implica que la informacin sobre la ocurrencia de una no sirve para explicar la ocurrencia de la
otra. En trminos de nuestro ejemplo, el sexo de una persona seleccionada no aporta ninguna informacin para
determinar si esa persona tiene mayor o menor probabilidad de fumar.
Continuando con el mismo ejemplo, pero ahora con
datos reales obtenidos en una submuestra de la Encuesta
Nacional de Evaluacin del Desempeo (ENED, 2002)5
se ilustra el caso de dos eventos que no son independientes (cuadro 3-6).
Como puede observarse la probabilidad de ser hombre y fumar parece ser mayor que la de ser mujer y
fumar, indicando que el hbito de fumar puede no ser
independiente del sexo. Para determinar con mayor precisin esto, se puede utilizar la definicin de eventos
independientes y aplicarla para el caso de ser mujer y
fumar:
P (Mujer y fuma) = P (Mujer) x P (fuma)
58
1789
269
=
x
2787
2787
2787
0.02 0.06

Siguiendo este resultado, se puede afirmar que estas dos


variables hbito de fumar y sexo no son independientes, y que, en principio, el hecho de ser hombre implica
una mayor probabilidad de fumar.
De hecho, y con base en esta informacin, ahora se
puede saber qu pasa con respecto a la probabilidad de
fumar si se selecciona una persona al azar y es hombre.
A esto se le conoce como probabilidad condicional y
5

Los datos presentados en esta seccin han sido modificados y adaptados con fines didcticos. Y en otros ejemplos han sido simulados.

Cuadro 3-6. Hbito de fumar segn sexo


Encuesta Nacional de Evaluacin del Desempeo 2002
Fuma
No
S
Total

Hombre
787
211
998

Mujer
1 731
58
1 789

Total
2 518
269
2 787

(Captulo 3)

proporciona informacin acerca de la probabilidad de ocurrencia de un evento dado que otro evento ya ha ocurrido.
Por ejemplo, se sabe que se tienen 998 hombres en
la muestra y que de stos 211 fuman; as que si se quiere saber cul es la probabilidad de fumar dado que es
hombre se tiene:
P (Fumar | Hombre) =

221

= 0.21

998

donde el smbolo | se lee dado que. Por otro lado, se


tiene 1 789 mujeres y de stas 58 fuman, de modo que
la probabilidad de fumar dado que es mujer es igual a:
P (Fumar | Mujer) =

58

= 0.03

1789

Esto da mayor evidencia para pensar que estos dos eventos no son independientes, ya que si de hecho fueran
independientes estas dos probabilidades deberan ser
idnticas. Adems, como es evidente, la probabilidad de
fumar dado que es hombre es siete veces ms grande que
la probabilidad de fumar dado que es mujer.
Como se observ antes, la probabilidad conjunta de
dos eventos puede ser con facilidad calculada si se tienen
eventos independientes. Cuando se tienen eventos que
no son independientes, se debe utilizar la siguiente regla
de multiplicacin para dos eventos dependientes A y B:
P (A y B) = P (B) x P (A | B)

De modo que si se quiere saber la probabilidad de


fumar y ser mujer se tendra:
P (Fuma y Mujer) = P (Mujer) x P (fumar | Mujer)
1789
58
=
x
2787
1789
= 0.64 x 0.03
= 0.02

2. DISTRIBUCIONES DE PROBABILIDAD
En la seccin anterior se expusieron las principales ideas
acerca de los trminos estimador y parmetro. En general, es aceptado que el acceso al estudio de las poblaciones es en la prctica imposible, y por ende se recurre al
uso de datos obtenidos en una muestra que pretende
representar a la poblacin de inters. Las cantidades que
pueden ser estimadas a partir de una muestra son los
estimadores. El valor de esta caracterstica en la poblacin es lo que se denomina parmetro.
Por ejemplo, si se piensa que se desea estudiar a la
poblacin de pacientes que han tenido un infarto al miocardio en los hospitales del tercer nivel de atencin en la
ciudad de Mxico en cuanto a una serie de caractersticas que pudieran estar relacionadas con el infarto. Entre
tales caractersticas se podran considerar la edad, sexo,
hbito de fumar y peso; todas ellas ejemplos de variables.

Como se mostr en la seccin anterior, una variable


puede ser descrita o caracterizada a travs de la distribucin de frecuencias, la cual se construye a partir de cada
uno de los valores observados que puede tomar una
variable en la muestra de estudio. De la misma manera
en que la distribucin de frecuencias caracteriza a los
valores observados de una variable en una muestra determinada, la distribucin de probabilidad sirve para caracterizar al conjunto de todos los valores que, de manera
terica, puede tomar una variable, as como a sus correspondientes probabilidades.
En trminos generales, las distribuciones de probabilidad pueden ser descritas por uno o ms parmetros
(media, varianza, entre otros) y se utilizan para explicar
el comportamiento de una variable. Por ejemplo, el peso
de cierto tipo de individuos de un grupo bien definido de
pacientes.
Se sabe que a pesar de compartir una gran variedad
de caractersticas, e independiente de ellas, el peso puede
variar entre subgrupos de pacientes o aun de un paciente a otro, y que esta variabilidad podra ser explicada a
travs de alguna medida de tendencia central (media,
mediana, entre otros) y de alguna medida de dispersin
(varianza, percentiles, entre otros). O incluso, podra ser
caracterizada de manera ms detallada y calcular la probabilidad de ocurrencia para cada uno de los valores que
el peso puede tomar para esta muestra de pacientes.
Otro ejemplo puede ser el de la presin arterial sistlica, cuya variabilidad entre individuos, y en algunos
casos aun para el mismo individuo, suele ser de inters
sustancial.
Existen diferentes distribuciones de probabilidad
que son utilizadas en la prctica todas las reas del quehacer cientfico y cuya utilidad va desde el nivel ms abstracto y terico hasta las reas con una orientacin aplicada. Mediante la aplicacin de estas distribuciones a
datos empricos, y bajo ciertos supuestos, es posible resumir una gran cantidad de informacin, comunicarla y
contrastar hiptesis de inters. En el caso de la medicina
y la epidemiologa, las distribuciones ms utilizadas son,
entre otras, la distribucin binomial, la distribucin poisson, y la distribucin normal. Aqu slo se examinar a
la distribucin binomial y a la distribucin normal.
En el mbito de la estadstica se asume, con frecuencia,
que una muestra ha sido tomada de una poblacin cuya
caracterstica de inters tiene asociada una distribucin
terica de probabilidad. La razn de esto es que conociendo la distribucin de probabilidad que una variable
tiene, se puede calcular la probabilidad de ocurrencia de
los valores de dicha variable, as como caracterizar y
explicar su comportamiento a partir slo de algunos
parmetros.

2.1 Distribucin binomial


No es raro encontrar en el rea de la medicina eventos o
sucesos en los que slo existen dos posibles resultados
(resultado de una prueba de laboratorio: positivo versus
negativo; padecimiento de una enfermedad: si versus no;
entre otros), a los que con regularidad se les conoce

manual moderno Fotocopiar sin autorizacin es un delito

Salud Pblica. Teora y prctica

Editorial El

24

Conceptos bsicos en bioestadstica para el estudiante de medicina

como eventos dicotmicos. Se trata de sucesos que son


mutuamente excluyentes puesto que no puede ocurrir que
un resultado de laboratorio sea positivo y negativo al mismo
tiempo. Adems, estos sucesos tienen la caracterstica de
que pueden ser repetidos n cantidad de veces y para cada
repeticin ser eventos independientes. As por ejemplo, se
puede tener los resultados de la prueba de laboratorio para
100 sujetos distintos y el resultado de la prueba para un
individuo en particular no tendra porque afectar el resultado de la prueba para otro individuo.6
De manera adicional, podra interesar no slo el
resultado de la prueba, y la probabilidad de ocurrencia
del resultado positivo, para un solo individuo, sino que
adems podra ser de inters saber cuntos de esos 100
individuos tendran un resultado positivo y cul sera la
probabilidad de tal evento.
Las preguntas planteadas en el prrafo anterior pueden ser respondidas mediante el uso de la distribucin
binomial. La distribucin binomial nos da la probabilidad de que un evento en particular ocurra en un nmero determinado de ensayos independientes.

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

Ejemplos de la utilidad de la distribucin binomial pueden ser: caracterizar la probabilidad de herencia de cierto rasgo gentico particular, estimar la ocurrencia de
una reaccin especfica a un nuevo medicamento, calcular la probabilidad de que un individuo padezca alguna
enfermedad crnica, o estimar la probabilidad de muerte de alguna clula cancergena en una prueba in vitro
de un nuevo agente quimio-teraputico

La distribucin binomial est determinada por dos


caractersticas que definen los posibles resultados de un
evento dicotmico. El primero es el nmero de ensayos
o intentos (individuos observados, pruebas de laboratorio
analizadas, entre otros), y el segundo, la probabilidad, en
cada ensayo, de obtener uno de los dos posibles resultados, al que se llamar xito, siendo este el parmetro asociado a la distribucin. Al nmero de intentos suele llamrsele n y a la probabilidad de xito en cada ensayo p.7
Por ltimo, una caracterstica ms que es necesario definir,
y a la que se llamar k, es el nmero de xitos obtenidos en
n ensayos. Este ltimo, sin embargo, no es un parmetro de
la distribucin binomial, sino una caracterstica que ocurre
cuando se realizan n cantidad de ensayos.
Para ilustrar el uso de la distribucin binomial utilizaremos un ejemplo relacionado con la prevalencia de
hipercolesterolemia en personas adultas (20 aos o ms)
en Mxico. Segn datos de la ENSANut-2006, 26.5% de
la poblacin mexicana tiene concentraciones de colesterol en sangre por arriba de los 200 g/dL.
6

A menos que los individuos compartieran algn patrn o contexto en


particular. Por ejemplo, que fueran miembros de una misma familia o
pacientes de un mismo hospital, o de una misma escuela en el caso de
un brote de una enfermedad infecciosa, entre otros.
7

Como ya se ha comentado en la seccin anterior, en estadstica se


mantienen notaciones distintas para referirse ya sea al estimador o al
parmetro. En este caso, p har referencia al estimador, o caracterstica
muestral, y la letra griega har referencia al parmetro o caracterstica poblacional.

25

Se comenzar por el caso ms simple. Suponiendo


que se selecciona al azar a dos personas de esta poblacin. Cul es la probabilidad de que las dos padezcan
hipercolesterolemia?, de qu exactamente una persona
la padezca?, de qu ninguna de las dos la padezcan?
Estas probabilidades pueden ser halladas con facilidad si
se aplican las reglas de multiplicacin y adicin.
La probabilidad de que las dos personas tengan
colesterol alto se obtiene mediante el uso de la regla de
multiplicacin para eventos independientes. Se sabe que
la probabilidad de hipercolesterolemia es P (HiperC) =
0.265, para cualquier persona de la poblacin, y en particular de estas dos personas. Puesto que el hecho de que
una persona tenga colesterol alto es independiente de
que otra persona lo tenga, la probabilidad de que ambas
padezcan hipercolesterolemia es:
P (Hiper C1 e Hiper C2) = P (Hiper C1) x P (Hiper C2)
= 0.265 x 0.265 = 0.07

Donde los subndices (1,2) se refieren a la primera y


segunda persona. Mientras que la probabilidad de que
exactamente una persona tenga colesterol alto puede
ocurrir de dos maneras: la persona uno tiene colesterol
alto y la segunda no, o la persona dos tiene colesterol alto
y la persona uno no. Como estos dos eventos compuestos son mutuamente excluyentes, despus de usar la
regla de la multiplicacin para obtener la probabilidad
de cada evento y la definicin de evento complementario, se puede usar la regla de la adicin para eventos
mutuamente excluyentes como sigue:
P (Hiper C1 y No Hiper C2) = P (Hiper C1) x P (No Hiper C2)
= 0.265 x 0.735 = 0.19

y
P (No Hiper C1 e Hiper C2) = P (No Hiper C1) x P (Hiper C2)
= 0.735 x 0.265 = 0.19

De modo que si se define a estas dos expresiones como


evento 1 y evento 2, se tiene:
P (Evento 1 o Evento 2) = 0.19 + 0.19 = 0.38

Por ltimo, la probabilidad de que ninguna de las dos


personas tenga colesterol alto es:
P (No Hiper C1 y No Hiper C2) = P (No Hiper C1) x P (No Hiper C2)

= 0.735 x 0.735 = 0.54

Hasta aqu slo se ha aplicado sencillas reglas de probabilidad, pero, qu sucede si ahora se selecciona a 10 personas y se quiere saber la probabilidad de encontrar a
cuatro personas que padezcan de colesterol alto? De
hecho se puede utilizar el mismo procedimiento slo
que adems de tedioso es poco prctico. Para hallar esta
probabilidad se cuenta con la siguiente expresin:8
8 El smbolo n! se lee n factorial, e implica n!= n x (n-1) x (n-2)
(3)(2)(1). Si se tiene, por ejemplo, 3!, entonces, 3!=3 x 2 x 1= 6. Por definicin 0!=1.

Salud Pblica. Teora y prctica

(Captulo 3)

Cuadro 3-7. Probabilidades para una distribucin


binomial con n = 10 y p = 0.265
P(k)=pk(1p)nk

0
1
2
3
4
5
6
7
8
9
10

0.25

n!
(nk)!k!

0.2

0.046
0.166
0.269
0.259
0.163
0.071
0.021
0.004
0.0006
0.00005
0.000002

P(k) =

pk(1

p)n-k

P(k) 0.15
0.1
0.05
0

4
5
6
7
8
Numero de personas

10

Figura 3-17. Distribucin binomial para n = 10 y p = 0.265.

n!
(n - k)!k!

Ntese que la expresin anterior contiene a las tres cantidades de inters que se define antes para la distribucin
binomial: n, p, y k, razn por la cual la distribucin binomial sigue con exactitud estas probabilidades para cada
posible nmero de xitos k, donde k = 0, 1, 2,, n.
Siempre que se conozca la probabilidad (p) de obtener
un resultado, la expresin matemtica indica cul es la
probabilidad de obtener k xitos despus de realizar n
ensayos independientes.
En el ejemplo se tiene: k = 4, n = 10, p = 0.265, por
lo que la probabilidad de encontrar a cuatro personas
con hipercolesterolemia una vez que se ha seleccionado
a 10 personas de manera aleatoria es de alrededor de
16%, con exactitud 16.33%.
P(k = 4) = pk(1 - p)n-k

n!
n!
= 0.2654 (0.735)6
(n - k)!k!
(n - k)!k!
= 0.1636

En resumen, la distribucin binomial es til para calcular la probabilidad de ocurrencia de k nmero de xitos
en n ensayos independientes, cuando hay una probabilidad constante p de xito para cada ensayo. De hecho, en
el ejemplo se puede calcular la probabilidad de encontrar 0, 1,, o hasta 10 personas con colesterol alto, es
decir, todos los posibles resultados y presentarlos ya sea
de manera tabular o grfica (cuadro 3-7 y figura 3-17).
En este ejemplo, la distribucin binomial es asimtrica, como puede observarse en la figura 3-17, aunque a
medida que la probabilidad p se aproxima a 0.5 se vuelve ms simtrica, o a medida que aumenta el tamao de
muestra tal y como se muestra en la figura 3-18, en la
que se presentan los datos para el caso en que se tiene: k
= (5 a 50), n = 100, p = 0.265.
La probabilidad de encontrar menos de cinco personas con colesterol alto o ms de 50 es cercana a cero en
una muestra de 100 personas tomadas de esta poblacin,
por lo que sus valores han sido excluidos de la figura. Es
importante notar que los datos de la figura 3-18 siguen
una distribucin binomial, pero a medida que se aumenta el tamao de muestra la distribucin se aproxima a
una distribucin que tiene forma de campana y es sim-

0.1
0.09
0.08
0.07
0.06
P(k) 0.05
0.04
0.03
0.02
0.01
0
6

8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48
Numero de personas

Figura 3-18. Distribucin binomial para n = 100, p = 0.265, y k = (5 a 50).

manual moderno Fotocopiar sin autorizacin es un delito

0.3

Editorial El

26

Conceptos bsicos en bioestadstica para el estudiante de medicina

trica. Es importante recordar esto por lo que se expone


en la siguiente seccin.
Para terminar este apartado, se harn un par de
apuntes ms. Primero, la distribucin binomial puede ser
caracterizada o resumida, como sucede con todas las distribuciones de probabilidad, a partir de unos cuantos
parmetros. En este caso particular, slo un parmetro
(p). Si adems de p se tienen el nmero de ensayos n,
determinados antes de la medicin, la media de una distribucin binomial puede ser definida como np y su
varianza np (1-p). Para el ltimo caso, en que se tiene n =
100 y p = 0.265, la media y varianza de la distribucin
son:
Media = np = 100 0.265 = 26.5
Varianza = np (1-p) = 100 0.265 0.735 = 19.48

Y segundo, aunque la frmula para la distribucin binomial permite calcular el valor de la probabilidad de ocurrencia para un valor exacto de k xitos, puede ser utilizada tambin para calcular la probabilidad para un rango
posible de valores de k. Slo que en este ltimo caso es
ms sencillo recurrir a tablas que han sido diseadas ex
profeso o al uso de algn programa informtico con
capacidades para el anlisis estadstico.

2.2 Distribucin normal


La distribucin normal es continua, de manera que
puede, en teora, tomar cualquier valor y no tan slo
valores enteros como la distribucin binomial. Tiene
forma de campana y es simtrica en torno a la media de
la distribucin. Para los datos de la muestra se utiliza
para denotar a la media, y para la poblacin se utiliza la
letra griega . La curva se muestra en la figura 3-19.

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

La distribucin normal constituye la base para hacer


inferencia estadstica, aun cuando se tengan variables
que no se distribuyan normalmente.

La desviacin estndar para la muestra se representa


por la letra s y para la poblacin por la letra griega sigma
. La desviacin estndar representa la distancia horizontal entre la media y el punto de inflexin de la curva,
y el punto de inflexin ocurre cuando la curva cambia de
convexa a cncava. As como la distribucin binomial

puede ser caracterizada a partir del parmetro (p), la distribucin normal puede ser determinada por sus dos
parmetros (media y varianza).
Puesto que la distribucin normal es una distribucin de probabilidad, el rea bajo la curva es igual a uno,
ya que como se recordar, una de las propiedades de la
probabilidad es que la suma de probabilidades para un
determinado nmero de eventos es siempre igual a uno.
De manera adicional, y como se trata de una distribucin
simtrica, la mitad del rea de la curva est a la izquierda de la media y la otra mitad a la derecha.
Si se tiene una variable aleatoria X que sigue una
distribucin normal, y dado que se trata de variables continuas, puede tomar, al menos tericamente, cualquier
valor desde menos infinito hasta infinito (-, +). Y al
igual que la distribucin binomial existe una expresin
para calcular las probabilidades asociadas a la distribucin normal.
1
exp
f (;,) =
22

0.1

0.08

0.08

0.06

0.06

0.04

0.04

0.02

0.02

10

20

30

40

50

Figura 3-19. Distribucin normal (= 28, = 5).

60

1
2

( X )

Esta funcin depende slo de la media y la desviacin


estndar , puesto que son las nicas cantidades que
varan.
Ya que el rea bajo la curva es igual a uno, se puede
usar la curva para calcular probabilidades. Se puede, por
ejemplo, hallar la probabilidad de que un evento estuviera entre los puntos a y b de la figura 3-20, al utilizar la
expresin anterior.
Sin embargo, para hacerlo se necesita hacer uso,
como fue el caso de la distribucin binomial, de tablas
que contienen los valores de las probabilidades asociadas
a la distribucin normal, y an ms, tambin puede ser
utilizado algn programa informtico con herramientas
para el anlisis estadstico.
De hecho, y en la prctica, se utiliza una transformacin de la distribucin normal que permite calcular las
probabilidades asociadas a cualquier distribucin normal
con parmetros y . Dicha transformacin, consiste
bsicamente en tipificar o estandarizar los valores de
una distribucin normal para que la nueva distribucin
normal tenga ahora medio 0 y desviacin estndar 1. A
esta nueva distribucin se le conoce con el nombre de
distribucin normal estndar, se simboliza mediante la

0.1

27

Figura 3-20. rea bajo la curva normal entre a y b.

Salud Pblica. Teora y prctica

z=

donde x es la variable original y z la nueva variable que


tiene ya una distribucin normal con media 0 y desviacin estndar 1.
Para ejemplificar el uso de la distribucin normal
estndar se toman los datos sobre la distribucin del ndice
de masa corporal (IMC) para una submuestra de la poblacin de adultos mexicanos tal como se encontr en la
ENSANut-2006. Segn la ENSANut-2006 para esta submuestra9 el IMC tiene media 28.19 y desviacin estndar
5.41. Si se asume por el momento que esta variable sigue
una distribucin normal, se puede responder a diversas
preguntas con slo unas operaciones muy sencillas.
Se puede preguntar, por ejemplo, cul la probabilidad de que una persona seleccionada al azar tenga
obesidad (IMC 30)? Para ello se necesita calcular el
valor de z que corresponde a 30 de la siguiente manera:
z=

x
30 - 28.19
=

5.41 = 0.33

Cul es la ventaja de saber que un IMC de 30 corresponde a un valor z de 0.33? En primer lugar, se sabe que
ese valor est a 0.33 desviaciones estndar por encima de
la media. Y en segundo lugar, se puede calcular el valor
de la probabilidad que le corresponde a z = 0.33, ya sea
mediante el uso de tablas,10 mediante el uso de algn
programa como Excel, o algn paquete estadstico.
En este caso se utiliz Excel, y al valor z = 0.33 le
corresponde una probabilidad de 0.37, es decir, existe 37%
de posibilidades de que la persona seleccionada tenga obesidad. O dicho de otro modo, que 37% de estos individuos
tendrn valores de IMC de 30 o ms. Se puede poner otro
ejemplo para clarificar un poco ms el uso de la distribucin
normal. La pregunta ahora es qu proporcin de personas
tienen un IMC que indique sobrepeso? es decir, que su IMC
est entre 25 y 29.9. Para poder calcular esta probabilidad
se necesita seguir una serie de pasos sencillos como se describe a continuacin.
Primero, se obtiene la probabilidad para el valor de
IMC = 29.9. El valor z asociado es de 0.32 y su probabilidad es 0.62.
Segundo, se obtiene el valor z para IMC = 25 que es 0.59, cuya probabilidad es 0.27.
9 La muestra fue generada por muestreo aleatorio simple y consta de
2 000 personas.
10

Dichas tablas pueden ser consultadas en la mayora de los textos


sobre estadstica o incluso a travs de Internet.

Tercero, y final, si hay 62% de personas por debajo de


un IMC = 29.9 y 27% por debajo de un IMC = 25,
qu porcentaje est entre 25 y 29.9
62 a 27% = 35% La respuesta es que la proporcin de personas de nuestra muestra que tienen sobrepeso es de 35%.
Es importante mencionar que, a pesar de su nombre
y fama distribucin normal, la mayor parte de las variables biolgicas, clnicas o epidemiolgicas no siguen una
distribucin normal, y sin embargo, la distribucin normal es una herramienta muy valiosa para la estadstica,
puesto que desempea una funcin primordial en el
campo de la inferencia estadstica. Como se ver en la
prxima seccin, la distribucin normal constituye la
base para hacer inferencia estadstica aun cuando se tengan variables que no se distribuyan de manera normal,
siempre y cuando se cumplan ciertos supuestos.
Se puede concluir este apartado con una idea que
ser de gran utilidad en lo que resta de este captulo. La
inferencia estadstica implica por lo general el inters
sobre algn parmetro o valor poblacional (en muchas
ocasiones el parmetro de inters es la media poblacional) no valores individuales tal y como se ha visto en los
ejemplos aqu citados. Por eso es que se necesita no slo
la distribucin de probabilidad asociada a las variables de
inters, sino la distribucin de probabilidad asociada a los
parmetros de inters (media, varianza, entre otros). A
esta clase de distribucin se le conoce como distribucin
muestral y es el tema de la siguiente seccin.

3. DISTRIBUCIN MUESTRAL
Hasta aqu se ha visto cmo la distribucin binomial y la
distribucin normal pueden ser utilizadas para determinar qu tan probable es que una variable tome un valor
en la poblacin de estudio. Otro tipo de distribucin que
es muy importante en el campo de la estadstica es la distribucin de muestreo. Una comprensin de los conceptos bsicos relacionados con la distribucin de muestreo
es esencial para entender los fundamentos de la estimacin estadstica y la prueba de hiptesis, conceptos
inmersos en el proceso de inferencia que permite generalizar los resultados obtenidos en una muestra hacia la
poblacin entera.
Como se ver ms adelante, cuatro caractersticas
fundamentales distinguen a una distribucin de muestreo. La primera se relaciona con el parmetro de inters:
media, varianza, proporcin, entre otros. Puesto que la
distribucin muestral de la media es la de uso ms
comn, ser la que se utilizar para explicar el concepto
de distribucin muestral. La segunda implica un procedimiento de seleccin aleatoria de la muestra. La tercera, y muy importante, tiene que ver con el tamao de la
muestra. Y la cuarta es la manera en que se especifica a
la poblacin de estudio.

3.1 Distribucin muestral de la media


Se toma como base para desarrollar este tema los datos
sobre el IMC en la ENSANut-2006. En total, los datos

manual moderno Fotocopiar sin autorizacin es un delito

letra Z y permite calcular las probabilidades mediante el


uso de operaciones sencillas (sumar, restar, multiplicar,
dividir) as como de tablas estandarizadas, programas
informticos o algn paquete estadstico.
La transformacin permite que cualquier valor represente la distancia a la media expresada como el nmero de
desviaciones estndar en que ese valor se aleja de la media.
Para ello se emplea la siguiente expresin:

(Captulo 3)

Editorial El

28

Conceptos bsicos en bioestadstica para el estudiante de medicina

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

para estimar el IMC en la ENSANut-2006 incluyen a 33


624 personas, de quienes se gener una muestra de 2 000
personas para desarrollar el ejemplo de la seccin anterior sobre la distribucin normal.
Qu sucedera si en lugar de haber generado una
sola muestra, se hubieran generado cinco muestras? Los
resultados de este proceso se presentan en el cuadro 3-8.
En este caso, lo que se informa en el rengln general no es ms la media de alguna muestra en particular,
sino la media de las cinco medias, y es producto, por
tanto, de una distribucin de muestreo de la media.
Mientras que el dato asociado a la desviacin estndar se
refiere a la desviacin estndar de la media de las cinco
medias. Es decir, que estos datos han sido generados no
a partir de datos individuales sino de datos muestrales.
Para ello ha sido necesario especificar:
1. La poblacin de estudio. En este caso, poblacin mexicana adulta (20 aos o ms).
2. Tipo de muestreo. De 33 624 personas de la
ENSANut-2006, se han seleccionada de manera aleatoria muestras de tamao 2 000.
3. El parmetro de inters es la media, aunque pudo
haber sido la desviacin estndar.
4. El tamao de la muestra seleccionado fue de 2 000,
aunque pudo haber sido cualquier otro nmero.
Del cuadro 3-8 es notorio que la variabilidad asociada a
la distribucin muestral es menor que la variabilidad
relacionada con las muestras particulares, ya que la desviacin estndar de la distribucin es de 0.38, menor que
cualquier desviacin estndar de cualquiera de las cinco
muestras. sta es una caracterstica que ser de gran utilidad en los procedimientos de inferencia expuestos ms
adelante.
Por otro lado, la distribucin muestral de la media
puede ser til, ya que permite calcular la probabilidad de
ocurrencia para determinados eventos de inters. Se
puede, por ejemplo, y slo con fines didcticos, preguntar cul es la probabilidad de que la media poblacional
de IMC sea menor de 28 con base en estos cinco valores
de la media? La respuesta sera 2/5 = 0.40.
Otra caracterstica fundamental de la distribucin
muestral de la media, es que conforme aumenta el
nmero de muestras analizadas la distribucin muestral
se aproxima de manera notable a la distribucin normal,
como se ilustra en la figura 3-21. Aunque esto de entrada parece slo un dato ms, implica un elemento indispensable para hacer inferencia estadstica, es decir, para
generalizar de los resultados de una muestra hacia la
poblacin de inters, ya que gran parte de la teora estaCuadro 3-8. Media y desviacin estndar del IMC para
cinco muestras (n = 2 000) ENSANut-2006
Muestra
Media
Desviacin estndar
1
2
3
4
5
General

28.91
28.17
28.32
27.99
27.98
28.27

5.41
5.24
5.39
5.10
5.23
0.38

29

dstica se basa en el hecho de que la distribucin muestral de la media siga una distribucin normal.
La pregunta ahora es se necesita generar en cada
anlisis estadstico la distribucin muestral de la media?
Sin duda sera una tarea laboriosa y tediosa que requerira adems, contar con todas las posibles muestras del
mismo tamao que se pueden generar de la poblacin de
estudio. Sin embargo no es necesario, ya que se puede
utilizar la teora estadstica para determinar la distribucin muestral de la media en cualquier situacin.
Para ello se parte de las propiedades de la distribucin muestral de la media, tal y como se expusieron
antes, ya que ellas son la base para uno de los ms importantes teoremas de la estadstica: el Teorema del lmite
central. Enseguida se presentan algunas de las caractersticas bsicas de este teorema.
El teorema del lmite central es una de las piezas centrales de la inferencia estadstica, ya que permite hacer
agravaciones acerca de la poblacin de estudio con
base en los resultados de una sola muestra11

Si se tiene una poblacin con media y desviacin


estndar , la distribucin muestral de la media, generada a travs de muestras de tamao n, tendr las siguientes caractersticas.
1. La media de la distribucin de muestreo, media de
medias, ser igual a la media poblacional , la cual se
basa en observaciones individuales.
2. La desviacin estndar de la distribucin muestral de la
media es igual a / n . Esta cantidad, la cual es conocida
como error estndar de la media (EE), desempea una
funcin fundamental en muchos de los procedimientos
relacionados con la inferencia estadstica, algunos de los
cuales se vern en la siguiente seccin.
3. Si la distribucin de la variable de inters sigue una
distribucin normal en la poblacin, entonces la distribucin de la media sigue tambin una distribucin
normal sin importar el tamao de la muestra. Pero
an ms importante, si se tiene un tamao de muestra
suficientemente grande, la distribucin de muestreo
de la media seguir una distribucin normal, a pesar
de que la variable de inters no la siga.
En conclusin, y con respecto a la distribucin muestral
de la media, en la prctica no es necesario seleccionar
varias o muchas muestras de tamao n y generar una distribucin muestral de la media. Basta con seleccionar
una sola muestra, calcular la media muestral, y si el
tamao de muestra es grande, hacer inferencias estadsticas vlidas a partir de los resultados del teorema del
lmite central.
De manera adicional, se puede agregar que la distribucin muestral de la media no es la nica distribucin
11 Siempre y cuando, claro est, la muestra cumpla con las caractersticas de una buena muestra en el sentido estadstico de la palabra.

30

Salud Pblica. Teora y prctica

(Captulo 3)

Muestras = 50, N = 2000

Muestras = 100, N = 2000

.09

.07

0
-.040

Media muestral

0
-.051

.052

Muestras = 500, N = 2000

Media muestral

.061

Muestras = 1000, N = 2000

.06

.05

0
-.071

Media muestral

.059

-.081

Media muestral

.074

Muestras = 5000, N = 2000


.06

.076

Figura 3-21. Distribucin muestral de la media para el IMC. Muestras de tamao: 50, 100, 500, 1 000, 2 000.

asociada a algn estimador. Existen distribuciones muestrales para otros estimadores tales como la varianza, la
desviacin estndar, la mediana, una proporcin, entre
otros. En cada caso, sin embargo, el inters es el mismo
cmo vara la estadstica de inters a travs de distintas
muestras del mismo tamao?
Y aunque la distribucin de muestreo de la media
sigue una distribucin normal, otras estadsticas no necesariamente siguen dicha distribucin. Por ejemplo, en
algunas situaciones particulares la distribucin muestral
de la media sigue una distribucin t, o la relacin entre
dos varianzas sigue una distribucin F. No obstante, una
propiedad comn de las distribuciones muestrales es que
tienen asociado un error estndar, y que la variacin de
la estadstica en su distribucin de muestreo ser llamado error estndar de la estadstica.

3.2 Aplicaciones de la distribucin muestral de la


media
Se utilizarn tres ejemplos para ilustrar el uso de la distribucin muestral de la media. Antes se debe recordar algunos
de los conceptos vistos hasta aqu. Como vimos es posible
transformar a una variable que siga una distribucin normal
con media y desviacin estndar , en otra variable que
siga una distribucin normal, pero ahora con media 0 y desviacin estndar 1. Esta nueva variable, a la que se llama Z,
se obtena al aplicar la expresin:
z=

Esta frmula se aplica cuando se tienen datos individuales, pero si se quiere aplicar a la media se debe utilizar los
resultados del teorema del lmite central, segn el cual la

manual moderno Fotocopiar sin autorizacin es un delito

Media muestral

Editorial El

0
-.083

Conceptos bsicos en bioestadstica para el estudiante de medicina

media de una distribucin muestral es todava , pero su


desviacin estndar no es , sino el error estndar de la
media, es decir, / n . Por lo tanto el valor estandarizado para la media de una distribucin muestral es ahora:
z=

donde

Razonamiento y respuesta
Ntese cmo ahora los datos se refieren a individuos y
no a muestras, por lo tanto se debe usar los datos obtenidos de la muestra de 500 personas. Es decir, para la presin arterial sistlica de 110:
Z=

equivale a la media de los datos muestrales.

Enseguida se presentan tres aplicaciones de la distribucin muestral de la media. Se sugiere que, antes de revisar la respuesta, se analice la informacin que se ofrece y
se plantee una posible solucin que, luego se compare
con la que los autores ofrecen. Es conveniente explicitar
el razonamiento que se sigui para llegar a la contestacin a que se llegue.
Ejercicio 3. Segn datos de la Encuesta de
Evaluacin del Seguro Popular llevada a cabo en siete
entidades federativas de Mxico en 2006, el valor promedio de la presin arterial sistlica para personas
mayores de 18 aos de edad que habitan en zonas
rurales es de 122.39 con desviacin estndar 17.63.
Suponiendo que se selecciona una muestra aleatoria
de 30 personas de esta poblacin y su presin arterial
sistlica promedio es de 118.7. Qu tan frecuente
debera una muestra de tamao 30 tener niveles promedio de presin arterial sistlica iguales o menores
de 118.7? O dicho de otro modo, si se tuvieran muestras repetidas de 30 personas Qu proporcin de
muestras tendran valores promedio igual o menores
de 118.7?

Razonamiento y respuesta

manual moderno Fotocopiar sin autorizacin es un delito


Editorial El

17.63
30

= 3.22

Z=

140 123.47
17.55

= 0.94

La probabilidad para z = -0.77 es de 0.22 y la de z = 0.94


es 0.83. Por lo tanto, 83 a 22% = 61% de los individuos
de esta muestra tendrn su presin arterial sistlica entre
110 y 140.
Ejercicio 5. Suponiendo que un grupo de investigadores deciden analizar slo a personas con problemas de
hipertensin para analizar el efecto de un medicamento
para el control de la presin arterial. Despus de algunas
consideraciones, los investigadores deciden que el medicamento ser eficaz si en 90% de las ocasiones la media
de la presin arterial sistlica en la muestra de pacientes
no excede 124 mm Hg. Recurdese que el valor de la
media de la presin arterial para esta poblacin es de 122
y su desviacin estndar 17.55. Cuntos pacientes son
necesarios para que 90% de las medias en las muestras
sea 124 mm Hg o menos?

Razonamiento y respuesta
La respuesta a esta pregunta requiere que n, el tamao
de muestra, sea determinado, de modo que slo 10% de
las medias muestrales est por arriba de = 122 por 2 o
ms unidades, es decir, 2. El valor de z para una
probabilidad de 0.10 o ms es de 1.28. Utilizando este
valor se puede emplear la expresin para el valor estandarizado de la media de una distribucin muestral:
X

1.28 =

124 122
2 x n
17.55 = 17.55
n

(1.28) (17.55)
= n o n = 11.23,
2
n = 11.232 = 116.23

Por lo que se tiene:


Z=

= 0.77

mientras que para el valor de 140 se tiene:

z=
EE =

110 123.47
17.55

Se sabe que la poblacin de la cual se extrajo esta muestra tiene media 122.39, y se puede calcular el error
estndar de la media puesto que se conoce el valor de la
desviacin estndar poblacional, en este caso:

31

118.7 122.39
= 1.15
17.63
30

Utilizando Excel o algn paquete estadstico, se sabe que


el valor de z = -1.15 tiene una probabilidad asociada de
0.125. Esto quiere decir que 12.5% de las muestras con
n = 30 tendrn una media en la presin arterial sistlica
igual o menor a 118.7.
Ejercicio 4. De los mismos datos del Seguro
Popular, se toman ahora una muestra de 500 personas. La media de presin arterial sistlica es de
123.47 y su desviacin estndar 17.55. Qu proporcin de individuos tendrn valores de su presin
entre 110 y 140?

entonces,

Esto significa que una muestra aleatoria de 116 personas


(aproximadamente) es necesaria para que en una distribucin muestral de la media no ms de 10% de las muestras tengan un valor promedio de la presin arterial sistlica por encima de 124 mm Hg.

4. ESTIMACIN, INTERVALOS DE
CONFIANZA Y PRUEBA DE HIPTESIS
Una de las caractersticas de las poblaciones humanas es
la diversidad entre ellas. As, si se toman muestras de
estas poblaciones se encontra que son distintas en

Salud Pblica. Teora y prctica

Los estudios dentro del rea mdica y epidemiolgica son en general empricos y sus resultados forman la
base para tomar decisiones que, si bien son producto de
una muestra particular de sujetos, pretenden ser aplicables a toda una poblacin definida de antemano. En este
contexto, la estadstica permite que tales conclusiones
sean vlidas al evaluar la magnitud esperada de la variabilidad de una distribucin de muestreo a partir de slo
una muestra.
Cuando se tiene una muestra con regularidad se
quiere hacer inferencias vlidas hacia algn parmetro
de la poblacin de estudio tal como una proporcin o
como una media . De manera general, tres clases de
inferencia son hechas acerca de estos parmetros.
a) Con base en la informacin obtenida de la muestra se
puede determinar el valor especfico del parmetro
poblacional ( o ). Esto es conocido como estimacin puntual.
b) Los valores obtenidos en la muestra sugieren que el
valor probable del parmetro poblacional est dentro
de un rango de valores (a, b). Ambos, a y b, pueden ser
determinados con base en la muestra, y el rango (a, b)
es llamado intervalo de confianza.
c) Si se tienen dos muestras se puede determinar si
ambas provienen de la misma poblacin o si esencialmente se trata de poblaciones distintas. A este proceso se le conoce como prueba de hiptesis.
En esta seccin se abordarn estos tres conceptos para
mostrar, de manera simple, el curso que normalmente
sigue el proceso de inferencia estadstica. Se empezar

4.1 Conceptos bsicos sobre estimacin


Como se ha visto en las secciones previas, estudiar y
obtener conclusiones para toda una poblacin suele ser
complicado, sino es que hasta imposible. Tambin hemos
recalcado que el uso de una muestra puede permitirnos
obtener conclusiones vlidas de la poblacin que nos
interesa estudiar. En la seccin de distribuciones de probabilidad se present la diferencia entre un estimador y
un parmetro, indicando que un estimador pretende
aproximarse, sino que igualar, el valor del parmetro. En
este ltimo sentido, una estimacin representa un proceso de bsqueda para obtener el valor que puede tener un
determinado parmetro asociado a una determinada
poblacin, as como un intento para obtener un rango de
valores entre los que puede estar el parmetro poblacional, es decir, el intervalo de confianza. Ambas estimaciones, puntual y por intervalo, se obtienen a partir de datos
muestrales, como: la media muestral ( ), la proporcin
muestral (p), la varianza muestral (s2), entre otros
La estimacin puntual nos proporciona un valor aproximado del parmetro (desconocido) poblacional, aunque
no especifica qu tan buena es esa aproximacin. Si se
tiene una muestra y se afirma, por ejemplo, que 4% de
una poblacin padece de artritis, estamos haciendo una
estimacin puntual de la prevalencia de artritis.

El intervalo de confianza, por otro lado, nos proporciona un rango de valores entre los cuales se espera se
encuentre el verdadero valor del parmetro, acompaado de una medida de incertidumbre acerca de que
dicha afirmacin sea cierta. Tpicamente se suelen hacer
afirmaciones del tipo con un 95% de confianza se
puede afirmar que la prevalencia de diabetes mellitus se
encuentre entre7.2% y 7.8%.... Ms adelante se vern
algunos ejemplos al respecto y su interpretacin.
La teora estadstica ha desarrollado toda una serie
de criterios para determinar cundo un estimador es
mejor que otro, en trminos estadsticos por supuesto, y
cules son esas caractersticas o propiedades deseables
que debera de tener un estimador. En trminos estadsticos un estimador debe ser:
En trminos muy generales, las propiedades de los estimadores definen qu tan bueno, en sentido estadstico, es un estimador en particular.

Insesgado. Se dice que un estimador es insesgado


cuando su valor promedio coincide con el valor del
parmetro y no exhibe alguna desviacin sistemtica.
Eficiente. Puede haber varios estimadores que tengan

manual moderno Fotocopiar sin autorizacin es un delito

En trminos concretos, se puede decir que diferentes


muestras tienden a producir resultados diferentes. Uno
de los principales objetivos de la estadstica es estudiar
estas variaciones entre las muestras de manera que se
puedan hacer conclusiones vlidas para la poblacin de
estudio a partir de los resultados obtenidos de slo una
muestra.

por una descripcin breve del concepto de estimacin.


Despus, en dos secciones separadas, se presenta la estimacin puntual y por intervalo para una proporcin, primero, y para una media, despus. Al final, se exponen las
principales ideas relacionadas con las pruebas de hiptesis, y se ejemplifican mediante el uso de comparacin de
medias.

Editorial El

muchas de sus caractersticas biolgicas, clnicas, sociales,


culturales e histricas. Pero esta diversidad va ms all,
puesto que si se toman muestras de una misma poblacin es muy probable que stas difieran entre s, ya que
estn compuestas por distintos individuos, y los individuos son distintos entre s.
Es probable, por ejemplo, que si se prueba la eficacia
de una nueva tcnica quirrgica en cinco muestras de 10
pacientes cada una, se encuentran distintas proporciones
de xito en cada una de ellas, por decir algo, 60, 70, 80,
50, y 90% de manera respectiva. O de manera similar,
que la reduccin en las concentraciones promedio de
hemoglobina glucosilada, parmetro bioqumico que
mide el grado de control metablico, en una primera
muestra de 20 pacientes diabticos sea de 1.5 puntos
porcentuales, mientras que en una segunda muestra sea
de 2.4 unidades, y que un tercera sea de 0.67 puntos,
despus de haber aplicado una intervencin clnica para
el control de la diabetes.

(Captulo 3)

32

Conceptos bsicos en bioestadstica para el estudiante de medicina

un valor numrico similar y que sean insesgados, pero


el mejor ser el que tenga la varianza ms pequea
(mnima varianza), es decir, aquel que haga la estimacin con mayor precisin.
Suficiente. Un buen estimador es el que utiliza toda la
informacin disponible en los datos muestrales.
La misma teora estadstica ha desarrollado estimadores
que cumplen con estas propiedades, muchos de ellos son
los que se utilizan en los libros de estadstica o en los
programas estadsticos para computadora. De hecho los
que se presentan a continuacin son de esta clase de estimadores. Sin embargo, la investigacin en este campo
genera cada da nuevo conocimiento acerca de diferentes
estimadores y sus propiedades.
Para calcular los intervalos de confianza se utiliza de
manera intensiva un concepto que ya se present con
anterioridad: el error estndar. Entre otras cosas, el error
estndar nos da una estimacin del grado de incertidumbre respecto a la capacidad de un estimador para aproximarse al parmetro poblacional.
Por ejemplo, se tienen los datos sobre el peso (kg) en
una muestra aleatoria de 100 personas y la desviacin
estndar es 14 kg, el error estndar de la media ser:

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

EE =

14
100

= 1.4

Esto significa que en muestras repetidas de tamao 100,


siguiendo una distribucin normal, la desviacin estndar sera de 1.4 kg. Este mismo proceso se puede aplicar
para la distribucin muestral de otros estimadores: proporciones, varianzas, diferencias de medias, diferencias
de proporciones, entre otros.
Para calcular un intervalo de confianza existe una
expresin general que puede ser aplicada para la mayora
de los casos, y en la que estn involucrados tanto el estimador, el error estndar, as como una medida de confianza expresada a travs de la probabilidad asociada a un
valor z. Es importante recordar que este ltimo valor se
obtiene siguiendo el supuesto de que la distribucin
muestral del estimador se aproxima a una distribucin
normal cuando el tamao de muestra n es grande, es decir,
a partir de la aplicacin del teorema del lmite central.
Estimador z/2 x EEestimador

En esta expresin, el estimador se obtiene a partir de los


datos muestrales y mediante las frmulas ya conocidas
para una media, proporcin, entre otros. El error estndar, como se ver en los ejemplos, depender del estimador y existen tambin expresiones para ellos. El caso de
z merece una explicacin ms detallada.
El valor z, una vez transformado, representa la probabilidad de ocurrencia del intervalo de confianza. Es
decir, indica la proporcin de casos (muestras) que contendrn al parmetro poblacional. Para entender mejor
esta idea, est el ejemplo citado previamente sobre la
prevalencia de diabetes y su intervalo de confianza
(7.27.8). En ese sentido la frase con un 95% de con-

33

fianza se puede afirmar que la prevalencia de diabetes se


encuentra entra 7.2% y 7.8%... significa que si se repite,
por ejemplo, 100 veces el experimento, con 100 muestras distintas, para determinar esta prevalencia, 95% de
los intervalos construidos a partir de las muestras contendrn el valor del parmetro poblacional. De ah, que 5%
los intervalos construidos a partir de las muestras, no se
encontrar el parmetro. A este 5% por lo comn se le
considera una medida del error en la estimacin del
parmetro, y representa la magnitud del nmero de
veces en que se estara dispuesto a equivocar. Por convencin se considera que tasas de error del 1, 5 o hasta
10% son aceptables. Esta cantidad est expresada
mediante el smbolo , y de l se desprende tambin el
valor de z que deber ser utilizado para calcular cualquier intervalo de confianza. En los siguientes dos apartados se ilustra el uso de estos conceptos aplicados en el
caso de una proporcin y en el de una media.

4.2 Estimacin de una proporcin


La Encuesta Nacional de Evaluacin del Desempeo
(ENED-2002) encontr que la prevalencia de artritis en
Mxico, definida por el autoinforme de contar con diagnstico mdico en personas mayores de 18 aos, fue de 4.45%.
Es decir, que la proporcin de personas con artritis es de
0.045. En esta encuesta se cont con la informacin de 38
746 personas. Se utilizar una muestra de esta encuesta
(500 observaciones) para ejemplificar la estimacin de un
intervalo de confianza para una proporcin.
La distribucin binomial introducida antes es la adecuada para estimar intervalos de confianza para una proporcin. En la seccin procedente se apunta que cuando
una proporcin se aproxima a 0.5 o cuando el tamao de
muestra n es grande, la distribucin binomial se aproxima a una distribucin normal. Esto implica que se puede
utilizar esta aproximacin para estimar el intervalo de
confianza, aunque no quiere decir que sea la nica forma
de calcularlo, slo que por razones de espacio y con fines
de claridad en la presentacin se har de esta forma.
Como se recordar, para utilizar la distribucin muestral
de un estimador se necesita conocer su media y su error
estndar. En el caso de una proporcin la media es la proporcin en s misma (simbolizada como para la poblacin y
como p para la muestra), y el error estndar resulta de dividir la desviacin estndar entre la raz cuadrada del tamao
de muestra n. Para una proporcin, la desviacin estndar
est definida como p (1-p), donde p es la proporcin muestral, por lo que el error estndar de la proporcin (EEp) ser:
EEp =

p(1 - p)
n

Y el intervalo de confianza a 95% para el valor del parmetro poblacional de la proporcin es:
p 1.96 x

p(1 - p)
n

De dnde viene el valor de 1.96 de esta expresin? Es


el valor z asociado a una probabilidad de 95% para una

Salud Pblica. Teora y prctica

(Captulo 3)

p=

22
= 0.044
500

y el intervalo de confianza de 95% para esta proporcin es:


p 1.96 x

p(1 - p)
n

0.011 1.96 x
0.044 0.018
0.026, 0.062

(0.044)(0.956)
500

De aqu se sigue que el intervalo de confianza de 95%


para la proporcin de personas con diagnstico de artritis va
de 0.026 a 0.062, y que se espera que el valor del parmetro para esta proporcin est entre estos dos valores.
Una caracterstica bsica del intervalo de confianza
es que depende de forma directa del tamao de muestra.
Veamos, por ejemplo, lo que sucede si se calcula el intervalo utilizando todas las observaciones que contiene la
ENED (38 746). La proporcin es de 0.044, pero el
intervalo de confianza a 95% es 0.042 a 0.046. Como se
puede apreciar es ms preciso que el intervalo anterior, y
esto se debe a que se tiene un tamao de muestra grande, de hecho mucho ms grande. En general, y aunque
no es una condicin necesaria ni suficiente, un tamao
de muestra grande tiende a generar estimadores (puntuales y por intervalo) ms precisos. Aunque, por otro lado,
si el estimador es sesgado, no importa qu grande sea el
tamao de muestra, el sesgo no ser eliminado.

4.3 Estimacin de una media


Al igual que en el caso de la proporcin, la estimacin
del intervalo de confianza para la media depende del
tamao de muestra, y puede plantearse de una manera la
construccin del intervalo cuando al muestra es pequea, y otra cuando la muestra es grande, siendo este ltimo el procedimiento que se sigue para ejemplificar la
estimacin por intervalo para una media.

que el intervalo de confianza para la media de ingestin


de kcal es:
X 1.96 x

310
1383 1.96 x
140
1383 26
1331, 1435

La interpretacin es en esencia la misma. Se espera, con


95% de confianza, que este intervalo sea uno de los que
contiene al parmetro poblacional, o en otras palabras, se
espera que la ingestin promedio de kcal en nios menores de dos aos est entre 1 331 y 1 435.
Se mencion antes que los intervalos de confianza
dependen del tamao de muestra. De igual manera, los
intervalos dependen del nivel de confianza especificado,
en el sentido de que conforme aumenta el nivel de confianza el intervalo se vuelve ms amplio, lo que implica
un mayor grado de incertidumbre. En la figura 3-22 se
ilustra este concepto.

4.4 Prueba de hiptesis


Los pacientes con trasplante de hgado son tratados, en
general, con medicamentos para suprimir sus sistemas
inmunes y prevenir as el rechazo del nuevo hgado. Una
de las complicaciones asociadas a una terapia de largo
plazo de inmunosupresin con inhibidores de los calcineurnicos (IC) es la disfuncin renal. Suponiendo que se
ha desarrollado un tratamiento alternativo, el cual consiste en la eliminacin del tratamiento de los inhibidores
de los calcineurnicos y su reemplazo por una terapia con
micofenolato mofetil (MMF). Si se quisiera comparar la
eficacia de ambos tratamientos sobre las concentraciones
de creatinina srica, un indicador de la funcin renal, se
puede disear un ensayo clnico (controlado y aleatorizado), en el cual se formaran dos grupos. Al primero se le
tratara con los inhibidores de los calcineurnicos y al
otro con el micofenolato mofetil. Despus de la aplicacin de ambos tratamientos se puede probar si las concentraciones promedio de creatinina son distintas entre
los dos grupos o si, incluso, han disminuido con el tratamiento de micofenolato mofetil. De manera adicional
podra ser de inters contrastar la proporcin de pacien-

El proceso para estimar un intervalo de confianza para la


media es en esencia el mismo que se utiliz para una
proporcin. Y de hecho, es el mismo para la generalidad
de los casos.

Suponiendo que se desea estimar la ingestin diaria


promedio de kilocaloras en una poblacin de nios
menores de dos aos, y para ello se dispone de los datos
de una muestra de 140 nios. La media de estos datos es
1 383 kcal y su desviacin estndar 310 kcal. Como se
anot antes el error estndar de la media es / n, de ah
12 En general estos valores no es necesario buscarlos en tablas o calcularlos en algn programa estadstico, ya que son conocidos por su frecuente utilizacin. As, por ejemplo, el valor z para un intervalo de confianza de 95% es de 1.96, y para un intervalo de 90% es de 1.645.

Ingesta promedio kcal

1500
1450
1400
1350
1300
1250
80

85

90
95
Intervalos de confianza (%)

99

Figura 3-22. Intervalos de confianza 80, 85, 90, 95 y 99% para la


ingestin diaria promedio de kcal en una muestra de 140 nios
menores de dos aos de edad.

manual moderno Fotocopiar sin autorizacin es un delito

distribucin normal, y por ende a un valor de /2.28


Para el ejemplo, se gener una muestra aleatoria simple de 500 observaciones a partir de los datos de la
ENED-2002. De las 500 personas, 22 informaron que les
haban diagnosticado artritis, por lo que el estimador de
la proporcin de artritis es:

Editorial El

34

Conceptos bsicos en bioestadstica para el estudiante de medicina

tes que desarrollan insuficiencia renal en cada grupo de


tratamiento.
En trminos estadsticos a este procedimiento se le
denomina prueba de hiptesis para dos medias. Para
llevarlo a cabo se necesitara seguir un esquema como el
siguiente.
a) Formular la hiptesis nula. Como su nombre lo indica, la hiptesis nula plantea la nulidad de diferencias
y parte de la idea a priori de que no habr diferencias
entre los tratamientos. Con regularidad puede expresarse de la siguiente manera al final del estudio las
concentraciones promedio de creatinina sern las mismas para ambos tratamientos. Si se representa a la
hiptesis nula mediante el smbolo H0, al tratamiento
con IC como A y al tratamiento con MMF como B, se
puede representarla la hiptesis de manera simblica
como:

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

H 0 : A = B
Con esto se quiere decir, que las concentraciones promedio de creatinina sern iguales entre ambos grupos. O
de manera alternativa que la diferencia ser igual a 0.
b) Comparar el resultado propuesto por la hiptesis
nula con los resultados obtenidos segn los datos de
nuestra muestra de pacientes.
Suponiendo que se ha incluido en el estudio a 60
pacientes, de los cuales la mitad reciben IC y la otra
mitad MMF. Al final del estudio se encuentra que las
concentraciones de creatinina han disminuido, en promedio, 44 mmol/L en los pacientes tratados con MMF
mientras que en los pacientes tratados con IC la disminucin ha sido de 3 mmol/L. Una diferencia promedio de 41 micromol/L. Si la hiptesis nula fuera
cierta, la diferencia promedio entre ambos tratamientos debera ser 0, pero en los datos es de 41. La pregunta es esta diferencia se debe al azar o es resultado
del tratamiento con MMF?
c) Calcular la probabilidad de ocurrencia de los resultados, o un resultado an ms extremo, bajo el supuesto de que la hiptesis nula es cierta. Si la diferencia
que se encontr se debiera al azar qu tan probable
sera hallar una diferencia de 41 mmol/L o una diferencia an ms grande? Para responder a esta pregunta, en el mbito de la estadstica se recurre con regularidad a la construccin de un cociente entre el efecto observado y el error aleatorio de esa diferencia.
Dicho error sera el producto de la variacin propia
asociada a la muestra de estudio. El cociente13 se
expresara como sigue:
efecto
diferencia observada
=
azar
error

Esta expresin representa la aproximacin general


para hacer pruebas de hiptesis. Lo que esta divisin
13 En trminos ms formales, a este cociente se le denomina estadstico de prueba.

35

expresa, en trminos muy sencillos, es una comparacin entre la diferencia de lo que hemos observado y
lo que se esperara es si la hiptesis nula fuera cierta.
En el ejemplo la diferencia observada es 41 mmol/L y
se debera ponerlo en el numerador, qu se debera
poner en el denominador? Una expresin del error
aleatorio (es decir, de que la diferencia observada se
debe slo al azar). En trminos generales una expresin de este error est dada por el error estndar de la
diferencia observada. Despus de esto, lo que dice la
teora estadstica, es que dicho cociente se aproxima a
una distribucin de probabilidad especfica si la hiptesis nula es cierta. Y de manera particular, que en
muchos casos es la distribucin normal. De hecho, los
valores resultantes de este cociente son de forma
directa comparables con los valores de una distribucin normal estndar (z).
Volviendo al ejemplo, se tiene ahora una cantidad que
permite estimar la probabilidad de observar una diferencia de 41 o una an ms extrema. Como se inform en la seccin pasada, para cada valor de z en particular existe una probabilidad correspondiente. En el
contexto de las pruebas de hiptesis a esta probabilidad se le conoce como valor p (p value). Pero para
poder calcular esta probabilidad primero se necesita
saber cul es el valor del error estndar que le corresponde a la diferencia de medias que se encuentra. Para
los datos del ejemplo el error estndar30 es EE =
16.54. De modo que el valor del cociente o estadstico de prueba es:
Diferencia observada
41
=
EE
16.54

= 2.48

De modo que en este caso z = 2.48. La probabilidad asociada a este valor z es aquella que se encuentra a la derecha de z = 2.48 en el rea bajo la curva de la distribucin
normal. Esta probabilidad vale p = 0.006 para una prueba de dos colas o p = 0.003 para una prueba de una cola.
Ms adelante se explica la diferencia entre una prueba de
una cola y de dos colas, pero en este caso se quedan slo
los resultados de una prueba de una cola.
En la figura 3-23 se presenta lo que sucedera si la
hiptesis nula fuera cierta y servir asimismo para
explicar con detalle los resultados que se han obtenido. Como se recordar, la hiptesis nula del ejemplo
sostiene que la diferencia entre tratamientos es 0. Si la
diferencia de medias se distribuye normalmente31, los
valores en torno al 0 sern los ms frecuentes, suponiendo que H0 fuera cierta, y los valores lejanos de 0
sern poco probables.
Como se ilustra en la figura 3-23, la probabilidad asociada al valor z hallado es de 0.003, es decir, que la
probabilidad de haber encontrado una diferencia
entre los tratamientos, suponiendo que la hiptesis
nula es cierta, es muy baja. Los resultados que se han
encontrado son muy poco compatibles con los resultados que se hubieran generado en dado que caso que
H0 fuera cierta.
d) Determinar si se rechaza o no la hiptesis nula. El
proceso de prueba de hiptesis no termina cuando se

36

Salud Pblica. Teora y prctica

(Captulo 3)

bilidad de que H0 sea cierta. Sin embargo, no es posible


calcular la probabilidad de que H0 sea cierta, ya que se
debera partir del hecho de que lo es, cuando en realidad
se parte del hecho contrario.
Al final el proceso de prueba de hiptesis involucra
dos conceptos clave.

-2

-1

= 2.48

Figura 3-23. Interpretacin del valor p.

ha obtenido un valor p, ya que ste slo da la probabilidad de encontrar nuestros resultados, o algn resultado
ms extremo, bajo el supuesto de que la hiptesis nula es
cierta. Se puede, de manera descriptiva y sencilla, adelantar algunas ideas. Si el valor p es muy bajo, nos indica que
sera muy raro haber llegado a los resultados si H0 fuera
cierta, y se puede entonces rechazarla. Por el contrario, si
el valor p es alto, se puede pensar, en principio, que no se
tienen argumentos suficientes en contra de H0 y entonces no se podr rechazar de forma directa.
Aunque dicho as, no se tiene un criterio bien definido
para rechazar o no la hiptesis nula. Por esa razn se han
establecido criterios14 que intentan definir cundo
rechazar la hiptesis nula. En general, se ha utilizado, por
convencin, un valor p menor de 0.05 (p < 0.05) como
criterio para rechazar la hiptesis nula. En los informes
de estudios cientficos, clnicos y epidemiolgicos, se
pueden hallar multitud de ejemplos en los que se hace
uso de este criterio. Sin embargo, no se debe olvidar que
la interpretacin correcta del valor p reside en que se
trata de una probabilidad condicional. La condicin es
que H0 sea cierta. Una vez ms, el valor p representa la
probabilidad de observar nuestros resultados (o unos
ms extremos) si H0 fuera cierta
Existen muchas formas equivocadas al interpretar el
valor p, aqu se sealar la ms comn, y quiz la ms
grave, la cual consiste en creer que el valor p es la proba14

Es necesario aclarar que estos criterios son en cierto modo subjetivo,


y ms que nada una mera aproximacin.

El procedimiento de prueba de hiptesis aqu descrito


ilustra con claridad el concepto de inferencia estadstica,
ya que esta ltima representa el conjunto de tcnicas
estadsticas que permiten llegar a conclusiones sobre una
poblacin a partir de una muestra de dicha poblacin. En
este sentido, y a manera de recapitulacin, uno de los
objetivos de las tcnicas de inferencia estadstica es contrastar (esto es, decidir o evaluar), dos hiptesis acerca
del parmetro de inters. Estas dos hiptesis son la hiptesis nula (H0) y la hiptesis alterna (Ha).
Se ha mencionado que, en principio, se busca rechazar H0, aunque tambin se ha afirmado que esta decisin
no siempre es sencilla, ya que parte de la interpretacin
correcta del valor p. Aun as, en este proceso de decisin
se puede cometer dos tipos de error. Se puede rechazar
la hiptesis nula, siendo esa hiptesis la verdadera (error
tipo I), o bien no rechazar la hiptesis nula cuando en
realidad es falsa (error tipo II). La probabilidad complementaria del error tipo II (1 ) es llamado poder de la
prueba. En el cuadro 3-9 se presenta de manera esquemtica este proceso de decisin.
En el ejemplo que se utiliz sobre pacientes tratados
con IC y MMF, se recurri una prueba de hiptesis de
una cola. Esto fue as, porque se asumi que el tratamiento con MMF tendra un mayor efecto que el tratamiento con IC. Para explicar mejor esta idea, se comenzar desde el planteamiento de la hiptesis nula.
Como se recordar la H0 era que la diferencia entre
ambos tratamientos (IC y MMF) es cero. De hecho, y en
trminos correctos, se plantea que el efecto sobre las
concentraciones promedio de creatinina es el mismo
para ambos tratamientos. Con respecto a esta hiptesis
nula se pueden plantear, al menos, tres hiptesis alternas,
aunque al final haya que quedarse con una sola.

Cuadro 3-9. Proceso de decisin para la prueba de hiptesis


Ho es verdadera

Realidad
Ha es verdadera

No se rechaza Ho

No se rechaza H0 y H0 no es falsa. Decisin


correcta. Probabilidad = 1-

No se rechaza H0 pero H0 es falsa. Decisin


incorrecta. Probabilidad = . Error tipo II

Se rechaza Ho

Se rechaza H0 pero H0 no es falsa. Decisin


incorrecta. Probabilidad . Error tipo I

Se rechaza H0 y H0 es falsa. Decisin correcta.


Probabilidad = 1- (poder la prueba)

Decisin

manual moderno Fotocopiar sin autorizacin es un delito

-3

Editorial El

Si H0 fuera cierta,
p =0.003 de hallar este
resultado o uno ms
extremo

1. Hiptesis nula (H0). Hiptesis que se pone a prueba


tratando, en general, de rechazarla mediante una
prueba estadstica. En el contexto de los ensayos clnicos, la hiptesis nula mantiene que no existen diferencias entre tratamientos, y que las diferencias observadas se deben al azar (por variacin aleatoria o error de
muestreo) y no al efecto del tratamiento.
2. Hiptesis alterna (Ha). Hiptesis que se aceptar (provisionalmente) si se rechaza H0.

Editorial El

manual moderno Fotocopiar sin autorizacin es un delito

Conceptos bsicos en bioestadstica para el estudiante de medicina

37

1. El efecto sobre las concentraciones promedio de creatinina es distinto entre ambos tratamientos.
2. El efecto sobre las concentraciones promedio de creatinina es mayor para el tratamiento con MMF que con
el tratamiento con IC.
3. El efecto sobre las concentraciones promedio de creatinina es mayor para el tratamiento con IC que con el
tratamiento con MMF.

Tambin es importante agregar que los procedimientos estadsticos que se han expuesto a lo largo de
este captulo estn ntimamente relacionados. Por ejemplo, en los artculos cientficos del rea clnica o epidemiolgica, con regularidad se informan de manera conjunta los resultados de una prueba de hiptesis, valor p,
con su respectivo intervalo de confianza, as como con el
estimador puntual de inters.

En el caso del inciso 1, la Ha afirma que los tratamientos


son distintos, no dice que haya un tratamiento mejor que
el otro, slo que son diferentes. En este sentido, la prueba es bilateral, ya que plantea ambas posibilidades de
ocurrencia (IC > MMF o MMF > IF), y en trminos estadsticos de la distribucin normal se dice que es una
prueba de dos colas.
Para los incisos 2 y 3, la Ha plantea que uno de los
tratamientos es mejor el otro (ya sea IC o MMF), pero
excluye la posibilidad de ocurrencia de su complemento,
y en ese sentido es una prueba unilateral, y por tanto
una prueba de una cola.
Para el ejemplo, la Ha es unilateral, o de una cola,
porque afirma que el efecto del tratamiento con MMF es
superior al tratamiento con IC. Cundo se deben usar
pruebas de una cola y cundo pruebas de dos colas? La
respuesta no es sencilla, pero en general debern plantearse pruebas de una cola cuando se tenga el suficiente
conocimiento acerca del fenmeno o tema que se est
estudiando, as como de las evidencias de estudios previos. Mientras que una hiptesis de dos colas deber utilizarse si se trata de estudios en los que no es posible adelantar un resultado, ya sea por la falta de evidencia anterior o porque no se cuenta con la informacin suficiente
para justificar una prueba unilateral.
En otras palabras, la diferencia radica en que cuando se
hace una prueba de una cola se tiene informacin que permite establecer la direccin de la prueba de hiptesis, se
anticipa con anterioridad, la magnitud y la direccin o el
signo de la diferencia. Por ejemplo, cuando se pone a prueba un nuevo tratamiento es poco probable que se acepte un
tratamiento que pueda ser inferior al tratamiento utilizado,
as las hiptesis sera de una sola cola. Esto aplica al ejemplo en cuestin con el tratamiento de MMF. Mientras que
si lo que se quiere es comparar poblaciones en trminos de
una prevalencia de enfermedad, la prueba puede ser de dos
colas, ya que no se sabe con anterioridad los resultados que
se esperan. Por ejemplo, al comparar la prevalencia de artritis reumatoide por nivel socioeconmico (alto y bajo), se
podra pensar en una prueba de dos colas.
Hasta aqu se ha descrito el proceso que se sigue en una
prueba de hiptesis en el entorno de la inferencia estadstica, es decir, en el sentido de que se desea generalizar los
resultados obtenidos en una muestra particular hacia la
poblacin de estudio, de la cual ha sido extrada esta muestra. Para ello se ha utilizado un ejemplo en el que se comparan dos medias; sin embargo, esto no quiere decir que sea
la nica clase de prueba de hiptesis, ya que existen pruebas de hiptesis para una gran variedad de parmetros
(medias, medianas, varianzas, diferencia de dos medias, diferencias de tres o ms medias, entre otros).

IV. Consideraciones finales


Vale la pena recalcar que los conceptos y procedimientos
expuestos en este captulo ilustran, de manera simple,
cmo es que los estudios mdicos y epidemiolgicos pueden utilizar las herramientas que ofrecen tanto la probabilidad como la estadstica, para resumir grandes cantidades
de informacin, para analizar los resultados de sus investigaciones y para obtener conclusiones que sean tiles y
valederas no slo para los individuos o pacientes que
incluye su muestra, sino para que apliquen tambin a la
poblacin de la cual fue obtenida la muestra.
Para concluir esta seccin, se mencionar qu tanto
los procedimientos descriptivos del captulo anterior
como los procedimientos inferenciales de este captulo
son tiles para desarrollar el anlisis estadstico de los
datos generados a partir de los estudios mdicos o epidemiolgicos. Sin embargo, se debe subrayar que lo expuesto aqu es slo un conjunto de herramientas bsicas, cuyo
propsito ha sido introducir los elementos mnimos para
que el estudiante de medicina comprenda la lgica del
anlisis estadstico, as como para que pueda interpretar
de manera adecuada los resultados estadsticos que se
presentan en los artculos cientficos. Por esta misma
razn, la informacin que se presenta aqu debe ser complementada con la revisin de textos ms especializados
sobre estadstica en general, o sobre bioestadstica en
particular.

V. Ejercicios adicionales
En los ltimos aos se han desarrollado distintas herramientas de apoyo computacional para mejorar el proceso de enseanza y entendimiento de los diversos conceptos estadsticos tanto a nivel bsico como aplicado. Entre
estas herramientas se tienen los llamados applets que, en
tanto que programas interactivos, pueden ser utilizados
para visualizar y comprender conceptos estadsticos de
una manera didctica y amable.
En este sentido se recomienda, como actividad adicional y como complemento a los temas presentados en
esta seccin, la visita y uso a los siguientes sitios en los
que se han desarrollado un conjunto de applets para
ejemplificar muchos de los conceptos estadsticos presentados en este apartado.
http://lstat.kuleuven.be/java/
http://www.ruf.rice.edu/~lane/stat_sim/
http://wise.cgu.edu/
http://www.bbn-school.org/us/math/ap_stats/applets/applets.html
http://www.stat.sc.edu/~west/javahtml

38

Salud Pblica. Teora y prctica

(Captulo 3)

BIBLIOGRAFA
Dawson SB, Trapo R: Basic & Clinical Biostatistics. 4th Edition.
Appleton & Lange 2004.
Martnez GMA: Bioestadstica Amigable. Daz de Santos 2001.
Pagano M. & Gauvreau K. Principles of Biostatistics. 2nd Edition.
Duxbury 2000.
Olaiz FG, Rivera DJ, Shamah LT et al.: Encuesta Nacional de

Salud y Nutricin 2006. Cuernavaca, Mxico: Instituto


Nacional de Salud Pblica 2006.
Daniel WW: Bioestadstica. Base para el anlisis de las ciencias
de la salud. Mxico: LIMUSA 2004.
Rosner B: Fundamentals of Biostatistics. 5th Edition. Belmont,
CA: Duxbury Press 2000.

Muestra. Subconjunto de elementos o individuos de una


poblacin.
Muestra probabilstica. Es un subconjunto de elementos
de una poblacin que se selecciona con algn criterio
de azar y en donde todos los elementos tienen una
probabilidad conocida de ser seleccionados.
Muestra representativa. Subconjunto de elementos de una
poblacin que refleja las principales caractersticas y
comportamientos que presenta la poblacin objetivo.
Parmetros. Son valores que describen en forma global
las caractersticas relevantes de una poblacin.
Poblacin. Conjunto completo de objetos o individuos
que comparten una caracterstica medible.
Probabilidad. Frecuencia relativa de ocurrencia de una
situacin en un gran nmero de casos.
Prueba de hiptesis. Es una metodologa estadstica para
evaluar si una aseveracin sobre la poblacin de estudio es compatible con lo observado en una muestra de
dicha poblacin.
Rango. Es la diferencia entre el valor mximo y el valor
mnimo de la muestra.
Variable aleatoria. Es una cantidad o caracterstica que
puede tomar diferentes valores cuando se mide en un
conjunto de individuos.
Variable nominal. Es una variable cuyos valores son
nombres o etiquetas que identifican diferentes resultados, por ejemplo, lugar de residencia o religin.
Variable ordinal. Es una variable cuyos valores pueden
ser ordenados y este orden refleja una intensidad o
magnitud, por ejemplo, dolor leve, moderado o grave.
Variable de intervalo. Es una variable cuyos posibles
valores, adems de incluir la nocin de orden, admiten
operaciones matemticas como la suma y la resta.
Variable de razn. Es una variable en donde los valores
admiten cualquier operacin matemticas y adems
existe el valor 0 que indica la ausencia de la caracterstica medida.
Varianza. Medida de dispersin a partir de las desviaciones al cuadrado de cada valor de la muestra con respecto a la media.

Editorial El

Censo. Consiste en la recoleccin de informacin cuantitativa, cualitativa, o ambas sobre una o ms caractersticas de todos los elementos de una poblacin.
Desviacin estndar. Es la raz cuadrada de la varianza.
Encuesta. Consiste en la recoleccin de informacin
cuantitativa, cualitativa, o ambas de una o ms caractersticas en todos los miembros de una muestra.
Estimacin puntual. Procedimiento estadstico que proporciona un valor aproximado del parmetro de inters y ese valor se calcula a partir de la muestra.
Estimador. Es una funcin de la muestra que se utiliza para
estimar un parmetro desconocido de la poblacin.
Evento. Es un subconjunto de los posibles resultados o
valores de un experimento aleatorio.
Eventos excluyentes. Son aquellos eventos que no incluyen resultados en comn.
Grfica de barras. Es una representacin grfica de datos
nominales u ordinales a travs de barras (rectngulos)
horizontales o verticales. Las barras estn separadas
una de la otra y su altura o longitud es proporcional a
la cantidad que representa.
Hiptesis estadstica. Es cualquier aseveracin sobre el o
los parmetros de la poblacin.
Histogramas. Es una representacin grfica de una variable
de intervalo o de razn usando barras contiguas horizontales o verticales, en donde el rea de cada barra es proporcional a la frecuencia de los valores representados.
Independencia. La probabilidad de ocurrencia de un
evento no influye sobre la probabilidad de ocurrencia
de otro evento.
Intervalo de confianza. Rango de valores entre los cuales
se espera se encuentre el verdadero valor del parmetro y se acompaa de una medida de incertidumbre
acerca de que dicha afirmacin sea cierta.
Media. Promedio aritmtica de los valores de una variable o caracterstica numrica.
Mediana. Es el valor de una caracterstica que tiene la
propiedad de que la mitad de los valores lo rebasan y
la otra mitad est por debajo del mismo.
Moda. Es el valor ms frecuente de una caracterstica en
una poblacin o en una muestra.

manual moderno Fotocopiar sin autorizacin es un delito

GLOSARIO

You might also like