Professional Documents
Culture Documents
Resumen
I. INTRODUCCIN GENERAL
La prctica de la medicina requiere del conocimiento y
buen uso de herramientas provenientes de diversas disciplinas y reas del conocimiento. Los mtodos estadsticos
forman una parte importante de estas herramientas.
Si bien la importancia de la estadstica es clara en el
campo de la investigacin mdica, una adecuada comprensin de sus mtodos bsicos es igual de indispensable en el rea clnica y poblacional. Para mantenerse
actualizado en los avances del conocimiento mdico, el
profesional de la salud debe ser capaz de comprender los
informes de investigacin que se consignan en revistas
especializadas o se comunican en los congresos mdicos.
Para ser capaz de llevar a cabo una lectura crtica de los
resultados de investigacin as como entender errores
potenciales, el mdico necesita adquirir los conocimientos que le permitirn evaluar la metodologa y los resultados de los anlisis estadsticos utilizados en las diferentes comunicaciones.
En el caso del estudiante de medicina que desee continuar su carrera en el campo de la investigacin, la necesidad del conocimiento estadstico es an ms clara. Ya
sea que se trate de elaborar un breve informe de una
serie de observaciones clnicas, o de aspectos ms complejos de la investigacin bsica, de la evaluacin del
efecto de un medicamento o de la investigacin epidemiolgica, los mtodos estadsticos permiten, entre otras
cosas, resumir, describir y comunicar la informacin
obtenida o evaluar hiptesis sobre la relacin entre los
factores de inters y un posible cuadro clnico.
Competencias
1. Identificar la importancia de la bioestadstica para el
anlisis de los problemas de salud-enfermedad a nivel
individual y colectivo.
2. Aplicar los principios bsicos estadsticos para el
manejo de la informacin haciendo nfasis en los distintos tipos de variables y escalas de medicin.
3. Seleccionar los mtodos apropiados para la descripcin y anlisis de datos.
4. Aplicar la estadstica descriptiva para el manejo e
interpretacin de datos.
5. Analizar e interpretar los resultados de las pruebas
estadsticas ms utilizadas.
6. Conocer la utilidad y uso de la bioestadstica en la
prctica mdica.
(Captulo 3)
Editorial El
Elementos de inferencia
estadstica
Conceptos bsicos y
anlisis exploratorio de datos
Probabilidad
Conceptos bsicos I
(Planeacin y Diseo)
Distribuciones de
probabilidad
Conceptos bsicos II
(mtodos grficos y
cuantitativos)
Distribucin
muestral
Estimacin, intervalos de
confianza y prueba de
hiptesis
Editorial El
datos o informacin sobre diversas caractersticas de los individuos y en este caso, tambin de los hogares visitados.
3. CONCEPTOS BSICOS I
Para responder a los objetivos del estudio, as como a las
preguntas de investigacin derivadas de los mismos, es
necesario llevar a cabo una serie de procedimientos de
anlisis de la informacin recabada que permita su
entendimiento y ubique los puntos crticos para las respuestas.
Una parte importante del proceso anterior es el llamado anlisis estadstico. Este paso consiste en la realizacin de procedimientos grficos y cuantitativos de
modo que permitan en forma conjunta, entender la
estructura interna de la informacin y con ello, responder a las preguntas de investigacin.
Para ubicar cules son los mejores procedimientos y
cul es la mejor manera de presentarlos en los informes,
es importante identificar con claridad algunos conceptos
estadsticos que aparecen en el proceso de planeacin y
diseo del estudio, as como el lenguaje propio de esta
Poblacin y muestra
Un primer concepto es la poblacin de estudio o poblacin objetivo, en este caso, de acuerdo con el marco de
referencia en donde se desarroll la ENSANut-2006,
esta poblacin es precisamente toda la poblacin residente en la Repblica Mexicana en el 2006, que no se
encuentra institucionalizada y que habita en una vivienda.2 En general, la identificacin de lo que constituye la
poblacin de estudio, se centra en dos puntos: el primero, es la ubicacin de un conjunto de individuos que tienen una o ms caractersticas en comn y de inters; y el
segundo, que para el conjunto se cumplan todas las conclusiones y resultados del estudio, es decir, que sean vlidas para todos y cada uno de los elementos o miembros
de dicho conjunto.
La poblacin es el conjunto de todos los individuos que
comparten una caracterstica que se desea analizar o
estudiar.
El obtener informacin sobre toda la poblacin de estudio requiere de una gran cantidad de recursos (financieros,
humanos o de tiempo), haciendo que en algunas ocasiones,
esta actividad sea en su totalidad imprctica o muy costosa.
En esas ocasiones, se suele preferir realizar el estudio slo
sobre una muestra representativa de dicha poblacin.
En el caso de la ENSANut-2006, la muestra es el
conjunto de individuos seleccionados, haya o no aceptado responder el cuestionario de la encuesta. Hay que
notar que en esta encuesta en particular, se conformaron
distintas muestras representativas, una de habitantes del
hogar, una de nios y una de adolescentes.
Las muestras son tiles cuando es imprctico o muy
costoso obtener la informacin de toda la poblacin.
La caracterstica principal de las muestras representativas es que reflejan de manera no sesgada las principales caractersticas que presenta la poblacin objetivo ya
que se recuperan los mismos patrones. En el caso de la
ENSANut-2006, el proceso de seleccin cumple con
seguir una estructura probabilstica para generar una
muestra representativa de la poblacin mexicana.
La figura 3-2 es una grfica que muestra un comportamiento compatible con el hecho de la mencionada
representatividad, sta corresponde a una grfica demogrfica conocida como pirmide de edad por sexo.
Como puede verse, la composicin en edad y sexo
de la muestra definida para la ENSANut es muy similar
a la correspondiente poblacin mexicana en el ao 2000
de acuerdo al Censo Nacional de Poblacin y Vivienda.
Este tipo de similitud se espera que se presente para
cualquier otra caracterstica que sea de inters para el
objetivo del estudio; por ejemplo, el estado de salud de
los individuos, su antropometra, el uso de servicios de
salud, patrones de tabaquismo, entre otros.
Censo y encuesta
Cuando se obtiene informacin cuantitativa sobre una o
varias caractersticas objetivas y subjetivas (peso, estatura, estado nutricio, entre otros) en todos y cada uno de
los elementos de la poblacin de estudio, se dir que se
ha realizado un censo de dicha poblacin.
Por el contrario, cuando la informacin se capta slo
en una fraccin o subconjunto de los miembros de una
muestra, se dir que se tiene una muestra o encuesta. La
encuesta se utiliza para estimar las caractersticas de la
poblacin blanco. La realizacin de una encuesta considera diferentes aspectos que van desde la forma en que
se determina la muestra hasta la manera en que se obtiene la informacin deseada; todos estos aspectos determinan distintos tipos de encuesta.
Las encuestas por muestreo son aquellas en donde se
selecciona la muestra de tal forma que sea representativa de
la poblacin total, es decir, el diseo muestral es de tipo probabilstico, lo que significa que todo elemento o unidad
tiene una determinada probabilidad de integrar la muestra
y esa probabilidad es posible de ser calculada de forma
matemtica.
En una encuesta por muestreo se capta informacin de
una muestra representativa.
rea. En este apartado se describirn algunos de los procedimientos que permiten responder a los dos objetivos
descritos antes por lo que los conceptos mencionados
sern ubicados en el contexto de la ENSANut-2006.
(Captulo 3)
Editorial El
ENSANut 2006
CENSO 2000
Mujeres
Hombres
6 000 000
5 000 000
4 000 000
3 000 000
2 000 000
1 000 000
1 000 000
2 000 000
3 000 000
4 000 000
6 000 000
6 000 000
5 000 000
4 000 000
3 000 000
1 000 000
5 000 000
2 000 000
1 000 000
2 000 000
3 000 000
4 000 000
5 000 000
6 000 000
Hombres
Mujeres
Editorial El
Figura 3-2. Pirmides de poblacin del Censo 2000 y de la ENSANut 2006, Mxico.
conocen como parmetros, mientras que las correspondientes caractersticas reflejadas en la muestra se conocen como estimadores. Por lo anterior, para contar con
una forma ms precisa de identificacin se podr hablar
de parmetros poblacionales y de estimadores muestrales, aunque por lo general, bastar con hablar de parmetros y estimadores.
Un parmetro es un valor numrico que refleja alguna
caracterstica de la poblacin.
Un estimador es la versin muestral del parmetro.
Hay que notar que los parmetros son valores o condiciones desconocidas mientras que los estimadores son
valores o condiciones que pueden calcularse u obtenerse
con la informacin de la muestra.
Ejercicio 1
Con base en sus conocimientos, analice y responda lo
siguiente: en un estudio en donde se quiere estudiar el
uso de servicios y programas de salud, se pregunta a los
participantes sobre el tipo de derechohabiencia que tienen. Las opciones de respuesta de esta pregunta son
IMSS, ISSSTE, Defensa o Marina, Seguro Popular,
Seguro Privado, otro tipo de seguro mdico y sin servicio
mdico. Se decide asignar los nmeros 1, 2, 3, 4, 5, 6 y 7
de manera respectiva a cada respuesta para su registro.
Qu significado tendra el valor del promedio de los
nmeros resultantes?
Compare su respuesta con la informacin que se
expone enseguida.
Parmetros y estimadores
Escalas de medicin
En este tipo de datos, se puede decir que hay observaciones que estn por encima o tienen ms o son
mayores que otras observaciones, aunque no es posible
saber o decir por cunto. Por ejemplo, un individuo con
lesin mortal tuvo una lesin de mayor intensidad que
uno que sufri una lesin leve, o bien, un individuo con
sobrepeso tiene mayor ndice de masa corporal que uno
con bajo peso.
En muchos casos se suele numerar estas categoras
en funcin del orden que representan, es decir, 1, 2, 3,
entre otros, o en orden decreciente. Sin embargo, se debe
tener claro que estos nmeros no son reflejo de una magnitud o concentracin especfica, por lo que cualquier
operacin aritmtica entre ellos no tiene sentido alguno
ni tampoco interpretacin vlida. El anlisis estadstico
bsico de este tipo de variables es similar al que se realiza para datos nominales, pero manteniendo el orden
natural de la variable.
No es vlido hacer operaciones aritmticas con los valores numricos asignados a las categoras de una variable ordinal
Editorial El
(Captulo 3)
Las mediciones en escala nominal slo se analizan en trminos de las proporciones de las respuestas posibles, ya
que no es factible la comparacin a nivel individual
ser tan pequea como permita el instrumento de medicin. Este tipo de variables tambin se les conoce como
variables cuantitativas continuas. El ejemplo clsico de
este tipo de variables es el peso de una persona; dependiendo del instrumento de medicin y de la precisin del
mismo, la diferencia en peso entre dos personas puede
ser de 0.1, 0.01, 0.001 kg entre otros.
Hay algunos estadsticos que reconocen a su vez, dos
tipos de variable continuas: las llamadas variables de
intervalo en donde el valor 0 es arbitrario (p. ej., la temperatura en escala Celsius) y las llamadas variables de
razn en donde el valor 0 es absoluto e indica la ausencia total de medida (p. ej., concentracin de un frmaco
en sangre o la concentracin de hemoglobina en sangre).
Sin embargo, los procedimientos de anlisis estadstico bsico para estos dos tipos de variables son iguales,
por lo que en este documento no se considerar esta
diferencia y slo se hablar de variables continuas.
El anlisis estadstico de la informacin de las variables que son medidas en una escala numrica, se basa en
la presentacin de una variedad de tablas, de diferentes
tipos de grficas y de algunos valores que resumen las
principales caractersticas de dichas variables.
Grficas
Los datos de las caractersticas medidas en el cuestionario de la ENSANut-2006, as como de cualquier otra
encuesta o estudio, se organizan para ser captados, por lo
general, en medios electrnicos.
Editorial El
Visualizar de forma directa la base de datos resultante difcilmente permite una interpretacin inmediata de
la informacin contenida y por lo tanto, apenas se puede
pensar en obtener las respuestas a las preguntas de investigacin de manera inmediata sin hacer un ejercicio sistemtico de resumen o sntesis de la informacin. Por lo
anterior, se suele organizar la informacin en forma de
tablas y grficas, de tal manera que reflejen los elementos crticos y fundamentales de la informacin. El tratamiento de datos se realiza de diversas maneras, dependiendo de la escala de medicin de las variables y de la
cantidad de datos colectados.
Si los datos son categricos, la informacin de la
muestra se agrupa segn la frecuencia y la proporcin o
porcentaje de cada categora y se representan grficamente mediante diagramas circulares llamadas grficas
de pastel y tambin con diagramas de barras; o bien,
mediante tablas o cuadros que son arreglos de informacin resumida. Tanto las grficas como las tablas, deben
ser tan claras que se han de explicar por s mismas en
cuanto al ttulo, encabezados o leyendas usadas. En el
caso de grficas con ejes coordenados, stos deben rotu-
Peso en kilogramos
Estatura en metros2
ndice de obesidad. Variable ordinal con cuatro categoras: obesidad (si el individuo tiene un ndice de masa
corporal, IMC, mayor o igual a 30), sobrepeso (si el
individuo tiene un IMC entre 25 y 29.99), normal (si
el individuo tiene un IMC entre 18.50 y 24.99) y bajo
peso (si el individuo tiene un IMC menor que 18.50).
Para la muestra de nios:
Edad. Es una variable numrica de conteo como ya se
coment antes, aunque en este caso el nmero de posibles valores es an ms restringido: 0, 1, 2, 3,, 9 aos.
Sexo. Es una variable dicotmica con categoras hombre y mujer.
Anemia. Es una variable dicotmica con posibles valores s y no que se determina a partir de la concentracin de hemoglobina en las muestras de sangre
capilar y puntos de corte de acuerdo con la edad y
ajustados por la altitud del lugar de residencia (metros
sobre el nivel del mar).
Accidentes. Es una variable dicotmica que indica si un
nio sufri o no algn accidente en el ao previo a la
encuesta.
Para la muestra de adolescentes:
Edad. Es una variable numrica de conteo con un
nmero de posibles valores igualmente restringido
como en el caso anterior: 10, 11, 12, , 19.
Sexo. Es una variable dicotmica con categoras hombre y mujer.
Tabaquismo. Es una variable dicotmica que indica si
un adolescente ha fumado ms de 100 cigarrillos en
su vida, o no.
Uso y tipo de mtodo anticonceptivo. Es una variable
categrica que slo se capta en aquellos individuos que
ya tuvieron relaciones sexuales antes al momento de la
entrevista. Esta variable indica el tipo de mtodo anticonceptivo que us el adolescente o su pareja durante la
primera relacin sexual. Se tienen cuatro opciones de
respuesta: condn, hormonales, otros y ninguno.
En el informe de la ENSANut-2006, se describen las principales caractersticas de las viviendas en la muestra a partir
de diagramas de pastel. Se tomaron en cuenta aquellos factores que pudieran ser determinantes en el estado de salud
de los entrevistados, como lo son la disponibilidad de agua
potable o drenaje o el material del piso de la vivienda.
Asimismo, sabiendo que en zonas rurales las condiciones en este sentido son menos favorables, se consider el tipo de localidad como otra caracterstica dentro de
la descripcin. La variable tipo de localidad se defini
como el nmero de habitantes que residen en esa localidad y se catalog como localidad rural aquella con hasta
2 499 habitantes, como localidad urbana aquella de 2
500 a 99 999 habitantes y como localidad metropolitana
aquella con ms de 100 000 habitantes.
De acuerdo con los diagramas de pastel siguientes7,
se concluye que 22.2% de los hogares se localizan en
localidades rurales, 24.3% en localidades urbanas y el
54.4% en localidades metropolitanas.
los puntos medios de la parte superior de las barras del histograma correspondiente. Es usual que se presente el polgono de frecuencias en una figura sin incluir el histograma
que le dio origen. Este tipo de figuras son tiles para vislumbrar tendencias o patrones de comportamiento ligado al
incremento o disminucin de la variable bajo consideracin.
Sin embargo, cualquier implicacin derivada slo de
una apreciacin visual debe acompaarse de una verificacin cuantitativa, ya que el patrn obtenido en estas
figuras depende fuertemente de la longitud de los intervalos de clase, por lo que podra modificarse si se cambia
la longitud de dichos intervalos.
Para ejemplificar la forma de un anlisis grfico exploratorio de datos, tomemos las siguientes variables que fueron medidas a travs del cuestionario de la ENSANut-2006
o bien, fueron generadas a partir de las anteriores.
Para ilustrar el uso de distintos tipos de grficas y
figuras, se presentan a continuacin algunas figuras y
algunos cuadros tomados de forma directa del informe
de la ENSANut-2006 junto con una muy breve descripcin de los puntos clave de dichas figuras y cuadros.
Las variables que se emplearn en estos ejemplos se
describen a continuacin. Para la muestra de hogares se
incluyen:
(Captulo 3)
Editorial El
Ejercicio 2
Observe la grfica siguiente que muestra informacin
sobre la distribucin porcentual de la poblacin, segn
tabaquismo actual, y anote las relaciones que observe
entre las variables. Compare su respuesta con lo que se
seala despus de la grfica.
Este polgono de la distribucin porcentual permite
observar la tendencia en los adultos a una menor prevalencia de tabaquismo en los grupos de mayor edad. Sin
embargo, se puede notar que en los adultos, la cantidad
de hombres que fuman es casi tres veces mayor a la de
las mujeres que lo hacen, y esta relacin es en la prctica independiente de la edad que tengan.
De igual forma, se presenta en la figura 3-5 un diaDistribucin porcentual de la poblacin,
segn tamao de la localidad
22%
17.89%
54%
74.39%
24%
Agua entubada dentro de la vivienda
Agua entubada fuera de la vivienda
Otra fuente no entubada
Rural
Disponibilidad de drenaje
Urbana
Metropolitana
15%
0.1%
13%
8.6%
31.9%
72%
Editorial El
59.4%
Sin drenaje
Tierra
Cemento
o firme
No especificado
24.3%
Rural
Urbana
Metropolitana
10
(Captulo 3)
%
60
50
40
30
20
10
0
20 a 29
30 a 39
40 a 49
50 a 59
60 a 69
80 a mas
70 a 79
Edad
Mujer
Hombre
90
80
70
60
50
40
30
20
10
0
90
80
70
60
50
40
30
20
10
0
20-29
30-39
40-49
50-59
60-69
MO=30
70-79
80 +
20-29
30-39
40-49
50-59
60-69
MO=30
IMC de 25-29.9
70-79
80 +
IMC de 25-29.9
Figura 3-5. Prevalencia de sobre peso y obesidad, segn grupo de edad y sexo. Mxico, ENSANut 2006.
%
30
20
10
Hombres
Mujeres
Examen o chequeo
Problemas de embarazo
y puerperio
Cesarea
Otros motivos / NE
Parto
Ciruga
Tratamiento de
enfermedad no quirrgico
Total
Figura 3-6. Prevalencia de utilizadores de servicios hospitalarios durante los ltimos 12 meses, segn sexo y motivos de atencin. Mxico,
ENSANut 2006.
Editorial El
40
50
%
10
%
30
25
11
8
20
7
6
15
5
10
4
3
Norte
0
0
Hombre
ENN 1999
Mujer
Cd. de Mxico
Centro
Regin geogrfica
Sur
ENSANut 2006
Editorial El
Cuadro 3-1. Porcentaje de adolecentes sexualmente activos de 12 a 19 aos de edad, segn uso de mtodos
anticonseptivos en la primera relacin sexual, por sexo y grupo de edad. Mxico, ENSANut 2006.
Edad
Hombres
Condn
Hormonales**
Otros***
Nada
Total
12 a 15 aos
n*
%
16 a 19 aos
n*
%
n*
85.9
1.6
0.3
35.1
122.9
835.2
109.3
19.6
393.6
1 327.6
921.1
110.9
19.9
428.7
1 450.4
63.5
7.6
1.4
29.6
15.8
921.1
110.9
19.9
428.7
1 142.1
38.0
6.8
1.6
56.6
13.0
69.8
1.4
0.3
28.5
2.4
62.9
8.2
1.5
29.6
32.8
Mujeres
Condn
26.1
27.9
408.4 38.9
Hormonales**
7.3
7.9
70.9
6.8
Otros***
2.5
2.7
16.2
1.5
Nada
62.0
66.9
584.7 55.8
Total
93.5
2.0
1 048.7 25.4
Nota: el 14.4% del total de adolecentes de 12 a 19 aos ha iniciado vida sexual
*Cantidad en miles
**Incluye pastillas o pildoras, inyecciones, pastillas de emergencia, Norplan
***Incluye vulos, jaleas, espumas o diafragma, ritmo, calendario, retiro, DIU, vasectoma u otro
Nota: Los porcentajes suman ms de 100% por el uso de dos anticonseptivos
Total
12
(Captulo 3)
%
30
25
20
15
10
5
0
10 a 12 aos
Rural
13 a 15 aos
16 a 19 aos
Metropolitana
Urbana
Es decir, un ensayo en el cual las mujeres eran asignadas a grupos de intervencin o control de manera aleatorio, y sin que las mujeres ni los investigadores conocieran el estatus de asignacin.
Una cohorte prospectiva es un diseo en el cual se recluta al estudio a un grupo de participantes (en este caso mujeres), y se les da
un seguimiento hacia el futuro, es decir, prospectivamente.
Editorial El
Figura 3-9. Distribucin porcentual de adolecentes de 10 a 19 aos de edad, segn tabaquismo, por grupo de edad y tamao de localidad.
Mxico, ENSANut 2006.
Editorial El
embarazo (entre 10 y 14 semanas de gestacin) en cuatro hospitales del IMSS de la ciudad de Mxico. De todas
ellas, 327 mujeres que cumplieron los criterios de inclusin y aceptaron participar en el estudio (consentimiento informado). El proceso de captacin de la informacin
implic el seguimiento de manera trimestral durante el
embarazo, parto y al uno, tres, siete y 12 meses posparto
(con un total de ocho entrevistas). De las 327 mujeres
embarazadas, 216 mujeres concluyeron todas las etapas
del estudio.
En cada visita, se midi entre otras caractersticas, la
concentracin materna de plomo en sangre y se les aplic un cuestionario para captar informacin socioeconmica, nutricional y de exposicin a fuentes de plomo,
adems se tomaron medidas antropomtricas; al
momento del parto se registr el sexo del beb, el peso
al nacer y la edad gestacional. Los nios fueron evaluados cada seis meses y se monitore su neurodesarrollo
por un equipo de psiclogas que realizaron mediciones
estandarizadas. A los 24 meses de edad se midieron las
concentraciones de plomo en sangre de los nios y se
midi su desarrollo mental por medio de la prueba
Bayley Scales of Infant Development-II.
Al igual que se present parte del anlisis estadstico
bsico en el ejemplo anterior, se discutirn diversos conceptos estadsticos ligados a este segundo ejemplo. Se
comenzar con una breve identificacin de los elementos estadsticos ya discutidos antes para entonces proceder a la presentacin y discusin de nuevos elementos.
Como podr observarse, en este caso no se cuenta con
una definicin directa de la poblacin objetivo y no se tiene
un diseo probabilstico de muestreo para la seleccin de
la muestra base del estudio. En esta situacin, podra surgir
la duda sobre la representatividad de la muestra con respecto a la poblacin objetivo. Sin embargo, el contexto de
este estudio y el objetivo del mismo, est ligado a la caracterizacin y cuantificacin de un efecto en un proceso
puramente biolgico que se espera sea comn para cualquier individuo (mujer embarazada).
De manera adicional no hay elementos tericos que
hagan sospechar la existencia de algn patrn diferencial
en tiempo y espacio dentro de este contexto. Esto quiere decir que no hay datos que indiquen que el proceso
biolgico a estudiar en las mujeres embarazadas expuestas a plomo sea diferente en las mujeres que asisten a
otras instituciones y en otros tiempos distintos a los considerados en el reclutamiento. En este sentido, el anlisis
de la informacin generada en la muestra disponible y los
correspondientes resultados pueden ser extrapolados de
forma directa al proceso biolgico de referencia.
En este tipo de situaciones, la muestra se denomina
como muestra disponible y en este caso est formada por
las 327 mujeres embarazadas y de forma eventual por los
nios que nacieron y continuaron el seguimiento hasta los
24 meses. Hay que aclarar que no siempre una muestra disponible es apropiada para estudiar caractersticas y responder preguntas de investigacin en una poblacin.
En este caso las caractersticas y condiciones de inters fueron medidas en diferentes momentos en el tiempo. Se consideraron entrevistas a las madres, determina-
13
(Captulo 3)
Como se mencion en el primer ejemplo, en el lenguaje estadstico se suele denotar los valores observados de una
variable en una muestra de tamao n como x1, x2,, xn.
Esta notacin significa, de manera genrica, que x1 es el
valor de la variable que se midi en el primer individuo de
la muestra, x2 el correspondiente en el segundo individuo
y as de manera sucesiva hasta xn para el ltimo individuo
o sea el nmero n o el llamado n-simo individuo.
La media aritmtica se denota por y se calcula como
sigue, en donde la segunda igualdad es una manera usual de
notacin que significa sumar todos los valores de las mediciones cuyos ndices van desde el 1 hasta el n:
x
x=
x1 + x2 + L + xn 1 n
= xi
n
n i =1
Por lo general, es el valor ms representativo del conjunto de valores obtenidos en la muestra, pero tiene el pro-
a i
i =1
1/ n
a1 a 2 ...a n
Peso al nacer
peso al nacer
Editorial El
25
Las tablas de frecuencias y las grficas permiten organizar la presentacin de informacin e identificar posibles
relaciones entre variables. No permiten una completa
evaluacin numrica de los patrones detectados.
20
Si se desea entender por completo la manera cmo se distribuyen los valores del MDI en los nios de 24 meses de
edad de madres que estuvieron expuestas a plomo, entonces se debe especificar la ecuacin de su curva de probabilidad; lo mismo sucedera si lo que se quiere para cualquier
otra variable numrica. Por otro lado, si se quiere entender
cmo se distribuyen los valores de edad gestacional o cualquier otra de conteo, se debera especificar la probabilidad
con que ocurre cada uno de los valores posibles. Sin embargo, a nivel exploratorio se suele simplificar este requerimiento y slo indicar o describir algo acerca de la distribucin de la variable, lo cual se establece al especificar sus
caractersticas y aspectos principales como son localizacin, dispersin y forma de la misma.
porcentaje
15
10
1. CONCEPTOS BSICOS II
14
Editorial El
60
40
Frecuencia
57
29
20
14
5
0
80
66
26
15
10 12 14 16 18 20 22 24 26 28 30 32 34 36 38
Concentracin de Plomo
Figura 3-11. Histograma de frecuencias de concentraciones de plomo en sangre en nios a los 24 meses de edad.
Porcentaje
10
15
70
75
80
85
90
95
Figura 3-12. Histograma de frecuencias de la puntuacin en la escala Bayley de los nios en el estudio de plomo.
Los cuartiles Q1, Q2 y Q3, son tres valores que dividen a la distribucin en cuatro partes iguales. El primer
(Captulo 3)
Editorial El
16
80
Puntuacin
90
100
110
120
70
17
Rango intercuartil = Q3 Q1
Editorial El
masculino
femenino
(1))
(Captulo 3)
S=
1 n
(xi x )2
n 1 i =1
femeni no
n
1
(xi x )2
n 1 i =1
Coeficiente de asimetra =
3(media mediana)
desviacin estndar
3( x - Q2 )
S
sta es una medida que no depende de las unidades fsicas de medicin de la variable considerada y toma el
valor 0 cuando la distribucin es simtrica. Cuando la
distribucin tiene la cola izquierda ms prolongada, la
media es menor que la mediana y este coeficiente de asimetra ser negativo y de aqu el nombre usado de distribucin asimtrica en forma negativa. Entre ms alejada
est la media de la mediana, se esperara ver una cola
izquierda ms larga. Esto mismo ocurre en el caso, pero
considerando valores positivos del coeficiente para la
cola derecha de la distribucin.
Otra medida es la llamada propiamente sesgo, la
cual tiene propiedades estadsticas que permiten una
evaluacin ms objetiva que la anterior. Esta medida
El sesgo es una medida que refleja el grado de alejamiento de una distribucin con respecto a la simetra
alrededor de la media. Esto es, qu tan diferente puede
ser el lado derecho (cola derecha) del lado izquierdo
(cola izquierda) de la distribucin.
mr =
1 n
(xi x )r
n 1 i =1
mascul ino
Editorial El
Kg
18
a la varianza. Para r =3 y r =4 se obtienen el tercer y cuarto momento central, y as sucesivamente para otros valores de r. El sesgo est dado por la ecuacin:
Sesgo =
m3
S3
Editorial El
Q3 Q1
2( Percentil 90 Percentil 10)
m4
S4
19
20
(Captulo 3)
porcentaje
60
40
20
0
casada
unin libre
soltera
separada
Edad gestacional al
momento de nacimiento
(en semanas)
27
33
34
35
36
37
38
39
40
41
42
Total
Frecuencia
2
4
2
2
13
15
48
48
64
13
2
213
Edad gestacional
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Semanas
Figura 3-16. Diagrama de rayos o bastones de edad gestacional en el estudio de plomo.
Editorial El
Frecuencia
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71
Editorial El
21
Hombres
240
288
72
18
618
Mujeres
264
228
60
30
582
Total
504
516
132
48
1 200
(Captulo 3)
P (Sangre tipo B) =
132
= 0.11
1200
582
= 0.485
1200
30
La regla de la adicin puede ser utilizada cuando se tienen ms de dos eventos, siempre y cuando stos sean
mutuamente excluyentes.
Dos eventos no son mutuamente excluyentes cuando la ocurrencia de uno no elimina la posibilidad de ocurrencia del otro. En este caso, por ejemplo, el ser mujer
no elimina la posibilidad de tener sangre tipo O. Del cuadro 3-4, la probabilidad de ser mujer es 0.485 mientras
que la probabilidad de tener sangre tipo O es 0.42. La
probabilidad de ser mujer o tener sangre tipo O no es, sin
embargo, 0.485 + 0.42, puesto que en esta suma las
mujeres con sangre tipo O han sido contadas dos veces.
Lo que sucede en este caso, es que debe ser tomada en
cuenta la probabilidad de que ambos eventos ocurran, es
decir, la probabilidad de ser mujer y tener sangre tipo O,
0.22, de manera que esta cantidad sea sustrada del clculo final. Esto da origen a la llamada regla de la adicin
para eventos que no son mutuamente excluyentes. As, la
probabilidad de ser mujer o tener sangre tipo O es:
= 0.025
1200
Hombres
0.2
0.24
0.06
0.015
0.515
Mujeres
0.22
0.19
0.05
0.025
0.485
Total
0.42
0.43
0.11
0.04
1
pendiente de ensayos (rplicas) bajo las mismas condiciones, en este caso, un ensayo consiste en la determinacin del tipo de sangre para un individuo particular.
Cada ensayo puede tener uno de cuatro resultados: O, A,
B, AB.
La probabilidad de un resultado particular, por decir
resultado T, se escribe P (T). Por ejemplo, en el cuadro 33, si el resultado T es sangre tipo B, la probabilidad de
que un individuo seleccionado al azar tenga tipo de sangre B es:
Editorial El
22
10
= 0.10
100
Otra manera en que esta probabilidad puede ser calculada es mediante el uso de la regla de la multiplicacin
para eventos independientes. Esta probabilidad se obtiene al multiplicar la probabilidad de ocurrencia de ambos
eventos:
Editorial El
x P (fuma)
20
100
0.20
Hombres
40
10
50
Mujeres
40
10
50
Total
80
20
100
23
= P (Mujer) x P (fuma)
50
20
x
100
100
0.10
Una mirada ms cercana a los datos dar mayor comprensin del concepto de independencia. De las mujeres,
20% fuma, cantidad idntica para los hombres. Como la
probabilidad de fumar es la misma para hombres y mujeres, se dir que la probabilidad de fumar es independiente del sexo. En este sentido, la independencia entre
dos variables implica que la informacin sobre la ocurrencia de una no sirve para explicar la ocurrencia de la
otra. En trminos de nuestro ejemplo, el sexo de una persona seleccionada no aporta ninguna informacin para
determinar si esa persona tiene mayor o menor probabilidad de fumar.
Continuando con el mismo ejemplo, pero ahora con
datos reales obtenidos en una submuestra de la Encuesta
Nacional de Evaluacin del Desempeo (ENED, 2002)5
se ilustra el caso de dos eventos que no son independientes (cuadro 3-6).
Como puede observarse la probabilidad de ser hombre y fumar parece ser mayor que la de ser mujer y
fumar, indicando que el hbito de fumar puede no ser
independiente del sexo. Para determinar con mayor precisin esto, se puede utilizar la definicin de eventos
independientes y aplicarla para el caso de ser mujer y
fumar:
P (Mujer y fuma) = P (Mujer) x P (fuma)
58
1789
269
=
x
2787
2787
2787
0.02 0.06
Los datos presentados en esta seccin han sido modificados y adaptados con fines didcticos. Y en otros ejemplos han sido simulados.
Hombre
787
211
998
Mujer
1 731
58
1 789
Total
2 518
269
2 787
(Captulo 3)
proporciona informacin acerca de la probabilidad de ocurrencia de un evento dado que otro evento ya ha ocurrido.
Por ejemplo, se sabe que se tienen 998 hombres en
la muestra y que de stos 211 fuman; as que si se quiere saber cul es la probabilidad de fumar dado que es
hombre se tiene:
P (Fumar | Hombre) =
221
= 0.21
998
58
= 0.03
1789
Esto da mayor evidencia para pensar que estos dos eventos no son independientes, ya que si de hecho fueran
independientes estas dos probabilidades deberan ser
idnticas. Adems, como es evidente, la probabilidad de
fumar dado que es hombre es siete veces ms grande que
la probabilidad de fumar dado que es mujer.
Como se observ antes, la probabilidad conjunta de
dos eventos puede ser con facilidad calculada si se tienen
eventos independientes. Cuando se tienen eventos que
no son independientes, se debe utilizar la siguiente regla
de multiplicacin para dos eventos dependientes A y B:
P (A y B) = P (B) x P (A | B)
2. DISTRIBUCIONES DE PROBABILIDAD
En la seccin anterior se expusieron las principales ideas
acerca de los trminos estimador y parmetro. En general, es aceptado que el acceso al estudio de las poblaciones es en la prctica imposible, y por ende se recurre al
uso de datos obtenidos en una muestra que pretende
representar a la poblacin de inters. Las cantidades que
pueden ser estimadas a partir de una muestra son los
estimadores. El valor de esta caracterstica en la poblacin es lo que se denomina parmetro.
Por ejemplo, si se piensa que se desea estudiar a la
poblacin de pacientes que han tenido un infarto al miocardio en los hospitales del tercer nivel de atencin en la
ciudad de Mxico en cuanto a una serie de caractersticas que pudieran estar relacionadas con el infarto. Entre
tales caractersticas se podran considerar la edad, sexo,
hbito de fumar y peso; todas ellas ejemplos de variables.
Editorial El
24
Editorial El
Ejemplos de la utilidad de la distribucin binomial pueden ser: caracterizar la probabilidad de herencia de cierto rasgo gentico particular, estimar la ocurrencia de
una reaccin especfica a un nuevo medicamento, calcular la probabilidad de que un individuo padezca alguna
enfermedad crnica, o estimar la probabilidad de muerte de alguna clula cancergena en una prueba in vitro
de un nuevo agente quimio-teraputico
25
y
P (No Hiper C1 e Hiper C2) = P (No Hiper C1) x P (Hiper C2)
= 0.735 x 0.265 = 0.19
Hasta aqu slo se ha aplicado sencillas reglas de probabilidad, pero, qu sucede si ahora se selecciona a 10 personas y se quiere saber la probabilidad de encontrar a
cuatro personas que padezcan de colesterol alto? De
hecho se puede utilizar el mismo procedimiento slo
que adems de tedioso es poco prctico. Para hallar esta
probabilidad se cuenta con la siguiente expresin:8
8 El smbolo n! se lee n factorial, e implica n!= n x (n-1) x (n-2)
(3)(2)(1). Si se tiene, por ejemplo, 3!, entonces, 3!=3 x 2 x 1= 6. Por definicin 0!=1.
(Captulo 3)
0
1
2
3
4
5
6
7
8
9
10
0.25
n!
(nk)!k!
0.2
0.046
0.166
0.269
0.259
0.163
0.071
0.021
0.004
0.0006
0.00005
0.000002
P(k) =
pk(1
p)n-k
P(k) 0.15
0.1
0.05
0
4
5
6
7
8
Numero de personas
10
n!
(n - k)!k!
Ntese que la expresin anterior contiene a las tres cantidades de inters que se define antes para la distribucin
binomial: n, p, y k, razn por la cual la distribucin binomial sigue con exactitud estas probabilidades para cada
posible nmero de xitos k, donde k = 0, 1, 2,, n.
Siempre que se conozca la probabilidad (p) de obtener
un resultado, la expresin matemtica indica cul es la
probabilidad de obtener k xitos despus de realizar n
ensayos independientes.
En el ejemplo se tiene: k = 4, n = 10, p = 0.265, por
lo que la probabilidad de encontrar a cuatro personas
con hipercolesterolemia una vez que se ha seleccionado
a 10 personas de manera aleatoria es de alrededor de
16%, con exactitud 16.33%.
P(k = 4) = pk(1 - p)n-k
n!
n!
= 0.2654 (0.735)6
(n - k)!k!
(n - k)!k!
= 0.1636
En resumen, la distribucin binomial es til para calcular la probabilidad de ocurrencia de k nmero de xitos
en n ensayos independientes, cuando hay una probabilidad constante p de xito para cada ensayo. De hecho, en
el ejemplo se puede calcular la probabilidad de encontrar 0, 1,, o hasta 10 personas con colesterol alto, es
decir, todos los posibles resultados y presentarlos ya sea
de manera tabular o grfica (cuadro 3-7 y figura 3-17).
En este ejemplo, la distribucin binomial es asimtrica, como puede observarse en la figura 3-17, aunque a
medida que la probabilidad p se aproxima a 0.5 se vuelve ms simtrica, o a medida que aumenta el tamao de
muestra tal y como se muestra en la figura 3-18, en la
que se presentan los datos para el caso en que se tiene: k
= (5 a 50), n = 100, p = 0.265.
La probabilidad de encontrar menos de cinco personas con colesterol alto o ms de 50 es cercana a cero en
una muestra de 100 personas tomadas de esta poblacin,
por lo que sus valores han sido excluidos de la figura. Es
importante notar que los datos de la figura 3-18 siguen
una distribucin binomial, pero a medida que se aumenta el tamao de muestra la distribucin se aproxima a
una distribucin que tiene forma de campana y es sim-
0.1
0.09
0.08
0.07
0.06
P(k) 0.05
0.04
0.03
0.02
0.01
0
6
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48
Numero de personas
0.3
Editorial El
26
Y segundo, aunque la frmula para la distribucin binomial permite calcular el valor de la probabilidad de ocurrencia para un valor exacto de k xitos, puede ser utilizada tambin para calcular la probabilidad para un rango
posible de valores de k. Slo que en este ltimo caso es
ms sencillo recurrir a tablas que han sido diseadas ex
profeso o al uso de algn programa informtico con
capacidades para el anlisis estadstico.
Editorial El
puede ser caracterizada a partir del parmetro (p), la distribucin normal puede ser determinada por sus dos
parmetros (media y varianza).
Puesto que la distribucin normal es una distribucin de probabilidad, el rea bajo la curva es igual a uno,
ya que como se recordar, una de las propiedades de la
probabilidad es que la suma de probabilidades para un
determinado nmero de eventos es siempre igual a uno.
De manera adicional, y como se trata de una distribucin
simtrica, la mitad del rea de la curva est a la izquierda de la media y la otra mitad a la derecha.
Si se tiene una variable aleatoria X que sigue una
distribucin normal, y dado que se trata de variables continuas, puede tomar, al menos tericamente, cualquier
valor desde menos infinito hasta infinito (-, +). Y al
igual que la distribucin binomial existe una expresin
para calcular las probabilidades asociadas a la distribucin normal.
1
exp
f (;,) =
22
0.1
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
10
20
30
40
50
60
1
2
( X )
0.1
27
z=
x
30 - 28.19
=
5.41 = 0.33
Cul es la ventaja de saber que un IMC de 30 corresponde a un valor z de 0.33? En primer lugar, se sabe que
ese valor est a 0.33 desviaciones estndar por encima de
la media. Y en segundo lugar, se puede calcular el valor
de la probabilidad que le corresponde a z = 0.33, ya sea
mediante el uso de tablas,10 mediante el uso de algn
programa como Excel, o algn paquete estadstico.
En este caso se utiliz Excel, y al valor z = 0.33 le
corresponde una probabilidad de 0.37, es decir, existe 37%
de posibilidades de que la persona seleccionada tenga obesidad. O dicho de otro modo, que 37% de estos individuos
tendrn valores de IMC de 30 o ms. Se puede poner otro
ejemplo para clarificar un poco ms el uso de la distribucin
normal. La pregunta ahora es qu proporcin de personas
tienen un IMC que indique sobrepeso? es decir, que su IMC
est entre 25 y 29.9. Para poder calcular esta probabilidad
se necesita seguir una serie de pasos sencillos como se describe a continuacin.
Primero, se obtiene la probabilidad para el valor de
IMC = 29.9. El valor z asociado es de 0.32 y su probabilidad es 0.62.
Segundo, se obtiene el valor z para IMC = 25 que es 0.59, cuya probabilidad es 0.27.
9 La muestra fue generada por muestreo aleatorio simple y consta de
2 000 personas.
10
3. DISTRIBUCIN MUESTRAL
Hasta aqu se ha visto cmo la distribucin binomial y la
distribucin normal pueden ser utilizadas para determinar qu tan probable es que una variable tome un valor
en la poblacin de estudio. Otro tipo de distribucin que
es muy importante en el campo de la estadstica es la distribucin de muestreo. Una comprensin de los conceptos bsicos relacionados con la distribucin de muestreo
es esencial para entender los fundamentos de la estimacin estadstica y la prueba de hiptesis, conceptos
inmersos en el proceso de inferencia que permite generalizar los resultados obtenidos en una muestra hacia la
poblacin entera.
Como se ver ms adelante, cuatro caractersticas
fundamentales distinguen a una distribucin de muestreo. La primera se relaciona con el parmetro de inters:
media, varianza, proporcin, entre otros. Puesto que la
distribucin muestral de la media es la de uso ms
comn, ser la que se utilizar para explicar el concepto
de distribucin muestral. La segunda implica un procedimiento de seleccin aleatoria de la muestra. La tercera, y muy importante, tiene que ver con el tamao de la
muestra. Y la cuarta es la manera en que se especifica a
la poblacin de estudio.
(Captulo 3)
Editorial El
28
Editorial El
28.91
28.17
28.32
27.99
27.98
28.27
5.41
5.24
5.39
5.10
5.23
0.38
29
dstica se basa en el hecho de que la distribucin muestral de la media siga una distribucin normal.
La pregunta ahora es se necesita generar en cada
anlisis estadstico la distribucin muestral de la media?
Sin duda sera una tarea laboriosa y tediosa que requerira adems, contar con todas las posibles muestras del
mismo tamao que se pueden generar de la poblacin de
estudio. Sin embargo no es necesario, ya que se puede
utilizar la teora estadstica para determinar la distribucin muestral de la media en cualquier situacin.
Para ello se parte de las propiedades de la distribucin muestral de la media, tal y como se expusieron
antes, ya que ellas son la base para uno de los ms importantes teoremas de la estadstica: el Teorema del lmite
central. Enseguida se presentan algunas de las caractersticas bsicas de este teorema.
El teorema del lmite central es una de las piezas centrales de la inferencia estadstica, ya que permite hacer
agravaciones acerca de la poblacin de estudio con
base en los resultados de una sola muestra11
30
(Captulo 3)
.09
.07
0
-.040
Media muestral
0
-.051
.052
Media muestral
.061
.06
.05
0
-.071
Media muestral
.059
-.081
Media muestral
.074
.076
Figura 3-21. Distribucin muestral de la media para el IMC. Muestras de tamao: 50, 100, 500, 1 000, 2 000.
asociada a algn estimador. Existen distribuciones muestrales para otros estimadores tales como la varianza, la
desviacin estndar, la mediana, una proporcin, entre
otros. En cada caso, sin embargo, el inters es el mismo
cmo vara la estadstica de inters a travs de distintas
muestras del mismo tamao?
Y aunque la distribucin de muestreo de la media
sigue una distribucin normal, otras estadsticas no necesariamente siguen dicha distribucin. Por ejemplo, en
algunas situaciones particulares la distribucin muestral
de la media sigue una distribucin t, o la relacin entre
dos varianzas sigue una distribucin F. No obstante, una
propiedad comn de las distribuciones muestrales es que
tienen asociado un error estndar, y que la variacin de
la estadstica en su distribucin de muestreo ser llamado error estndar de la estadstica.
Esta frmula se aplica cuando se tienen datos individuales, pero si se quiere aplicar a la media se debe utilizar los
resultados del teorema del lmite central, segn el cual la
Media muestral
Editorial El
0
-.083
donde
Razonamiento y respuesta
Ntese cmo ahora los datos se refieren a individuos y
no a muestras, por lo tanto se debe usar los datos obtenidos de la muestra de 500 personas. Es decir, para la presin arterial sistlica de 110:
Z=
Enseguida se presentan tres aplicaciones de la distribucin muestral de la media. Se sugiere que, antes de revisar la respuesta, se analice la informacin que se ofrece y
se plantee una posible solucin que, luego se compare
con la que los autores ofrecen. Es conveniente explicitar
el razonamiento que se sigui para llegar a la contestacin a que se llegue.
Ejercicio 3. Segn datos de la Encuesta de
Evaluacin del Seguro Popular llevada a cabo en siete
entidades federativas de Mxico en 2006, el valor promedio de la presin arterial sistlica para personas
mayores de 18 aos de edad que habitan en zonas
rurales es de 122.39 con desviacin estndar 17.63.
Suponiendo que se selecciona una muestra aleatoria
de 30 personas de esta poblacin y su presin arterial
sistlica promedio es de 118.7. Qu tan frecuente
debera una muestra de tamao 30 tener niveles promedio de presin arterial sistlica iguales o menores
de 118.7? O dicho de otro modo, si se tuvieran muestras repetidas de 30 personas Qu proporcin de
muestras tendran valores promedio igual o menores
de 118.7?
Razonamiento y respuesta
17.63
30
= 3.22
Z=
140 123.47
17.55
= 0.94
Razonamiento y respuesta
La respuesta a esta pregunta requiere que n, el tamao
de muestra, sea determinado, de modo que slo 10% de
las medias muestrales est por arriba de = 122 por 2 o
ms unidades, es decir, 2. El valor de z para una
probabilidad de 0.10 o ms es de 1.28. Utilizando este
valor se puede emplear la expresin para el valor estandarizado de la media de una distribucin muestral:
X
1.28 =
124 122
2 x n
17.55 = 17.55
n
(1.28) (17.55)
= n o n = 11.23,
2
n = 11.232 = 116.23
= 0.77
z=
EE =
110 123.47
17.55
Se sabe que la poblacin de la cual se extrajo esta muestra tiene media 122.39, y se puede calcular el error
estndar de la media puesto que se conoce el valor de la
desviacin estndar poblacional, en este caso:
31
118.7 122.39
= 1.15
17.63
30
entonces,
4. ESTIMACIN, INTERVALOS DE
CONFIANZA Y PRUEBA DE HIPTESIS
Una de las caractersticas de las poblaciones humanas es
la diversidad entre ellas. As, si se toman muestras de
estas poblaciones se encontra que son distintas en
Los estudios dentro del rea mdica y epidemiolgica son en general empricos y sus resultados forman la
base para tomar decisiones que, si bien son producto de
una muestra particular de sujetos, pretenden ser aplicables a toda una poblacin definida de antemano. En este
contexto, la estadstica permite que tales conclusiones
sean vlidas al evaluar la magnitud esperada de la variabilidad de una distribucin de muestreo a partir de slo
una muestra.
Cuando se tiene una muestra con regularidad se
quiere hacer inferencias vlidas hacia algn parmetro
de la poblacin de estudio tal como una proporcin o
como una media . De manera general, tres clases de
inferencia son hechas acerca de estos parmetros.
a) Con base en la informacin obtenida de la muestra se
puede determinar el valor especfico del parmetro
poblacional ( o ). Esto es conocido como estimacin puntual.
b) Los valores obtenidos en la muestra sugieren que el
valor probable del parmetro poblacional est dentro
de un rango de valores (a, b). Ambos, a y b, pueden ser
determinados con base en la muestra, y el rango (a, b)
es llamado intervalo de confianza.
c) Si se tienen dos muestras se puede determinar si
ambas provienen de la misma poblacin o si esencialmente se trata de poblaciones distintas. A este proceso se le conoce como prueba de hiptesis.
En esta seccin se abordarn estos tres conceptos para
mostrar, de manera simple, el curso que normalmente
sigue el proceso de inferencia estadstica. Se empezar
El intervalo de confianza, por otro lado, nos proporciona un rango de valores entre los cuales se espera se
encuentre el verdadero valor del parmetro, acompaado de una medida de incertidumbre acerca de que
dicha afirmacin sea cierta. Tpicamente se suelen hacer
afirmaciones del tipo con un 95% de confianza se
puede afirmar que la prevalencia de diabetes mellitus se
encuentre entre7.2% y 7.8%.... Ms adelante se vern
algunos ejemplos al respecto y su interpretacin.
La teora estadstica ha desarrollado toda una serie
de criterios para determinar cundo un estimador es
mejor que otro, en trminos estadsticos por supuesto, y
cules son esas caractersticas o propiedades deseables
que debera de tener un estimador. En trminos estadsticos un estimador debe ser:
En trminos muy generales, las propiedades de los estimadores definen qu tan bueno, en sentido estadstico, es un estimador en particular.
Editorial El
(Captulo 3)
32
Editorial El
EE =
14
100
= 1.4
33
p(1 - p)
n
Y el intervalo de confianza a 95% para el valor del parmetro poblacional de la proporcin es:
p 1.96 x
p(1 - p)
n
(Captulo 3)
p=
22
= 0.044
500
p(1 - p)
n
0.011 1.96 x
0.044 0.018
0.026, 0.062
(0.044)(0.956)
500
310
1383 1.96 x
140
1383 26
1331, 1435
1500
1450
1400
1350
1300
1250
80
85
90
95
Intervalos de confianza (%)
99
Editorial El
34
Editorial El
H 0 : A = B
Con esto se quiere decir, que las concentraciones promedio de creatinina sern iguales entre ambos grupos. O
de manera alternativa que la diferencia ser igual a 0.
b) Comparar el resultado propuesto por la hiptesis
nula con los resultados obtenidos segn los datos de
nuestra muestra de pacientes.
Suponiendo que se ha incluido en el estudio a 60
pacientes, de los cuales la mitad reciben IC y la otra
mitad MMF. Al final del estudio se encuentra que las
concentraciones de creatinina han disminuido, en promedio, 44 mmol/L en los pacientes tratados con MMF
mientras que en los pacientes tratados con IC la disminucin ha sido de 3 mmol/L. Una diferencia promedio de 41 micromol/L. Si la hiptesis nula fuera
cierta, la diferencia promedio entre ambos tratamientos debera ser 0, pero en los datos es de 41. La pregunta es esta diferencia se debe al azar o es resultado
del tratamiento con MMF?
c) Calcular la probabilidad de ocurrencia de los resultados, o un resultado an ms extremo, bajo el supuesto de que la hiptesis nula es cierta. Si la diferencia
que se encontr se debiera al azar qu tan probable
sera hallar una diferencia de 41 mmol/L o una diferencia an ms grande? Para responder a esta pregunta, en el mbito de la estadstica se recurre con regularidad a la construccin de un cociente entre el efecto observado y el error aleatorio de esa diferencia.
Dicho error sera el producto de la variacin propia
asociada a la muestra de estudio. El cociente13 se
expresara como sigue:
efecto
diferencia observada
=
azar
error
35
expresa, en trminos muy sencillos, es una comparacin entre la diferencia de lo que hemos observado y
lo que se esperara es si la hiptesis nula fuera cierta.
En el ejemplo la diferencia observada es 41 mmol/L y
se debera ponerlo en el numerador, qu se debera
poner en el denominador? Una expresin del error
aleatorio (es decir, de que la diferencia observada se
debe slo al azar). En trminos generales una expresin de este error est dada por el error estndar de la
diferencia observada. Despus de esto, lo que dice la
teora estadstica, es que dicho cociente se aproxima a
una distribucin de probabilidad especfica si la hiptesis nula es cierta. Y de manera particular, que en
muchos casos es la distribucin normal. De hecho, los
valores resultantes de este cociente son de forma
directa comparables con los valores de una distribucin normal estndar (z).
Volviendo al ejemplo, se tiene ahora una cantidad que
permite estimar la probabilidad de observar una diferencia de 41 o una an ms extrema. Como se inform en la seccin pasada, para cada valor de z en particular existe una probabilidad correspondiente. En el
contexto de las pruebas de hiptesis a esta probabilidad se le conoce como valor p (p value). Pero para
poder calcular esta probabilidad primero se necesita
saber cul es el valor del error estndar que le corresponde a la diferencia de medias que se encuentra. Para
los datos del ejemplo el error estndar30 es EE =
16.54. De modo que el valor del cociente o estadstico de prueba es:
Diferencia observada
41
=
EE
16.54
= 2.48
De modo que en este caso z = 2.48. La probabilidad asociada a este valor z es aquella que se encuentra a la derecha de z = 2.48 en el rea bajo la curva de la distribucin
normal. Esta probabilidad vale p = 0.006 para una prueba de dos colas o p = 0.003 para una prueba de una cola.
Ms adelante se explica la diferencia entre una prueba de
una cola y de dos colas, pero en este caso se quedan slo
los resultados de una prueba de una cola.
En la figura 3-23 se presenta lo que sucedera si la
hiptesis nula fuera cierta y servir asimismo para
explicar con detalle los resultados que se han obtenido. Como se recordar, la hiptesis nula del ejemplo
sostiene que la diferencia entre tratamientos es 0. Si la
diferencia de medias se distribuye normalmente31, los
valores en torno al 0 sern los ms frecuentes, suponiendo que H0 fuera cierta, y los valores lejanos de 0
sern poco probables.
Como se ilustra en la figura 3-23, la probabilidad asociada al valor z hallado es de 0.003, es decir, que la
probabilidad de haber encontrado una diferencia
entre los tratamientos, suponiendo que la hiptesis
nula es cierta, es muy baja. Los resultados que se han
encontrado son muy poco compatibles con los resultados que se hubieran generado en dado que caso que
H0 fuera cierta.
d) Determinar si se rechaza o no la hiptesis nula. El
proceso de prueba de hiptesis no termina cuando se
36
(Captulo 3)
-2
-1
= 2.48
ha obtenido un valor p, ya que ste slo da la probabilidad de encontrar nuestros resultados, o algn resultado
ms extremo, bajo el supuesto de que la hiptesis nula es
cierta. Se puede, de manera descriptiva y sencilla, adelantar algunas ideas. Si el valor p es muy bajo, nos indica que
sera muy raro haber llegado a los resultados si H0 fuera
cierta, y se puede entonces rechazarla. Por el contrario, si
el valor p es alto, se puede pensar, en principio, que no se
tienen argumentos suficientes en contra de H0 y entonces no se podr rechazar de forma directa.
Aunque dicho as, no se tiene un criterio bien definido
para rechazar o no la hiptesis nula. Por esa razn se han
establecido criterios14 que intentan definir cundo
rechazar la hiptesis nula. En general, se ha utilizado, por
convencin, un valor p menor de 0.05 (p < 0.05) como
criterio para rechazar la hiptesis nula. En los informes
de estudios cientficos, clnicos y epidemiolgicos, se
pueden hallar multitud de ejemplos en los que se hace
uso de este criterio. Sin embargo, no se debe olvidar que
la interpretacin correcta del valor p reside en que se
trata de una probabilidad condicional. La condicin es
que H0 sea cierta. Una vez ms, el valor p representa la
probabilidad de observar nuestros resultados (o unos
ms extremos) si H0 fuera cierta
Existen muchas formas equivocadas al interpretar el
valor p, aqu se sealar la ms comn, y quiz la ms
grave, la cual consiste en creer que el valor p es la proba14
Realidad
Ha es verdadera
No se rechaza Ho
Se rechaza Ho
Decisin
-3
Editorial El
Si H0 fuera cierta,
p =0.003 de hallar este
resultado o uno ms
extremo
Editorial El
37
1. El efecto sobre las concentraciones promedio de creatinina es distinto entre ambos tratamientos.
2. El efecto sobre las concentraciones promedio de creatinina es mayor para el tratamiento con MMF que con
el tratamiento con IC.
3. El efecto sobre las concentraciones promedio de creatinina es mayor para el tratamiento con IC que con el
tratamiento con MMF.
Tambin es importante agregar que los procedimientos estadsticos que se han expuesto a lo largo de
este captulo estn ntimamente relacionados. Por ejemplo, en los artculos cientficos del rea clnica o epidemiolgica, con regularidad se informan de manera conjunta los resultados de una prueba de hiptesis, valor p,
con su respectivo intervalo de confianza, as como con el
estimador puntual de inters.
V. Ejercicios adicionales
En los ltimos aos se han desarrollado distintas herramientas de apoyo computacional para mejorar el proceso de enseanza y entendimiento de los diversos conceptos estadsticos tanto a nivel bsico como aplicado. Entre
estas herramientas se tienen los llamados applets que, en
tanto que programas interactivos, pueden ser utilizados
para visualizar y comprender conceptos estadsticos de
una manera didctica y amable.
En este sentido se recomienda, como actividad adicional y como complemento a los temas presentados en
esta seccin, la visita y uso a los siguientes sitios en los
que se han desarrollado un conjunto de applets para
ejemplificar muchos de los conceptos estadsticos presentados en este apartado.
http://lstat.kuleuven.be/java/
http://www.ruf.rice.edu/~lane/stat_sim/
http://wise.cgu.edu/
http://www.bbn-school.org/us/math/ap_stats/applets/applets.html
http://www.stat.sc.edu/~west/javahtml
38
(Captulo 3)
BIBLIOGRAFA
Dawson SB, Trapo R: Basic & Clinical Biostatistics. 4th Edition.
Appleton & Lange 2004.
Martnez GMA: Bioestadstica Amigable. Daz de Santos 2001.
Pagano M. & Gauvreau K. Principles of Biostatistics. 2nd Edition.
Duxbury 2000.
Olaiz FG, Rivera DJ, Shamah LT et al.: Encuesta Nacional de
Editorial El
Censo. Consiste en la recoleccin de informacin cuantitativa, cualitativa, o ambas sobre una o ms caractersticas de todos los elementos de una poblacin.
Desviacin estndar. Es la raz cuadrada de la varianza.
Encuesta. Consiste en la recoleccin de informacin
cuantitativa, cualitativa, o ambas de una o ms caractersticas en todos los miembros de una muestra.
Estimacin puntual. Procedimiento estadstico que proporciona un valor aproximado del parmetro de inters y ese valor se calcula a partir de la muestra.
Estimador. Es una funcin de la muestra que se utiliza para
estimar un parmetro desconocido de la poblacin.
Evento. Es un subconjunto de los posibles resultados o
valores de un experimento aleatorio.
Eventos excluyentes. Son aquellos eventos que no incluyen resultados en comn.
Grfica de barras. Es una representacin grfica de datos
nominales u ordinales a travs de barras (rectngulos)
horizontales o verticales. Las barras estn separadas
una de la otra y su altura o longitud es proporcional a
la cantidad que representa.
Hiptesis estadstica. Es cualquier aseveracin sobre el o
los parmetros de la poblacin.
Histogramas. Es una representacin grfica de una variable
de intervalo o de razn usando barras contiguas horizontales o verticales, en donde el rea de cada barra es proporcional a la frecuencia de los valores representados.
Independencia. La probabilidad de ocurrencia de un
evento no influye sobre la probabilidad de ocurrencia
de otro evento.
Intervalo de confianza. Rango de valores entre los cuales
se espera se encuentre el verdadero valor del parmetro y se acompaa de una medida de incertidumbre
acerca de que dicha afirmacin sea cierta.
Media. Promedio aritmtica de los valores de una variable o caracterstica numrica.
Mediana. Es el valor de una caracterstica que tiene la
propiedad de que la mitad de los valores lo rebasan y
la otra mitad est por debajo del mismo.
Moda. Es el valor ms frecuente de una caracterstica en
una poblacin o en una muestra.
GLOSARIO