You are on page 1of 5

SECCIÓN DE EPIDEMIOLOGÍA UNIVERSIDAD

NACIONAL
DE COLOMBIA
Revista de la Facultad de
Medicina 1999; 47 (4):232-236

Conceptos básicos de Bioestadística

Constanza Quintero Guzmán, Profesora Asociada, Facultad de Ciencias, Departamento de Matemáticas y Estadística. Aura Nidia Herrera
Rojas, Profesora Asistente, Facultad de Ciencias Humanas, Departamento de Psicología. Ricardo Sánchez Pedraza, MD. Profesor Asociado,
Centro de Epidemiología Clínica, Facultad de Medicina, Universidad Nacional de Colombia. INCLEN.

SUMMARY 2. Generación de una hipótesis: "Esa per- gunos autores de libros de Estadística
sona no es normal". la ven como explicación de la infideli-
This article is prirnarily airned to give
3. Prueba de la hipótesis: "No se com- dad (1) .
an understanding of sorne basic
principies in Biostatistics. Instead of porta como los demás, los que se El fenómeno de la variabilidad también
theoretical aspects, the ernphasis is comportan así son los enfermos men- es el responsable de que nunca poda-
firrnly on basic and practical applications tales, si lo comparo con un enfermo mos conocer las características de cier-
related with probability, odds ratios and mental esta persona se porta igual". tas poblaciones por ser estas muy gran-
descriptive statistics. 4. Conclusión: "Esta persona es un en- des o difíciles de medir. En este caso
fermo mental, definitivamente no es debemos recurrir al estudio de solo una
RFSUMEN normal". parte de esa población, lo cual se co-
noce como muestra. El asunto aquí es
Este artículo tiene como objetivo apor- El anterior proceso se realiza en muchas buscar una muestra que refleje de la
tar elementos para la comprensión de otras circunstancias: cuando vemos a mejor manera posible las característi-
algunos principios básicos de la alguien muy alto, o a una persona que cas de la población de la cual se ha to-
Bioestadística. En lugar de mostrar los tiene un acento extraño, o un modelo de mado. Obviamente, entre más grande
aspectos teóricos, se hace énfasis fun- automóvil nuevo ... sea la muestra, más se parecerá a la
damentalmente en aplicaciones bási- Cuando tenemos que analizar una serie población que pretende representar. En
cas y prácticas en el campo de la pro- de datos de un estudio clínico utiliza- este sentido, una muestra de buena ca-
babilidad, los riesgos relativos indirec- mos los mismos pasos: Primero los des- lidad es una muestra representativa.
tos y la estadística descriptiva. cribimos, luego generamos una hipóte- El proceso de describir, generar hipó-
sis que sometemos a un proceso de tesis y probarlas y finalmente sacar una
INTRODUCCIÓN prueba y finalmente llegamos a una con- conclusión, generalmente se efectúa
clusión. sobre muestras. El siguiente paso es,
En nuestra vida cotidiana permanen- Detrás de este proceso está el hecho de mediante un proceso de inferencia, ha-
temente utilizamos la Estadística. que no somos iguales, es decir, hay va- cer extensivos los hallazgos y conclu-
Cuando vemos en la calle una perso- riabilidad. En los casos en los que no siones de la muestra a la población de
na con comportamientos no habitua- hay variabilidad no se necesita la Esta- la cual proviene: esto se ha denomina-
les nos causa extrañeza y la cataloga- dística: No nos causa extrañeza el color do inferencia estadística.
mos como rara o fuera de lo normal. de un taxi porque prácticamente todos De manera general, las inferencias se
En este caso hemos seguido un pro- son iguales, no nos llama la atención que hacen mediante dos estrategias (2):
ceso dentro del cual se han dado cua- un tigre tenga rayas pues casi todos las 1. Inferencia deductiva: O método hi-
tro pasos: tienen. potético-deductivo. Creamos una teo-
La variabilidad es un fenómeno tan im- ría a partir de la cual predecimos re-
1. Descripción del comportamiento: portante que nos permite poder cono- sultados.
"Esa persona se viste descuidada- cer gente nueva, aprender cosas que no 2. Inferencia inductiva: Hacemos va-
mente, grita, dice cosas raras, es sabíamos, extrañarnos, asombrarnos, rias observaciones, dilucidamos un pa-
agresiva sin razón aparente". alegrarnos y entristecernos. Incluso, al- trón y proponemos una teoría.
232
QUINTERO C, HERRERA A, SANCHEZ R.

Para Popper la inducción surgida de la piedades: sanas y la situación de no interés (au-


acumulación de evidencia no refuerza sencia de demencia) está en el resto de
una teoría. La inducción se basa en peA YB) = peA) x P(B) personas (85). El odds será entonces
nuestra creencia de que lo que aun no 15/85. Si interesa analizar un antece-
Si dos eventos son independientes, la
hemos observado es igual a lo que ya dente de dependencia al alcohol como
probabilidad conjunta es el producto de
observamos. Esto quiere decir que no posible factor de riesgo en los pacien-
las probabilidades individuales. Esta es
podemos probar una hipótesis con tes de demencia pueden compararse 2
la base del test de Ji cuadrado.
muchas evidencias a favor pero pode- odds: el odds de demencia en pacien-
La probabilidad de que B ocurra dado
mos refutarla con una única observa- tes con dependencia al alcohol (12/30)
que A ocurrió se llama probabilidad
ción. En este sentido el proceso lógico versus el de pacientes sin dependencia
condicional y se denota:
sería plantear una teoría o conjetura y al alcohol (3/55).
tratar de demostrar que es falsa. Entre
P(AIB) = peA YB)IP(B) Con Sin
más resista a ser destruida será más
demencia demencia
fuerte. Las teorías científicas útiles son Un tipo particular de probabilidad condi- Con antecedente de
potencialmente falsificables (3). cional es la Probabilidad Bayesiana. Por alcoholismo 12 30
Los epidemiólogos hacen inferencias ejemplo, si tomamos 100esquizofrénicos
inductivas para generalizar a partir de y evaluamos la frecuencia de delirios Sin antecedente de
una serie de observaciones, generan persecutorios en ese grupo encontrando alcoholismo 3 55
hipótesis y luego usan inferencias que 70 los tienen, conocemos la proba-
deductivas para probar tales hipótesis. bilidad de tener delirios persecutorios Si se divide el odds de demencia en pa-
Dentro de este proceso tiene un papel dado que se tiene esquizofrenia : cientes con dependencia al alcohol so-
fundamental la probabilidad, aspecto P(DIE)=0.7 bre el de pacientes sin dependencia al
sobre el que nos referiremos a conti- Sin embargo puede ser más importante alcohol se tiene una medida de riesgo
nuación. saber cuál es la probabilidad de tener que dice cuántas veces es mayor el ries-
esquizofrenia dado que se tienen deli- go de tener demencia si se tiene el an-
Probabilidad y odds: rios persecutorios [P(EID)]. Esto se tecedente de alcoholismo. Esta medida
calcula mediante la siguiente fórmula: es el OR (5,6), (traducido de diferen-
La probabilidad de que ocurra un fe- tes maneras: riesgo relativo indirecto,
nómeno se cuantifica entre O (seguro razón de suertes, razón de chances ... ).
no ocurre) y 1 (seguro ocurre). Si la P(EI D)=- P(DI E)P(E) A A El OR (Odds Ratio) es un cociente en-
probabilidad de un evento es P y hay N P(DI E)P(E)+P(DI E)P(E) tre 2 odss. En el ejemplo anterior ten-
ensayos u oportunidades de que el even- dríamos (12/30)/(3/55)=7.33, lo que
to ocurra podemos esperar que el even- El chance (odds) es un concepto fami- quiere decir que el chance de tener de-
to ocurra NxP veces (frecuencia espe- liar en los juegos de azar (4). Cuando mencia es 7.33 veces mayor en los que
rada). se dice que las apuestas están 4 a 1 a tienen antecedente de alcoholismo.
Dos eventos son mutuamente excluyentes favor del boxeador X estamos dicien-
cuando, si uno ocurre el otro no ocurre: do que cuatro personas apuestan a que Estadística descriptiva:
La probabilidad de que uno u otro ocu- X gana y 1 a que pierde. El odds puede
rra es la suma de las probabilidades in- definirse como el cociente entre el nú- Para ilustrar los procedimientos bási-
dividuales: En un dado la probabilidad mero de maneras consideradas favo- cos de la Estadística descriptiva se to-
de que salga 3 ó 5 es 1/6 + 1/6 = 2/6. rables o de interés (apostadores a fa- mará un ejemplo consistente en una
La notación de esta propiedad es: vor del boxeador X) sobre el número serie de datos de una muestra de 30
de maneras consideradas desfavorables niños, correspondiente a un estudio
peA o B) = PrA) + P(B) o de no interés (apostadores en contra para averiguar los factores de riesgo
del boxeador X). Por ejemplo, si tene- de bajo peso al nacer, definido éste
Si dos eventos son independientes, el mos un grupo de 100 personas en las como peso menor de 2500g.
que ocurra uno de ellos no tiene efecto cuales se desea determinar la frecuen-
sobre la ocurrencia del otro. La proba- cia de demencia y se encuentra que 15 Variables a considerar:
bilidad de que ocurran juntos es el pro- de ellos tienen la enfermedad se puede 1. IP: Indicador de peso al nacer
ducto de las probabilidades individua- decir que en ese grupo la probabilidad (Oepeso al nacer>2500g, l epeso al
les. En un dado la probabilidad de que del desenlace es del 15%. También se nacer<2500g)
salga un número par menor de 5 es 1/2 puede decir que la situación de interés
x 2/3 = 2/6. La notación de esta pro- (presencia de demencia) está en 15 per- 2. Edad: Edad de la madre en años

233
SECCIÓN DE EPIDEMIOLOGÍA Rev Fac Med UN Co11999 Vol. 47 N° 4

3. Pesoma: Peso de la madre en libras Es muy importante considerar que hay RAZA:
diferencia entre datos cualitativos y
4. Raza: Raza de la madre (1=blanca, Clase Frecuencia Frecuencia
datos cuantitativos (7). Los cualitativos
absoluta relativa (%)
2=negra, 3=otra) son aquellos que no son caracteriza-
dos por valores numéricos, y en gene- 1 15 42.9
5. HT: Historia de hipertensión ral describen la cualidad de una perso- 2 8 22.9
(1=si,O=no) na o cosa; en este estudio son: Indica- 3 12 34.2
dor de peso al nacer, raza, historia de
6. HF: Hábito de fumar (1=leve, 2=mo-
hipertensión y hábito de fumar. La asig- Estas distribuciones de frecuencia pue-
derado, 3= grave)
nación de un valor numérico a este tipo den representarse gráficamente por
de datos es artificial y solo se usa para medio de un histograma. En el caso de
7 P: Paridad
permitir su procesamiento en los pro- la edad la representación gráfica es la
8. NS: Nivel socioeconómico (1= bajo, cedimientos o programas estadísticos. siguiente:
2=medio) Si las categorías siguen algún orden se
habla de variables ordinales. En estos 14
Los datos se presentan en formato de casos sacar un promedio no tiene sen-
12 1
texto separado por tabulador, donde tido.
10
cada columna corresponde, en el mis-
mo orden, a cada una de las variables Los datos cuantitativos son aquellos que 8

mencionadas antes. poseen valor numérico. De manera ge- 6


neral puede decirse que son aquellos 4
1 15 115 3 1 2 1 2 en los cuales sacar un promedio tiene
O 18 100 1 1 1 2 2 2
sentido.
1 17 100 2 1 3 1 2 o
Es importante describir y resumir la
O 16 112 1 1 2 2 [15,20) [20,25) [25,30) [30,35]
O 24 103 2 O 2 2
información obtenida sin pérdida de sus
Rangos de edad
1 23 110 3 O 3 2 características esenciales. Un método
1 24 112 3 O 1 2 1 es elaborar tablas de frecuencia: En el La frecuencia acumulada representa la
O 22 90 O 2 1 1 caso de variables nominales y numéri- suma de frecuencias desde la clase in-
O 21 127 2 1 1 2 2 cas discretas se reparten los datos en ferior hasta la actual. La tabla siguiente
1 31 118 2 O 1 I 2
sus categorías y se cuenta el número representa la frecuencia acumulada de
I 20 109 3 O 3 2 2
O 25 118 1 3 2 2
de observaciones en cada clase (fre- la variable edad.
24 138 1 O 3 2 2 cuencia absoluta); posteriormente se EIW>
1 25 85 3 O 2 I calcula la frecuencia relativa dividien- Rango Free. Free.
O 22 115 2 O 1 1 do la frecuencia absoluta por el núme- absoluta relativa (%)
20 110 1 O 3 3 acumulada acumulada
ro total de observaciones. Para las va-
1 17 113 O 1 1 I
riables continuas cada clase es un in- [15,20) 8 22.9
O 32 121 3 O 2 3 1
1 32 105 1 1 1 2 2
tervalo, escogido de tal manera que [20,25) 20 57.1
O 31 130 3 O 2 2 2 cada observación pertenezca a una y [25,30) 28 80.0
1 28 120 1 O 3 2 2 sólo una clase. [30,35] 35 100.0
O 29 135 1 O 3 1 2
1 26 154 3 O 1 3 2 Se ilustra este concepto para la varia- Una gráfica de frecuencias relativas
O 34 170 O 1 1 2
ble continua edad y para la variable acumuladas proporciona información
O 25 140 1 O 3 2
34 130 2 O 2 2
nominal raza. visual de los valores acumulados:
1 23 124 2 O 2
100,0
O 35 132 1 1 3 2 EDAD:
O 25 140 1 O 3 3 2 00,0 i
26 154 3 O 2 Clase Frecuencia Frecuencia 00,0

El anterior formato de presentación de absoluta relativa (%)


datos tiene la ventaja de que puede ser
leído fácilmente por cualquier progra-
ma estadístico o por cualquier hoja
[15,20)
[20,25)
[25,30)
8
12
8
22.9
34.3
22.9
~~i [15,2» [2),25) [25,3) [3),:I;J
electrónica. [30,35] 7 20.0 R:rg:E 00 a:a:t

234
QUINTERO C, HERRERA A, SANCHEZ R.

Con frecuencia se observan dos carac- dente, la mediana es el valor central. Si datos y debe considerar todas las ob-
terísticas a la vez y se quiere informa- el número de valores en el conjunto de servaciones. Dentro de las medidas de
ción sobre la frecuencia en una cate- datos N es impar, la mediana es el va- dispersión tenemos:
goría determinada de una variable y de lor que aparece en el lugar (N +1)/2.
la otra simultáneamente. Esta presen- Cuando N es par hay dos valores cen- El Rango: Es la diferencia entre los va-
tación simultánea y cruzada de carac- trales y la mediana es el promedio de lores máximo y mínimo de la variable.
terísticas se realiza por medio de las éstos. Es independiente de la localización cen-
Tablas de Contingencia. Como ilustra- tral pero considera sólo dos valores del
La media: Es la más común entre las conjunto de datos. Además un valor
ción se presenta la tabla de contingen-
cia para las variables raza y edad. medidas de localización central. Se de- extremo altera el rango considerable-
fine como el promedio aritmético, es mente.
EDAD decir la suma de los N valores de la
Raza [15,20) [20,25) [25,30) [30,35] Total variable dividida por N. La media se usa Desviación estándar y varianza: Para
para datos numéricos. La media es sen- hallar la varianza, cuya notación es
1 3 4 5 3 15
sible a los valores extremos. Si se tiene S 2 Ó (}"2 ,se calcula para cada observa-
2 2 4 O 2 8
3 3 4 3 2 12 una tabla de frecuencias, se puede es- ción x su desviación con respecto a la
Total 8 12 8 7 35 timar la media por un promedio ponde- media, se eleva este resultado al cua-
rado que se obtiene multiplicando el pun- drado, se suma sobre todas las obser-
Frecuentemente es preferible disponer to medio de cada intervalo por el número vaciones y esta suma se divide por N
de medidas que resuman los datos. En de observaciones en ese intervalo. número de observaciones:
el caso de datos cualitativos las medi-
das de resumen empleadas son la moda En una distribución simétrica la moda, n

y los porcentajes o proporciones. En el la mediana y la media son iguales. L( Xi -Jil


caso de datos ordinales también se uti- Si la media es mayor que la mediana la (J2 = .!:.:i=21 _

lizan como medidas de resumen la distribución será sesgada a la derecha N


moda y la mediana. En el caso de datos (positivamente sesgada): La varianza es una buena medida de
cuantitativosse utilizan la media, la moda variabilidad ya que es independiente de
y la mediana (8). la localización central y en ella intervie-
nen todas las observaciones. Como la
En general, estas medidas de resumen varianza se expresa en unidades al cua-
permiten tener una idea de la localiza- drado, es conveniente definir otra me-
ción de los datos. Esta medición debe dida de variabilidad: la desviación
Mod Med ~
acompañarse de otra medida que refle- estándar, como la raíz de la varianza.
je la variabilidad de los datos (Medidas En una distribución sesgada a izquier- Esta última es más conveniente para
de dispersión): da, se tiene que la mediana es mayor describir la variabilidad, ya que se ex-
que la media: presa en las mismas unidades que los
Localización Central de los datos (Me- datos originales.
didas de tendencia central) (9):
En nuestro estudio se tiene:
Este término se refiere a la media, a la
mediana o a la moda, medidas apropia- Variables (}"2 Moda Mediana Rango o
das para análisis descriptivos de datos:
Edad 27.98 24.0 24.0 19.0 5.29
J.l Med Mod
Pesoma 119.2 115.0 115.0 85.0 10.92
La moda: La moda de una distribución Medidas de Dispersión: 2.00
Paridad 1.91 2.00 2.00 1.38
es, en variables cualitativas, el valor que
aparece el mayor número de veces, es Las medidas de localización central no Hasta aquí se han discutido medidas
decir el que tiene mayor frecuencia. Si son suficientes para resumir los datos apropiadas para resumir observaciones
la variable es cuantitativa, es el punto ya que no tienen en cuenta la variabili- sobre una característica. Sin embar-
medio de la clase en la cual aparece el dad de estos. Por lo tanto se requiere go, en un estudio es útil conocer las
mayor número de observaciones. una medida que indique la variabilidad relaciones entre dos o más caracterís-
de los datos. Una buena medida de dis- ticas. A continuación se hará la discu-
La mediana: Después de ordenar los persión o variabilidad debe ser indepen- sión para examinar la relación entre dos
datos de manera ascendente o deseen- diente de la localización central de los características numéricas (edad y peso

235
SECCIÓN DE EPIDEMIOLOGÍA Rev Fac Med UN Col 1999 Vol. 47 N° 4
de la madre) y entre dos característi- valores entre -1 y 1; -1 Y 1 indican per- cos utilizados en la literatura médica,
cas ordinales (nivel socioeconómico e fecta correlación entre los rangos de los haciendo énfasis en los aspectos prác-
historia de hipertensión). valores y no entre los valores mismos. ticos relativos a este tipo de aplicacio-
Para estimar la relación entre dos ca- nes.
racterísticas numéricas se usa el co- El coeficiente de correlación entre ni-
eficiente de correlación de Pearson, vel socioeconómico e historia de
REFERENCIAS
dado por hipertensión es 0.1324; por lo tanto
BIBLIOGRÁFICAS
n
puede decirse que no existe correlación
IJ Xi -)1x )( s. =u , ) entre las dos características. l. Nonnan GR, Streiner DL: Bioestadística.
i=l Barcelona: Mosby Doyma Libros: 1996.
Pxy Para comparar la variabilidad de una 2. Wassertheil-Smoller S. Biostatistics and
Na xa y
característica cuantitativa en grupos de Epidemiology. A primer for health
Este coeficiente toma valores entre -1 proffesionals, 2nd ed. New York: Springer
una característica nominal, es conve-
Verlag: 1995;2-6.
y 1, el-l describe una relación negati- niente usar el coeficiente de variación 3. Buck C. Popper's Philosophy for
va perfecta y el 1 describe una relación que estandariza la variación pues equi- Epidemiologists. International Journal of
positiva perfecta. El valor del coeficien- vale a la variación relativa al tamaño de Epidemiology 1975; 4:159-167.
te es independiente de las unidades de la media. Su fórmula es: 4. Ahlbom A. Biostatistics for
medida y está influenciado por valores Epidemiologists. Boca Raton: Lewis
Publishers: 1993;76-78.
extremos de la característica. Es im-
portante notar que correlación no im-
cv = () 100 5. Selvin S. Statistical Analysis of
J1 Epidemiologic Data. 2nd ed. New York:
plica causalidad (lO). Oxford University Press: 1996;93-94.
El coeficiente de correlación entre edad Los conceptos hasta aquí ilustrados 6. Dunn G, Everitt B. Clinical Biostatistics.
y peso de la madre es 0.254, lo cual comprenden los elementos básicos para An Introduction to Evidence-Based
indica que hay pobre correlación entre iniciar el proceso de formulación y Medicine.New York: Edward
Amold:1995;12-20.
estas variables por ser éste muy aleja- prueba de hipótesis. No es posible plan-
7. Dawson-Saunders B, Trapp RG.
do de 1 y de -1. tear adecuadamente el método estadís- Bioestadística Médica. México: Manual
tico para probar una hipótesis si antes Moderno: 1993 ;24-26.
Para estimar la relación entre dos ca- no se ha hecho una adecuada descrip- 8. Rosner B. Fundamentals of Biostatistics,
racterísticas ordinales se usa el coefi- ción de los datos, partiendo de una cla- 4thed. Belmont: Duxbury Press:1995;5-29.
ciente de correlación de Spearman, el ra definición de las variables que se 9. Daniel WW. Bioestadística. Base para el
análisis de las ciencias de la salud, 3ª ed.
cual considera el rango de las observa- están manejando.
México: Noriega Limusa: 1991 ;34-40.
ciones después de ser ordenadas, como 10. Altman DG. Practical Statistics for Medical
si fueran los valores reales de las ob- En una entrega posterior se presenta- Research. London: Chapman&
servaciones. Este coeficiente toma rán los principales métodos estadísti- HiIl:1991 ;277-298.

Nota: Tomado del libro "Estrategias de Investigación Medica Clínica "E Ardila , R Sanchez. J Echeverry Eds. ( en prensa).

236

You might also like