You are on page 1of 125

MANUAL DE ESTADSTICA BSICA PARA ESTUDIANTES DE MEDICINA

Alfonso S. Gonzlez Cervera Departamento de Atencin a la Salud Universidad Autnoma Metropolitana Unidad Xochimilco
agcerver@ correo.xoc.uam .m x

CONTENIDO .

Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i Simbologa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii CAPTULO 1: ORGANIZACIN DE LA INFORMACIN . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1. Variables y Constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Bases de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3. Distribuciones de Frecuencias y Construccin de Cuadros . . . . . . . . . . . . . . . . 5 1.4. Construccin de Grficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Ejemplo 1.1: Una Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Ejemplo 1.2: Errores en la Construccin de Grficas . . . . . . . . . . . . . . . . . 19 CAPTULO 2: MEDIDAS DE RESUMEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Media aritmtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Media Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo 2.1: Obtencin de la Moda (Mo) y de la Mediana (Md) . . . . . . . . Ejemplo 2.2: Obtencin de una Media Aritmtica . . . . . . . . . . . . . . . . . . . Ejemplo 2.3: Media Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de Dispersin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Varianza (F2 , s2 ) y Desviacin Estndar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo 2.4: Obtencin e Interpretacin de la Desviacin Estndar (s) . . . Razones y Proporciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5. Variables Cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo 2.5: Obtencin de una Proporcin . . . . . . . . . . . . . . . . . . . . . . . . CAPTULO 3: DISTRIBUCIONES DE PROBABILIDAD . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. Concepto de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Distribucin Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Distribucin Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Aproximacin de la Distribucin Binomial a la Normal . . . . . . . . . . . . . . . . . Ejemplo 3.1: Determinacin del rea bajo la curva (probabilidad) . . . . . . . Ejemplo 3.2: Aproximacin de la Distribucin Binomial a la Normal . . . . . 22 22 22 22 23 23 24 26 28 30 32 32 32 35 37 37 39 41 41 43 46 52 59 63

CAPTULO 4: MUESTREO Y DISTRIBUCIONES DE MUESTRAS . . . . . . . . . . . . . . . . . 64 4.1. Poblacin y Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.2. Distribuciones Muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Ejemplo 4.1: Obtencin de un Intervalo de Confianza para la Verdadera Media en una Poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Ejemplo 4.2: Obtencin de un Intervalo de Confianza para la Verdadera Proporcin en una Poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 CAPTULO 5: CONTRASTE DE HIPTESIS PARA UNA SOLA MUESTRA . . . . . . . . . . 5.1. Una Sola Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Una Sola Proporcin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo 5.1: Contraste de Hiptesis para Una Sola Media . . . . . . . . . . . . . Ejemplo 5.2: Contraste de Hiptesis para Una Sola Proporcin . . . . . . . . . 76 76 79 80 83

CAPTULO 6: CONTRASTE DE HIPTESIS PARA DOS MUESTRAS GRANDES . . . . . 86 6.1. Medias de Dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 6.2. Proporciones de Dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Ejemplo 6.1: Contraste de Hiptesis para las Medias de Dos Muestras . . . . 90 Ejemplo 6.2: Contraste de Hiptesis para las Proporciones de Dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 CAPTULO 7: DISTRIBUCIN t DE STUDENT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 7.1. Muestras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 7.2. Muestras no Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Ejemplo 7.1: Contraste de Hiptesis para Dos Medias de Muestras Pequeas Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Ejemplo 7.2: Contraste de Hiptesis para Dos Medias de Muestras No Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 CAPTULO 8: PRUEBA DE P 2 (JI AL CUADRADO) . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Ejemplo 8.1: Obtencin de Ji al Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . 110 CAPTULO 9: REGRESIN LINEAL Y CORRELACIN . . . . . . . . . . . . . . . . . . . . . . . . 9.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3. Correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo 9.1: Regresin Lineal y Correlacin . . . . . . . . . . . . . . . . . . . . . . 113 113 114 120 126

i INTRODUCCIN . El aprendizaje de la estadstica es indispensable para todo estudiante de medicina, pues en la actualidad es imposible mantenerse actualizado en cualquier campo de la profesin sin la lectura o la consulta de artculos de investigacin mdica. Pero tampoco es posible entender lo que estos artculos se preguntan o afirman sin conocer el lenguaje, al menos el ms sencillo, que se utiliza para el anlisis de los resultados y para la interpretacin de la informacin. En medicina, este lenguaje est dado bsicamente por la epidemiologa y por la estadstica. La epidemiologa proporciona las herramientas necesarias para entender los procedimientos tiles y necesarios (los mtodos) que permiten llevar a cabo investigaciones en el rea de la salud, mientras que la estadstica provee las tcnicas que se requieren para analizar los resultados de esas investigaciones. De estas ltimas se ocupa el presente manual. La estadstica, sin embargo, no se limita (ni mucho menos) a las tcnicas de anlisis que aqu se presentan. Estas son slo las ms elementales, son las que constituyen la base para poder posteriormente avanzar sobre las ms complejas. Pero no se pueden abordar estas ltimas sin el conocimiento y manejo adecuado de las primeras. Desafortunadamente, la gran mayora de los libros de estadstica para estudiantes de medicina (o como se les llama comnmente, de bioestadstica) no son muy estimulantes para el aprendizaje pues, en su afn por exponer de la manera ms formal los fundamentos de las tcnicas, se vuelven innecesariamente complejos y confusos para los que desean o necesitan una introduccin a este campo. Este manual tiene como objetivo facilitar el aprendizaje, pero debe tomarse en cuenta que, por el tratamiento preliminar que se da a sus fundamentos, no debe verse como un sustituto de la lectura y del estudio de algn libro de estadstica.

ii SIMBOLOGA . Caracteres latinos: a: valor de la interseccin de una lnea de regresin en una muestra (captulo 9). b: valor de la pendiente de una lnea de regresin en una muestra (o coeficiente de regresin; captulo 9). EE : error estndar (o de muestreo o aleatorio o experimental; captulos 4 al 7). gl : grados de libertad (usualmente, pero no siempre, n - 1). Ho : hiptesis nula (captulos 5 al 9). n: nmero total de observaciones (casos) en una muestra. n - 1 : grados de libertad (gl). p: proporcin en una muestra (captulo 2). p(x) : probabilidad de que ocurra un suceso x (captulo 3). p<, p>, p=:probabilidad de equivocarse al rechazar la hiptesis nula (captulos 5 al 8). r: coeficiente de correlacin de Pearson (captulo 9); tambin se utiliza para sealar el nmero de observaciones con la caracterstica buscada (captulo 2). 2 r : coeficiente de determinacin (captulo 9). s: desviacin estndar en una muestra (captulo 2). 2 s : varianza en una muestra (captulo 2). G x: media aritmtica de una muestra de la variable x (captulo 2). G y: media aritmtica de una muestra de la variable y.

Caracteres griegos: ": $ : :: B: E: F: F2 : P2 : valor de la interseccin de una lnea de regresin en una poblacin (captulo 9). valor de la pendiente (o coeficiente de regresin) de una lnea de regresin en una poblacin (captulo 9). media aritmtica de la variable x en la poblacin(captulo 2). proporcin en una poblacin (captulo 2). suma. desviacin estndar en una poblacin (captulo 2). varianza en una poblacin (captulo 2). Ji al Cuadrado (captulo 8).

CAPTULO 1: ORGANIZACIN DE LA INFORMACIN


1.1. VARIABLES Y CONSTANTES . Cuando se lleva a cabo una investigacin, uno de los aspectos que en primer lugar se toma en cuenta es el tipo de datos recolectados, pues ello define el diseo de la base de datos, los anlisis que puedan llevarse a cabo y las formas de presentacin. En primer lugar, podemos advertir que existen cantidades (o magnitudes) cuyos valores siempre permanecen fijos, mientras que otras pueden tomar distintos valores. Por ejemplo, si observamos el dimetro de la pupila, podremos apreciar que se modifica de acuerdo a la cantidad de luz que llega al ojo; sin embargo, la relacin entre la circunferencia de la pupila y su dimetro permanece constante, no importando que se trate de un crculo grande o pequeo (la circunferencia siempre es 3.1416 veces la longitud del dimetro, aproximadamente, o sea el nmero B). De esta manera, el dimetro (una cantidad que se modifica) es una variable; por otro lado, la relacin entre la circunferencia y el dimetro (que siempre es la misma) es una constante. Existen distintos tipos de constantes: las numricas (como la mencionada arriba o el nmero e, igual a 2.718281828 aproximadamente, base de los logaritmos naturales), las fsicas (constante de Boltzmann, k; constante de Planck, h) o las qumicas (nmero o constante de Avogadro, NA; constante de los gases, R; constante de equilibrio, KC). La estadstica, sin embargo, tiene que ver casi siempre con variables ms que con constantes. Las variables y las constantes son generalmente representadas por smbolos, con el objeto de poderlas escribir rpida y concisamente al manipular frmulas o reglas de computacin. Por lo regular se utilizan letras. Se acostumbra usar las del final del abecedario (por ejemplo, x, y, z) para las variables, y las del inicio (por ejemplo, a, b, c) para las constantes. Otras letras, como i, j o k, se usan para procesos de conteo repetitivo; mientras que la letra n se usa para representar el nmero total de repeticiones u observaciones. Sin embargo, stas son convenciones que pueden estar sujetas a cambios, dependiendo del tema o del autor, por lo que es aconsejable que siempre se aclare el significado de cada smbolo, especialmente cuando se trata de uno nuevo o se le da una denotacin distinta a la usual. En este manual se procurar utilizar la simbologa ms comn (ver la seccin de Smbolos Utilizados). Las variables tambin pueden clasificarse en distintas clases. En los libros de estadstica podrn encontrarse clasificaciones diferentes, pero todas, excepto por lo que aqu mencionaremos, pueden reducirse a dos categoras: variables cualitativas y variables cuantitativas. Adems,

2 como se ver en los siguientes temas, es esta distincin la que ms nos interesa para el anlisis estadstico. Las variables cualitativas, como su nombre lo expresa, son aqullas que se refieren a una cualidad, es decir, a una caracterstica o atributo, a la calidad de algo. Estos atributos son mutuamente excluyentes. El sexo, el lugar de nacimiento, la presencia de un sntoma, son ejemplo de ello: se pertenece a un sexo o a otro, se puede nacer en un lugar o en otro, se tiene o no un sntoma, pero no se puede tener ambas condiciones a la vez (son mutuamente excluyentes). En realidad, en contraste con la definicin de variable que se dio anteriormente, estas no manifiestan una cantidad o magnitud, su variabilidad est en trminos de la presencia o ausencia de una caracterstica. Las variables cuantitativas son aquellas cuya magnitud puede expresarse en una escala numrica y son de dos tipos: las continuas y las discontinuas. Variables discontinuas son las que se refieren a magnitudes que nicamente pueden tomar valores enteros en una escala: el nmero de embarazos, el nmero de leucocitos, el nmero de pacientes tratados. Estas variables tambin se conocen como "discretas", trmino inapropiado en espaol, producto de una psima traduccin del ingls. Las variables continuas son las que pueden tomar cualquier valor entre dos puntos de una escala continua. Como es conocido por cualquier persona que haya cursado la escuela secundaria, la cantidad de valores que puede haber entre estos dos puntos es infinita, y la precisin con que se pueda medir la variable depender del instrumento de medicin. Ejemplos de estas son: la talla (longitud), la edad (tiempo), la presin, los volmenes. Las variables pueden expresarse, de acuerdo con su naturaleza, en diferentes escalas: - escalas cardinales: o nominales, son aquellas en las que los nmeros sirven slo para identificacin de las distintas categoras. Por ejemplo, es usual que los datos cualitativos obtenidos sean codificados con nmeros para su ms fcil manejo, particularmente cuando se crean bases de datos por medios electrnicos. As, los individuos del sexo masculino pueden ser identificados con el nmero 1, mientras que a los del sexo femenino se les puede asignar el nmero 2; a los que no tienen ningn sntoma de un padecimiento estudiado se les puede asignar el nmero 0 (cero), a quienes presentan un sntoma el nmero 1, a quienes presentan ms sntomas el nmero 2. Como se ve, esto es arbitrario, y lo mismo dara si se invirtiera el orden o si se asignara cualquier otro nmero. Estas escalas se utilizan para variables cualitativas. - escalas ordinales: son aquellas que expresan un orden, como su nombre lo indica, pero en las que los distintos puntos no tienen relacin con una magnitud determinada. Por ejemplo, la escala de Mohs, que establece la dureza de los minerales (de acuerdo con su capacidad para rayar a otros) y que va del 1 al 10, correspondiendo el 1 al mineral ms suave (talco) y el 10 al ms duro (diamante); en el mbito mdico se usan para sealar de manera subjetiva ciertos hechos (intensidad del dolor, gravedad del paciente). Otras escalas muy utilizadas en medicina son: la de la puntuacin APGAR, la de Glasgow para los estados de coma o la del cncer crvico-uterino. La caractersti-

3 ca de estas escalas es que la magnitud entre un intervalo y el siguiente de la escala no es por necesidad la misma. Por ejemplo, en la escala de Mohs, la dureza de un mineral colocado en el punto 4, no necesariamente es el doble de la de otro colocado en el punto 2, simplemente indica que el primero es ms duro que el segundo. Estas escalas se utilizan preferentemente para variables cualitativas. - escalas de intervalos: estas tienen la caracterstica de que la distancia entre dos puntos de una escala expresa una magnitud dada. Por ejemplo, la distancia que hay entre los 10 y los 15 centgrados, es la misma que hay entre los 30 y los 35. - escalas de razones: es similar a la de intervalos, pero esta tiene un cero absoluto. Se puede ver la diferencia entre una y otra si tomamos en cuenta, por ejemplo, que el contenido de calor de un cuerpo a 40 centgrados no es el doble del de un cuerpo a 20 centgrados, pues el cero en esta escala no es absoluto (no indica ausencia de calor), mientras que si se mide la temperatura en grados Kelvin, s se puede decir que un cuerpo a 40 K contiene el doble de calor que otro a 20 K. Estas dos ltimas escalas se utilizan para las variables cuantitativas. Grfica 1.1. Escalas ordinales para identificar el nivel de dolor.

Debe sealarse que algunos autores utilizan la clasificacin de las escalas para referirse a las variables; algunos otros usan denominaciones distintas a las de arriba. Sin embargo, lo ms comn es emplear la terminologa que aqu presentamos, adems de ser la ms clara.

4 Adicionalmente, es conveniente sealar que las variables cuantitativas pueden ser tratadas como si fueran cualitativas; esto es, en ocasiones ciertos niveles de una variable pueden ser asociados a atributos o cualidades. Por ejemplo, si tomamos la presin arterial sistlica (variable continua) de una persona, podemos clasificarla como hipotensa, normotensa o hipertensa (variable cualitativa). Asimismo, podrn encontrarse en distintos libros otras categoras de variables. Una muy comn es la de variable aleatoria. Esta se refiere a que existen magnitudes variables cuyos cambios estn dados al azar (por ejemplo, si medimos en repetidas ocasiones y bajo las mismas condiciones, los niveles de hemoglobina de un individuo sano, estos variarn de una ocasin a otra sin un orden predeterminado). Por otro lado, hay otras magnitudes que pueden variar pero con un orden preestablecido; por ejemplo, la posicin de las manecillas de un reloj es variable, pero sus cambios no estn sujetos al azar. Existen tambin las variables conocidas como dependientes e independientes (ver captulo 9), las cuales pertenecen a la categora de las aleatorias. 1.2. Bases de Datos. Una base de datos consiste en una coleccin organizada de observaciones (casos) y de variables (informacin sobre cada caso), de tal forma que sirva de partida para su inspeccin y anlisis. Una vez que los datos de una investigacin se han recolectado, por ejemplo, en un cuestionario, en una historia clnica o en algn otro tipo de registro, se concentran ya sea sobre papel o, ms comnmente en la actualidad, en medios electrnicos. Para esta ltima opcin existen diferentes formas de hacerlo: - utilizando programas especiales para la "captura" (segn la terminologa ms comn) de los datos, como dBase , Paradox , FoxPro o Access entre otros; - en hojas (o "cuadernos") de clculo como Excel o Quattro Pro ; - o bien en programas especiales para anlisis estadstico como SPSS . La ventaja que supone el primer tipo de programas es que, con diferencias entre ellos, permiten un mayor control o "validacin", de la captura, lo que reduce las oportunidades de errores; los otros permiten realizar anlisis directos de la informacin, ya sean numricos, tabulares o grficos. Por lo regular, las bases creadas en los dos primeros tipos de programas deben ser "exportadas" a los especializados en estadstica para llevar a cabo dichos anlisis o al menos hacerlos con mayor facilidad. Esto no representa mayor problema, pues prcticamente todos los distintos formatos de archivos son intercambiables. Esto ltimo depende de las versiones de los programas en que hayan sido creados y de otras limitaciones particulares que no cabe describir aqu.

5 Lo ms importante es saber que el diseo acertado de la base de datos es fundamental para su utilizacin fcil y gil y que depender en buena parte del programa que se piense utilizar (vase el ejemplo 1.1). 1.3. Distribuciones de Frecuencias y Construccin de Cuadros. Una vez que se ha creado la base de datos (como en el ejemplo 1.1) lo que se desea es examinarla para descubrir las caractersticas que posee en trminos de la magnitud que alcanzan las distintas variables o de sus tendencias. En dicho ejemplo, esta inspeccin no sera difcil, pues contiene pocas observaciones (28) y la totalidad de la informacin podra apreciarse en una sola ojeada. An as, cuando se vaya realizar el anlisis y la discusin de los resultados, siempre ser conveniente que los datos se presenten en forma resumida para facilitar la exposicin de los hallazgos y de las ideas que resulten de ellos; esto se vuelve ms imperioso conforme el nmero de observaciones crece. Previamente a la popularizacin de los recursos electrnicos con que ahora contamos, la cual se dio sobre todo durante los ltimos 30 aos del siglo XX, primero con las calculadoras que incluyeron funciones estadsticas y luego con las computadoras personales, la construccin idnea de una distribucin de frecuencias era un asunto de la mayor importancia, especialmente cuando el nmero de observaciones era grande y las variables eran continuas. Esta importancia radicaba en el hecho de que, no habiendo otros recursos ms sofisticados para el comn de los investigadores que la regla de clculo o el baco, an los anlisis ms sencillos podan entraar una gran dificultad y una enorme paciencia. Para contender con estos obstculos se idearon tcnicas que, trabajando con datos resumidos (el trmino tcnico es "agregados"), permitan llevar a cabo los anlisis requeridos. Estas tcnicas se basaban en la construccin de distribuciones de frecuencias con un determinado nmero de intervalos de valores y una amplitud conveniente de tales intervalos. Actualmente, a no ser que uno se encuentre en la miseria tecnolgica, estas tcnicas han dejado de tener utilidad, pero an se pueden encontrar en algunos libros de estadstica, por si acaso. Este manual no los abordar. En nuestros das la importancia de una distribucin de frecuencias radica ms en la presentacin de los resultados que en el anlisis mismo, pues este se lleva a cabo con cada una de las observaciones tomadas individualmente. En otras palabras, la distribucin de frecuencias se realiza con la finalidad de construir un cuadro que ayude a comunicar los hallazgos del estudio realizado y que facilite el entendimiento de los argumentos expuestos. Para cumplir con este objetivo es conveniente considerar las siguientes ideas: 1. TTULO. Todo cuadro debe tener un ttulo que diga el "qu" (de qu se trata, a qu tema se refiere), el "dnde" (pas, institucin, comunidad en donde se obtuvo la informacin) y el "cundo" (fecha, ao); los dos ltimos aspectos son menos importantes cuando se presentan resultados de experimentos realizados en un laboratorio, pero son esenciales en los trabajos de campo. Es nuestra la obligacin librar al lector de la necesidad de recurrir al cuerpo del texto para conocer esta

6 informacin pues, por una parte lo que queremos es facilitar la comunicacin y si el cuadro no lo hace, el lector no tiene ningn compromiso para hacer esfuerzos adicionales slo para enterarse de lo que queremos decir (a menos que seamos personas realmente importantes) y, por otra parte, el lector experimentado lo primero que ve (despus del resumen, si lo hay, y de las conclusiones) son los cuadros. Si no nos importa lo que el lector pueda pensar o sentir respecto a lo que escribimos, mejor no escribamos. COLUMNAS y FILAS. Todas deben tener sus propios ttulos. No es conveniente presentar cuadros demasiado complejos, es decir, con muchas filas y columnas, pues ello no propicia la comunicacin; pero si juzgamos necesario hacerlo, resulta mejor colocar el cuadro en un anexo o apndice, para no interrumpir nuestro discurso y a la vez permitir que quien tenga inters pueda analizar nuestros hallazgos ms a fondo. TOTALES. Aunque no siempre son pertinentes, donde s lo sean debe presentarse los totales de filas y de columnas. FRECUENCIAS ABSOLUTAS Y RELATIVAS. Siempre debe presentarse las frecuencias absolutas (el conteo de las observaciones que pertenecen a cada categora o a cada intervalo de valores) y las relativas (los porcentajes que estos conteos constituyen sobre el total de las categoras o de los intervalos; este total es, por supuesto, 100 por ciento). El mostrar las frecuencias relativas facilita al lector apreciar la contribucin de cada categora o intervalo y le permite, dado el caso, establecer rpidamente comparaciones con los resultados de otros estudios, sin obligarlo a realizar operaciones tediosas. Por su parte, las frecuencias absolutas deben aparecer para ponderar la importancia de las relativas ya que, por ejemplo, no es igual considerar un valor de 10 por ciento basado en 10 observaciones que uno basado en 500 observaciones. Debe sospecharse siempre de la importancia de los porcentajes de un cuadro en el que no se muestran las frecuencias absolutas. CLAVES y ABREVIATURAS. Es muy frecuente que en los ttulos de filas y de columnas no se cuente con el espacio suficiente para colocar todo el texto necesario, por lo que se debe recurrir a claves o a abreviaturas. Todas ellas, como cualquiera otra aclaracin que sea necesaria o conveniente, deben ir suficientemente explicadas al pie del cuadro. SIGLAS. En ocasiones los autores piensan en trminos de su crculo profesional ms estrecho y utilizan siglas que, fuera de ese crculo, no son reconocidas o pueden ser confundidas; por ejemplo, un lector fuera de Mxico, aunque sea hispanohablante, no tiene ninguna obligacin de saber qu significa IMSS (Instituto Mexicano del Seguro Social) por ms que en el pas resulte obvio. El uso de siglas debe seguir la misma regla que el de claves y abreviaturas. FUENTE. Al pie del cuadro y cuando los datos no son originales de quien escribe el trabajo en cuestin, debe ponerse la fuente (referencia bibliogrfica, electrnica o en internet) de donde se obtuvieron, ya sean los datos crudos o el cuadro mismo. Cuando el cuadro es resultado del estudio y se est presentando en el apartado o captulo de "resultados" no debe colocarse ninguna "fuente", pues resulta ms que evidente lo que se est mostrando, de manera que cuando se ponen cosas como "Fuente: el propio estudio" estamos mostrando que tenemos una idea muy tosca de lo que es la

2.

3. 4.

5.

6.

7.

7 comunicacin de hallazgos. Por otro lado, los cuadros cuyos datos no son producto del estudio que se est presentando, nunca van en "resultados" sino en los apartados de antecedentes, discusin o conclusiones. 1.4. Construccin de Grficas. Cuando deseamos comunicar nuestros resultados y los fundamentos de nuestras conclusiones, siempre recordamos el refrn que afirma que "una imagen dice ms que mil palabras" lo cual, como todo en la sabidura popular, muchas veces no es cierto. Debemos tomar en cuenta que si bien una presentacin grfica de nuestros datos puede ayudar a comunicar sus caractersticas generales, especialmente cuando se ejercen comparaciones, los anlisis definitivos son numricos y no pueden ser sustituidos por una figura, an cuando sta sea bien hecha y atractiva, por lo que siempre ser preferible examinar un cuadro. Slo en ocasiones muy particulares las grficas son insustituibles para guiar el anlisis numrico (vase el captulo 9). Por otro lado, los recursos electrnicos actuales han conducido al manoseo de las representaciones grficas y, lo que es peor, de las representaciones incorrectas, pues con excesiva frecuencia se ignoran los principios fundamentales de su construccin idnea, indispensables para dar una impresin correcta de los hallazgos de un estudio y para orientar los anlisis y las conclusiones. Debemos recordar que una grfica est basada en lo que se conoce como sistema rectangular cartesiano el cual consiste en un marco de referencia con dos lneas rectas, llamadas ejes, una horizontal y otra vertical que se cruzan, formando un ngulo recto en un punto llamado origen. Al eje horizontal se le conoce como eje de las abscisas o eje de las x y al vertical como eje de las ordenadas o eje de las y. Usualmente, al origen se le asocia el valor 0 (cero) y los valores de x son positivos a la derecha del origen y negativos a la izquierda, mientras que los valores de y son positivos hacia arriba del origen y negativos hacia abajo (grfica 1.2).

8 Grfica 1.2. Sistema rectangular cartesiano.

Existen excepciones a lo anterior, por ejemplo, el sistema oblicuo cartesiano en el que los ejes no se cruzan en ngulo recto o aqullas en que los valores de y, positivos o negativos, se invierten respecto a lo dicho arriba, pero su uso es muy poco frecuente. Los ejes dividen el espacio en cuatro cuadrantes: el primero, donde los valores de x y de y son positivos; el segundo, donde los valores de x son negativos y los de y positivos (se numeran en sentido contrario a las manecillas del reloj); el tercero, en donde x y y tienen valores negativos; y el cuarto, en donde x es positiva y y es negativa. De esta forma, cualquier par de valores (x,y), conocidos como coordenadas, puede ser ubicado en el sistema cartesiano. Lo ms comn, pero no siempre, es que se representen nicamente los valores positivos de ambos ejes, es decir, el primer cuadrante. Para una correcta representacin grfica, hay que tomar en cuenta dos principios bsicos: que los ejes deben ser proporcionales en tamao, siendo el de las x ligeramente mayor que el de las y en una relacin de 3 a 2, es decir, por cada 3 cm del eje de las x el de las y medir 2 cm o, en todo caso podrn ser iguales (1 a 1); y que el eje de las y deber iniciar siempre en cero. Cuando no se cumplen estas dos condiciones, la impresin visual que se ofrezca ser engaosa (vase el ejemplo 1.2). Por otro lado, as como hay dos categoras bsicas de variables existen dos clases de grficas que se les asocian. Para las variables cualitativas, las grficas de barras y, para las cuantitativas, los histogramas o bien su equivalente, los polgonos de frecuencias.

9 Cuando se desea hacer una representacin grfica de una variable cualitativa, hay que tomar en cuenta que sus categoras no son numricas y que, en consecuencia, su representacin visual no corresponde a lo dicho respecto al sistema cartesiano ya que no existe ningn eje de las x y nicamente se habrn de representar las frecuencias (absolutas o relativas) de cada categora. Estas son las grficas de barras una muestra de las cuales se presenta enseguida con los datos del ejemplo 1.1:

Ntese que las categoras, representadas en sentido horizontal, no corresponden a ningn eje cartesiano, pues son cualitativas y que bien se podra invertir el orden en que se presentan sin que por ello se alterara la representacin visual correcta. Aqu lo nico importante es la altura que alcanzan las barras, pues ello nos indica su frecuencia. Por lo tanto, no tenemos preocupaciones por la proporcin de los ejes (no existen). Debido a lo anterior, estos mismos datos se pueden representar, correctamente, de otras formas; por ejemplo, en sentido horizontal:

Las barras pueden estar alejadas unas de las otras, como arriba, o juntas:

10

El ancho de las barras no importa, slo su longitud:

Lo que se debe buscar en estos casos es obtener una representacin agradable a la vista, por ejemplo:

11

Otra forma de representar este tipo de informacin es por medio de las grficas de pastel (tambin llamadas de sectores) que, aunque comnmente no se consideran apropiadas para un trabajo cientfico o acadmico, pueden resultar muy demostrativas:

Lo que resulta por completo inaceptable es la utilizacin de las llamadas grficas en tercera dimensin:

12 Estas grficas han alcanzado gran popularidad por la facilidad con que se pueden construir y por lo atractivas que parecen ser. En un trabajo cientfico o acadmico, o en cualquier trabajo medianamente serio, se debe prescindir de ellas siempre pues si uno las examina con cuidado, se puede dar cuenta de que: a. no son en tercera dimensin (es slo apariencia); b. no aportan ms informacin. A esto se le conoce tcnicamente como tinta sin datos; c. confunden, obstaculizando su lectura. En resumen, nicamente una persona inexperta y mal entrenada utiliza este tipo de grficas. Finalmente, otra manera informal de presentar las frecuencias de variables cualitativas es por medio de pictogramas en los cuales las barras son sustituidas por figuras alusivas al tema que, apiladas o de distinto tamao, ilustran las frecuencias o valores:

Esta forma de representacin no es propia de un escrito cientfico o acadmico, aunque es muy popular en folletos o en diarios. Por su parte, las grficas de las variables cuantitativas deben cumplir con los requisitos del eje de las y con inicio en 0 y de la proporcionalidad de los ejes (vase el ejemplo 1.2). Los histogramas son una representacin por medio de rectngulos, que algunas personas confunden con las barras. Aqu, la diferencia est en que la base del rectngulo corresponde exactamente a la amplitud de los intervalos que se hayan definido para la variable en cuestin y su altura a la frecuencia; de esta forma el rea total definida por todos los rectngulos representa la funcin de la frecuencia y del valor de la variable. Los rectngulos deben estar contiguos unos a los otros, particularmente en las variables continuas (pero tambin se acostumbra representar as a las discontinuas):

13

Los mismos datos pueden representarse como un polgono de frecuencias en donde los puntos medios de los rectngulos (que corresponden a los puntos medios de los intervalos) se unen con lneas rectas:

Una forma de representacin grfica muy comn, aunque poco utilizada por los novatos, es la grfica semilogartmica. Esta consiste en transformar el eje de las y, usualmente en escala aritmtica, a una escala logartmica lo que puede tener ventajas para el anlisis visual de ciertos fenmenos. Por ejemplo, podemos tener la siguiente serie de datos: 10000 5000 1000 500 100

14 50 10 5 1 0.5 En este cuadro observamos que las magnitudes van desde muy grandes (10,000) hasta muy pequeas (0.5). Una grfica con escala aritmtica resultara en lo siguiente:

Puede advertirse que los valores menores (a partir de 100) no se observan ya, pareciera que a partir del valor 5000 el fenmeno cambia pero que sus cambios son muy pequeos y que, desde el valor 500 estos cambios son imperceptibles; que en realidad se mantiene constante. Sin embargo el fenmeno, cualquiera que este sea, contina modificndose. Si el eje de las y es transformado a escala logartmica, la grfica resultante sera la siguiente:

En sta vemos que la representacin de los datos del cuadro anterior es completa, desde los mayores hasta el menor y que el fenmeno sigue modificndose con la misma tendencia independientemente de las magnitudes. De hecho, se observa que las modificaciones son tan importantes, proporcionalmente hablando, cuando los cambios van de 10,000 a 5,000

15 (disminucin de 50 por ciento), como cuando van de 1 a 0.5 (tambin una disminucin del 50 por ciento). La escala logartmica aparecera como sigue:

Tambin podrn encontrarse grficas logartmicas, en las que los dos ejes se transforman o, ms raramente, grficas semilogartmicas en el eje de las x. Actualmente resulta fcil obtener otros muchos tipos de grficas haciendo uso correcto de los recursos electrnicos. Estos otros tipos no se vern aqu, excepto por las grficas de correlacin que se tratarn en el captulo 9. Ahora observe la siguiente grfica que representa los valores de la tasa de mortalidad infantil para cada estado de la Repblica Mexicana en 1999. En el eje horizontal se encuentran los nombres abreviados de los estados:

16

Ahora diga: - si esta es la forma adecuada de presentar la informacin; - si la informacin es clara; - y si, en todo caso, debera presentarse de otra manera.

17 Ejemplo 1.1: Una Base de Datos. La siguiente es una base de datos en papel, con 28 observaciones (adultos sanos):
ID 8 10 23 34 41 53 54 60 70 74 78 103 105 106 107 110 113 114 115 118 30 86 87 130 133 153 155 ED AD 31 35 24 30 23 29 22 23 24 22 29 31 23 16 31 34 27 . 24 28 24 26 21 31 22 22 24 SEXO fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino m asculino m asculino m asculino m asculino m asculino m asculino m asculino ERITRO CITO S 4.85 5.25 4.86 4.79 4.76 4.49 4.41 4.58 4.10 4.24 4.44 4.40 5.15 4.92 5.05 4.99 4.11 4.65 4.48 4.75 5.66 5.84 5.33 5.42 5.18 5.49 4.83 H EM O G LO BIN A 14.8 15.2 15.0 15.1 14.8 14.8 13.2 13.8 13.3 13.1 13.5 14.1 13.8 14.2 15.1 15.6 13.0 13.9 12.0 14.7 17.8 16.9 16.4 15.9 15.7 17.2 16.2 PLA Q UETA S 297 263 297 245 272 . 263 236 194 235 214 . . 308 312 227 278 278 312 183 308 209 332 254 343 175 179 G LU CO SA 82 87 84 80 80 89 77 84 81 79 71 103 90 72 68 84 78 88 73 91 . 88 83 81 83 86 91 CO LESTERO L TO TA L 155 196 155 192 136 207 211 138 147 173 134 179 180 70 214 166 227 183 120 151 . 129 129 112 177 176 128

ID es la clave de identificacin. ED AD en aos cum plidos. ER ITR O CITO S por 10 6 . H EMO G LO BINA en g/dl. PLA Q UETAS por 10 3 . G LUCO SA en m g/dl. CO LESTERO L TO TAL en m g/dl.

18 Ejemplo 1.2: Errores en la Construccin de Grficas.


INFORMACIN

Se desea construir una grfica a partir de los siguientes datos: Tasas ajustadas de mortalidad masculina (15 aos de edad y ms) por causas directamente atribuibles al consumo de alcohol (Mxico, 1979 - 1993).

PROCEDIMIENTO

1. : Uso de programas de cmputo. Lo ms comn es recurrir a programas como Excel , creando una hoja de clculo a partir de la cual se hace la grfica. 2. : Proporcin de los ejes. En este programa (como en la gran mayora de ellos), el procedimiento por omisin dara por resultado la siguiente grfica:

19

En una primera inspeccin de la grfica se podra decir que la proporcin de los ejes est bien guardada y que, por lo tanto, la impresin visual que nos da esta representacin es correcta. A partir de lo anterior, se puede hacer una serie de consideraciones y, tal vez, obtener algunas conclusiones. Una grfica igual se puede obtener al utilizar un paquete de cmputo especializado en anlisis estadstico como SPSS . 3. : Eje de las y. Debe observarse que en la grfica anterior el eje de las y no se inicia en 0 (cero), sino en 40. Esto implica que si llevsemos el eje hasta cero, la proporcin se perdera por completo, quedando algo como lo siguiente:

Sera difcil afirmar que una grfica as est bien proporcionada. 4. Valores por omisin.

20 Para una representacin idnea de esta serie de valores, es necesario instruir al programa que se est utilizando (en este caso, que el eje de las y se inicie en 0) para que nos construya una grfica correcta, que sera la siguiente:

La impresin visual resultante es muy distinta, y las consideraciones y conclusiones que se pueden hacer a partir de ella tambin lo sern.

21

CAPTULO 2: MEDIDAS DE RESUMEN


GENERALIDADES . Aunque los datos se hayan organizado en cuadros y grficas, generalmente se desea tener alguna medida nica que describa el conjunto, sin tener que recurrir al anlisis de cada una de sus categoras o de sus intervalos por separado y que adems permita la comparacin rpida entre distintas colecciones de datos. Para tales fines estn las llamadas medidas de resumen cuya utilidad es precisamente reducir la informacin y presentarla en una sola expresin numrica. Estas medidas pueden ser de dos clases: aquellas que muestran el valor alrededor del cual los datos tienden a agruparse, conocidas como medidas de tendencia central; y las que muestran el grado en que esos datos se diferencian unos de otros o en relacin con algn punto de referencia, conocidas como medidas de dispersin. Las medidas de resumen corresponden a lo que en la ciencia se conoce como los principios de unidad y de diversidad. Estos principios establecen que todas las entidades existentes, aunque distintas entre s, al final forman parte de un mismo proceso, es decir, que si bien la materia puede expresarse de distintas maneras, su estructura fundamental, en todos los casos, es la misma. Con las medidas de tendencia central pretendemos acercarnos, inicialmente de una manera muy simple, a la indagacin del principio de la unidad. Por el otro lado, si bien todo lo existente es parte de un mismo proceso, cada entidad tiene sus propias y muy caractersticas particularidades que la hacen diferente a todas las dems. Con las medidas de dispersin se intenta el estudio de este principio. De ah que la descripcin de un fenmeno, desde el punto de vista estadstico, nunca est completa si no se habla de estas dos clases de medidas: tendencia central y dispersin. MEDIDAS DE TENDENCIA CENTRAL . 2.1. Moda. No existe un smbolo universalmente aceptado para la moda, si acaso se le puede representar por Mo. La moda es una medida de tendencia central que se define como el valor o la caracterstica de una distribucin que ocurre con ms frecuencia, es decir, corresponde a lo que la palabra significa en el lenguaje comn: lo que predomina o se usa de manera ms generalizada. Como puede advertirse, se trata de una medida descriptiva muy simple que no se utiliza en anlisis estadsticos ms avanzados pues no permite conocer nada acerca de los datos no contenidos en ella, slo del valor ms frecuente.

22 Cuando en una distribucin dos valores o caractersticas son igualmente los ms frecuentes, se dice que es una distribucin bimodal. De la misma forma, puede hablarse de distribuciones multimodales. La moda se utiliza preferentemente para la descripcin de observaciones correspondientes a escalas cardinales, por ejemplo, los nmeros de identificacin o clasificacin de personas por categoras. Puede ser til tambin para variables discontinuas (vase el ejemplo 2.1). 2.2. Mediana. No existe un smbolo universalmente aceptado pero puede utilizarse Md. La mediana es el valor que toma la observacin central en una serie ordenada de datos (de mayor a menor o viceversa) y que deja el mismo nmero de casos a cada lado de ella; es decir, el 50 por ciento de las observaciones tendr un valor menor que la mediana y el otro 50 por ciento un valor mayor, por lo que tambin se le conoce como percentil 50. La mediana se obtiene aplicando la siguiente frmula:

Mediana = valor que toma la (n +1)sima observacin

NTESE que el valor de la mediana no es el resultante de aplicar la frmula (n+1), pues esta nos da slo el nmero de la observacin que queda a la mitad de la distribucin; el valor que tiene esta observacin es el de la mediana (vase el ejemplo 2.1). Si n es nmero par, la mediana se define como la media aritmtica (el "promedio") de las dos observaciones centrales. Se le utiliza para variables cuantitativas, particularmente en caso de distribuciones asimtricas y para escalas ordinales. Su gran desventaja, igual que la moda, es que no toma en cuenta la informacin del resto de las observaciones, slo la central o las dos centrales. 2.3. Media aritmtica (, 0). La media aritmtica es lo que en el lenguaje comn se conoce como "promedio", aunque de acuerdo a la terminologa tcnica, tambin la moda y la mediana son promedios, por lo que es impropio que en un escrito tcnico se utilice la palabra "promedio" para referirse a la media aritmtica. Existen otras medias: la armnica y la geomtrica, las cuales son de uso menos frecuente; por eso, cuando simplemente se habla de la "media" se entiende que se hace referencia a la media aritmtica. Los smbolos utilizados para representar a la media aritmtica son la letra (my o mu minscula del alfabeto griego) para los datos que corresponden a una poblacin completa y

23 con el smbolo 0 (se pronuncia "equis barra") para los datos de una muestra (vase el captulo 4). En lo sucesivo, todos los smbolos que utilicen letras griegas se referirn a los valores de toda la poblacin, mientras que las letras latinas correspondern a los de una muestra. La nica excepcin la constituye la letra E (sigma mayscula), que indica una suma. La media aritmtica se obtiene de acuerdo a la siguiente frmula:

Donde es la media aritmtica para los valores de la variable x; Exi es la suma de los valores de las observaciones, desde la primera (i = 1) hasta la ltima (i = n); n es el nmero total de observaciones. La frmula se lee: la suma de los valores de las xi desde la x1 hasta la ltima (n); dividida por el nmero total de observaciones. Por supuesto que en el caso de una muestra, habr que sustituir el valor de por el de 0:

L
La media es la medida de tendencia central ms utilizada porque toma en cuenta la informacin de todas y cada una de las observaciones (xi). Es la medida de tendencia central preferida para describir las distribuciones simtricas, y en escalas de intervalos y de razones (vase el ejemplo 2.2). 2.4. Media Ponderada. En ocasiones se desea obtener la media de varias medias (0 p, media ponderada, media de medias o gran media); esto puede suceder cuando no se cuenta con los datos originales, es decir, desagregados. Muchas veces se piensa que sumando las medias (E0 i) y dividindolas entre el nmero total de ellas (n0 ), bastara para obtener la media ponderada (0 p). Sin embargo, este procedimiento

24 puede seguirse nicamente cuando el nmero de observaciones (ni) en que est basada cada una de las medias parciales es igual. Si este nmero ni es distinto para las medias parciales, entonces se necesita ponderar:

L0

E0 ini ______ = P En

donde 0 P es la media ponderada. E0 ini es la suma de los productos de cada media por su correspondiente nmero de observaciones. En es la suma de las observaciones de todos los grupos. As, una media de elevada magnitud, pero obtenida con pocas observaciones, ver disminuido su valor relativo. De igual manera, una media pequea obtenida de un gran nmero de datos, incrementar su valor relativo (vase el ejemplo 2.3).

25 Ejemplo 2.1: Obtencin de la Moda (Mo) y de la Mediana (Md).


INFORMACIN

En un estudio realizado en una clnica prenatal, se obtuvieron los antecedentes sobre la edad y la paridad de 54 mujeres embarazadas. Los resultados son los siguientes: Nmero de Partos 0 1 2 3 4 5 Total Nmero de Mujeres 29 17 3 2 2 1 54 por ciento 53.7 31.5 5.6 3.7 3.7 1.8 100

Obtenga la moda y la mediana de esta distribucin.


PROCEDIMIENTO

1. Obtenga la Moda: como la mayor cantidad de mujeres tiene una paridad igual a cero (29 mujeres, o 53.7 por ciento del total), entonces Mo = 0 partos porque cero es el valor que se presenta con mayor frecuencia. 2. Obtenga la Mediana: se dijo que la mediana es el valor que toma la observacin que deja la mitad de los casos por encima de ella y la mitad por debajo, y que para saber cul es esa observacin se utiliza la frmula: (n + 1)sima

26 donde n es el total de observaciones, en este caso n = 54 que es par, por lo cual se encontrarn dos observaciones centrales, la nmero 27 y la nmero 28 (al aplicar la frmula tendramos 27.5), en estos casos se debe tomar el valor "promedio" de las dos observaciones centrales. Como en el ejemplo ambas observaciones tienen valor igual a cero partos, entonces: Md = 0 partos

27 Ejemplo 2.2: Obtencin de una Media Aritmtica (0).


INFORMACIN

En un estudio acerca de la absorcin de hierro, se midieron los niveles de hemoglobina (mg/100 ml) en 19 voluntarios; los resultados son los siguientes: CASO 1 2 3 4 5 6 7 8 9 10 Hb (mg/100 ml) 14.4 17.4 15.5 16.3 13.9 13.9 14.5 14.7 15.0 15.7 CASO 11 12 13 14 15 16 17 18 19 Hb (mg/100 ml) 13.1 13.4 13.8 12.7 15.4 14.7 13.9 14.2 16.5

Obtenga el valor de 0 para estos datos.


PROCEDIMIENTO

1. Obtenga los Datos Bsicos: como la frmula para calcular la media aritmtica es 0 = Exi / n lo que se requiere es el nmero total de observaciones y la suma de todos los valores observados de hemoglobina: n = 19 voluntarios Ex= 279 mg/100ml 2. Obtenga el Valor de la Media: simplemente se sustituyen los valores de la frmula referida: 0 = Exi / n = 279/19

28 = 14.68 mg de Hb /100 ml por persona

29 Ejemplo 2.3: Media Ponderada.


INFORMACIN

En este ejemplo se muestra cmo la ponderacin de una media de medias, obtenida a partir de diferentes medias parciales arroja resultados totalmente distintos a los que se obtienen cuando no se sigue el procedimiento correcto. El autor del artculo no ponder las medias y finalmente lleg a conclusiones errneas. El cuadro se reproduce parcialmente: Estudio de ndices de caries en piezas temporales antes de la vacunacin y 10 meses despus (Datos para el grupo vacunado) Edad en Aos Cumplidos 3 4 5 6 Total Media Ponderada ceo: cariadas, extradas, obturadas. D: pieza dentaria. S: superficie dentaria. Nmero de Nios 7 55 74 37 173 Noviembre de 1969 ceoD 0 3.5 4.71 4 3.05 3.98 ceoS 0 6.1 5.99 6.9 4.74 5.98 Septiembre de 1970 ceoD 0 4.56 5.34 4.32 3.55 4.66 ceoS 0 7.87 7.19 7.85 5.72 7.26

PROCEDIMIENTO

1. El autor cometi un error: simplemente sum las medias parciales correspondientes a cada grupo de edad, por ejemplo (vase la columna de noviembre 1969, promedio de ceoD): 0 + 3.5 + 4.71 + 4 = 12.21

30 y luego dividi entre 4, que es el nmero de las medias parciales, sin tomar en consideracin que cada una de estas estaba basada en un distinto nmero de observaciones: 12.21 / 4 = 3.05 obteniendo una media de medias incorrecta. Lo mismo puede observarse en las otras columnas. 2. El procedimiento correcto debi haber sido: primero multiplicar cada media parcial por su frecuencia (por el nmero de nios estudiados en cada grupo de edad) y luego dividir entre el total de nios, por ejemplo: [(7*0) + (55*3.5) + (74*4.71) + (37*4)] / 173 = 3.98 Obsrvese cmo los resultados correctos (medias ponderadas) difieren sustancialmente de los que el autor obtuvo.

31 MEDIDAS DE DISPERSIN . 2.3. RANGO . Es una medida de dispersin que consiste en obtener la diferencia entre los valores de las dos observaciones extremas de una distribucin, es decir la de mayor valor con respecto a la de menor valor:

L Rango = x

mx

- xmn

y es una medida poco utilizada, porque no toma en cuenta la variabilidad que puede haber en las observaciones dentro de los dos extremos, es decir, se pierde informacin; adems, es comn que estos valores extremos sean los menos estables, esto es, que se modifiquen fcilmente, pues el rango tiende a aumentar conforme aumenta el nmero de observaciones. 2.4. VARIANZA (F 2, s2) Y DESVIACIN ESTNDAR (F, s). La varianza es una medida de dispersin que toma en cuenta los valores de todas y cada una de las observaciones (xi). Por este motivo es la medida de dispersin de ms amplio uso en la estadstica. Una varianza grande significa simplemente una variabilidad mayor entre los valores de las observaciones, se puede decir entonces que se trata de un conjunto de valores heterogneos; por el contrario, cuando una varianza es pequea, se puede decir que los valores tienden a ser homogneos, cercanos entre s. La varianza se obtiene de acuerdo a la siguiente frmula:

Ya que generalmente se trabaja con muestras, la forma ms comn de expresarla es:

L
donde s es la varianza. E(x-0)2 es la suma de todas las diferencias entre cada observacin y la media; cada diferencia se eleva al cuadrado y luego se hace la suma. n-1 el nmero total de las observaciones, menos una (lo que se conoce en estadstica como grados de libertad).

32 El que cada diferencia de las observaciones con respecto a la media se eleve al cuadrado, responde al hecho de que habr observaciones mayores que la media (la diferencia ser de signo positivo) y habr otras menores que ella (la diferencia ser de signo negativo); si se hace la suma de ellas, E(x-0), sta ser siempre igual a cero. Por lo tanto, al elevarlas al cuadrado, se cancelan los signos negativos y puede hacerse la suma. Los grados de libertad (n-1) se utilizan particularmente para el caso de muestras pequeas (donde el total de las observaciones, n, es menor que 30), pero como pueden ser utilizados tambin en muestras grandes (n > 30) sin afectar mayormente el resultado, casi siempre es esta expresin la que se usa. Si la principal ventaja de la varianza es que toma en cuenta la informacin provista por todas y cada una de las observaciones y que claramente puede entenderse como un "promedio" (la media aritmtica) de las desviaciones respecto a la media, su desventaja es que las unidades en que se expresa son las unidades originales elevadas al cuadrado (por ejemplo kg), lo que dificulta su interpretacin en trminos del problema real estudiado. Esta cuestin puede resolverse sencillamente obteniendo la raz cuadrada de la varianza:

L
Esto es la desviacin estndar, la cual nos permite interpretar fcilmente la magnitud de la variabilidad en trminos de las unidades originales (por ejemplo kg). La desviacin estndar se puede interpretar de la siguiente manera: a) se trata en realidad de un promedio de las desviaciones de las observaciones con respecto a su media. b) su magnitud est en trminos de las unidades en que se mide la variable (kg, cm, m o lo que sea). c) el intervalo definido por: 0 1s incluye al 68% de las observaciones, 0 2s incluye al 95% de las observaciones, 0 3s incluye al 99% de las observaciones. Estos valores corresponden a la "distribucin normal" (ver el captulo 3), son aproximados, se observan con mayor exactitud en muestras grandes y se discutirn en prximos temas. Existe una frmula equivalente para obtener la varianza o la desviacin estndar, la cual puede utilizarse en caso de no contar con ningn instrumento electrnico (al menos con una

33 calculadora con funciones estadsticas), adems de otra para datos agrupados. No se presentan aqu, pues cada da pierden ms su utilidad.

34 Ejemplo 2.4: Obtencin e Interpretacin de la Desviacin Estndar (s).


INFORMACIN

Se utilizarn los mismos datos del ejemplo 2.2: CASO 1 2 3 4 5 6 7 8 9 10 Hb (mg/100 ml) 14.4 17.4 15.5 16.3 13.9 13.9 14.5 14.7 15.0 15.7 CASO 11 12 13 14 15 16 17 18 19 Hb (mg/100 ml) 13.1 13.4 13.8 12.7 15.4 14.7 13.9 14.2 16.5

PROCEDIMIENTO

1. Identifique y obtenga los datos necesarios: n = 19 (total de individuos observados). 0 = 14.68 mg/100 ml (del ejemplo 2.2) E(x - 0)i2 =23.56 2. Obtenga la desviacin estndar: s =/[E(x - 0)i2 / (n-1)] = /[23.56 / 18] = /1.31 = 1.14 mg de Hb /100 ml 3. Obtenga el intervalo: si el intervalo medido por 0 1s incluye al 68% de las observaciones, entonces se tendra que: 14.68 1.14

35 define un intervalo que est entre 13.54 mg/100 ml (como lmite inferior, que resulta de restar una desviacin estndar a la media) y 15.82 mg/100 ml (lmite superior, que resulta de sumar una desviacin estndar a la media). Con esto, se puede esperar que trece observaciones (68%), de un total de diecinueve, caigan dentro del intervalo y siete fuera de l. Al revisar los datos se puede verificar que el resultado es el predicho.

36 RAZONES Y PROPORCIONES . 2.5. VARIABLES CUALITATIVAS. Las medidas descritas anteriormente son aplicables slo a variables cuantitativas. Cuando se trata de las cualitativas, lo que interesa es conocer la frecuencia con que se presenta cierta caracterstica en relacin con el total de observaciones (n), esto es la proporcin (B, p):

Lp=r/n
En donde n es el nmero total de observaciones y r es el nmero de observaciones con la caracterstica de inters. Ntese que si se multiplica p por 100, lo que se obtiene es simplemente un porcentaje. Para el caso de estas variables, el valor de la varianza se obtiene por:

y el de la desviacin estndar por:

L
Por supuesto que las frmulas correspondientes para p son:

37 Puede verse que si r es el nmero de observaciones con la caracterstica buscada y n es el total de observaciones, entonces r no puede ser mayor que n, por lo que p nunca podr ser mayor que 1 ni menor que 0, es decir, no puede haber ms del 100 por ciento de observaciones ni menos que el 0 por ciento con la caracterstica buscada. Por esto mismo, aunque todas las proporciones pueden representarse como porcentajes, no todos los porcentajes son proporciones. Existe una proporcin complementaria de p, la cual se denomina q, y que representa la proporcin de observaciones que no tienen la caracterstica buscada y entonces p + q = 1 (la proporcin de las observaciones que tienen la caracterstica buscada, ms la proporcin de las que no la tienen es igual al 100 por ciento; ejemplo 2.5).

38 Ejemplo 2.5: Obtencin de una Proporcin.


INFORMACIN

Los datos corresponden al ejemplo 2.1.


PROCEDIMIENTO

Si se desea obtener, por ejemplo, la proporcin de mujeres con paridad igual a 1, entonces: 1. Identifique los datos necesarios: n = 54 mujeres (el total estudiado). r = 17 mujeres con paridad igual a 1. 2. Obtenga p y q: Proporcin de mujeres con paridad igual a 1: p = r/n = 17/54 = 0.3148 31.48% Proporcin de mujeres con paridad distinta a 1: q=1-p = 1 - 0.3148 = 0.6852 68.52% Ntese que p+q=1 esto es 0.3148 + 0.6852 = 1 100%

39

CAPTULO 3: DISTRIBUCIONES DE PROBABILIDAD (BINOMIAL Y NORMAL)


3.1. CONCEPTO DE PROBABILIDAD . "El estudio de la teora de la probabilidad puede convertirse en una de las experiencias ms desesperantes... Hay muchas razones para ello, sobre todo si se intenta establecer una base filosfica y matemtica para los enunciados de la probabilidad...".1 Este problema es el que, con mucha frecuencia aleja, particularmente a quienes no buscan ser especialistas en el campo, del estudio de la estadstica. En nuestro caso, la veremos de manera intuitiva (como se dice en la jerga matemtica, para distinguirlo del anlisis formal) y muy elemental, pero que proporcione los elementos indispensables para entender las bases estadsticas. Una definicin sencilla de probabilidad puede ser: la proporcin de veces que un suceso (o un resultado) ocurre en una larga serie de observaciones. El primer elemento de esta definicin plantea a la probabilidad como una proporcin (p) que, como tal, no puede tomar valores menores que 0 ni mayores que 1 (vase el captulo 2; a esto se le conoce como el Axioma 1 de Kolmogorov). Siendo la probabilidad de que un resultado no ocurra (q): q = (1 - p) La suma de todos los resultados posibles es la probabilidad total, igual a 1 (o 100%; Axioma 2 de Kolmogorov): p+q=1 Si descomponemos la probabilidad total (1) en las probabilidades de cada resultado posible (y si estos son mutuamente excluyentes), estamos hablando de una distribucin de probabilidades (por ejemplo, la probabilidad de que en un grupo de individuos encontremos algunos con presin sistlica mayor que 140 mmHg, ms la probabilidad de que encontremos individuos con presin sistlica entre 90 mmHg y 140 mmHg, ms la probabilidad de encontrar individuos con presin menor que 90 mmHg es igual a 1; Axioma 3 de Kolmogorov). Finalmente, como el concepto de probabilidad se refiere a una larga serie de observaciones, no puede definirse para un caso particular, aunque este sea un error en el que se incurre
1

Duncan RC et al. (1980). Bioestadstica. Ed. Interamericana. Mxico.

40 comnmente, tanto en la vida diaria como en asuntos especializados (por ejemplo, en el consejo gentico o en el pronstico de una enfermedad para un paciente). Tambin se confunde con el concepto de riesgo; pero si recordamos que este ltimo puede atribuirse a un individuo, al igual que a una pluralidad de individuos, entonces se puede hacer la distincin. Por ejemplo, podemos decir que una mujer de 45 aos de edad que se embaraza tiene, ella como individuo, un mayor riesgo de que su hijo resulte con sndrome de Down que una mujer de 25 aos de edad que se embaraza; pero no podemos decir que tiene una probabilidad dada, ella como individuo, de tener un hijo con el sndrome, pues esta slo se aplica a un conjunto de mujeres con las mismas caractersticas. Debe considerarse que la frecuencia con que se presente un resultado tiende a variar, tanto con cada serie de observaciones (de una serie a otra), como dentro de una misma serie conforme aumenta el nmero de las observaciones. Pero al incrementase el nmero de series (de pruebas o de experimentos) la probabilidad tiende a estabilizarse. El clculo de la probabilidad, basado en esta idea de la observacin de frecuencias, no siempre es posible o deseable dado que requiere de pruebas repetidas de un mismo fenmeno. Por ello, se desarrollaron distintos modelos matemticos para estimar la probabilidad. Cuando la probabilidad no puede ser derivada de modelos matemticos, se recurre a las facilidades que brindan los actuales recursos electrnicos, llevando a cabo experimentos simulados, los cuales pueden repetirse en mltiples ocasiones. Estas simulaciones producen resultados aleatorios, por lo que se les conoce como "simulaciones Monte Carlo", nombre tomado del famoso casino en Mnaco. Esta simulacin, en su forma ms simple est ejemplificada por el uso de los nmeros aleatorios, como se ver en el captulo 4. Dentro de las probabilidades, tenemos dos tipos: las condicionales y las independientes. Su distincin es importante, ya que las reglas para su clculo y su importancia para el anlisis estadstico son distintas en cada caso. La probabilidad condicional es aquella en la que se define la probabilidad de que ocurra un resultado B dado que un resultado A ya ha ocurrido. Por ejemplo, si en una muestra de 27 pacientes, de los cuales 7 son hombres (ejemplo 1.1), la probabilidad de que el primero escogido sea hombre es de 7/27 o 0.26, pero la probabilidad de que el segundo tambin sea hombre es de 6/26 o 0.23 siendo la pregunta: cul es la probabilidad de que en esta muestra el segundo seleccionado sea hombre, dado que el primero fue hombre? Por su parte, en la probabilidad independiente, la distribucin de probabilidades de una variable es la misma para todos los valores de otra variable. Por ejemplo, la probabilidad de padecer psoriasis es independiente del sexo de los pacientes. Este es el tipo de probabilidad con el que se trabajar en este manual.

41 3.2. DISTRIBUCIN BINOMIAL . Si en una poblacin de familias, cada una de ellas con dos hijos, estudiramos la probabilidad de que esos hijos fueran de uno u otro sexo, podramos encontrar los siguientes casos posibles: 1er Hijo m m f f m: masculino f: femenino 2 Hijo m f m f

donde la probabilidad de que un hijo cualquiera sea del sexo masculino es p(m) = 0.5 (aunque esto no es totalmente cierto, pues se sabe que nacen ms hombres que mujeres, en una razn aproximada de 103 a 105 hombres por cada 100 mujeres y que mueren ms hombres que mujeres, pero se tomar as con fines de ilustracin del tema), y en consecuencia, la probabilidad de que sea del sexo femenino es p(f) = 0.5. De esa distribucin se puede construir una distribucin de probabilidades en la que: - la probabilidad de que los dos hijos sean varones es de (1 de los 4 posibles resultados), o sea 0.25; - de que ambas sean mujeres es tambin de (o 0.25); y - de que sean de distinto sexo, sin importar el orden, es de (o 0.5). Lo que hace un total de 1 (o 100 por ciento, la probabilidad total): 1er Hijo m m f f Total 2 Hijo m f m f 1 Probabilidad 1 0.25 0.5 0.25 1

Ntese que dentro de una familia en particular, el sexo de los hijos no necesariamente es independiente, es decir, existen familias en las que predominan los hijos hombres y otras en

42 las que predominan las hijas mujeres. Pero en la poblacin de familias (en una larga serie de observaciones) se ver una tendencia al equilibrio. La probabilidad de que ambos sean varones, p(m,m), resulta de multiplicar la probabilidad de cada uno: p(m,m) = p(m) * p(m) = 0.5 * 0.5 = 0.25 y lo mismo cabe para los otros casos, por lo que la distribucin de probabilidad sera: p(m)p(m) + p(m)p(f) + p(f)p(m) + p(f)p(f) es decir: p(m) + 2p(m)p(f) + p(f) = 1 y si representamos a p(m) como p y a p(f) como q entonces: p + 2pq + q = 1 lo que es igual a: (p + q)2 = 1 Si se tratase de familias cada una con tres hijos, tendramos la siguiente distribucin: 1er Hijo m m m f m f f f 2 Hijo m m f m f m f f 3er Hijo m f m m f f m f 37468 37468 37468 37468 37468 37468 37468 37468 37468 0.125 37470 0.375 37470 0.375 Probabilidad 37468 0.125

43 Total donde tendramos: p(m)3 + 3p(m)p(f) + 3p(m)p(f) + p(f)3 = 1 es decir: p3 + 3pq + 3pq + q3 = 1 lo que es igual a: (p + q)3 = 1 De esta manera, podramos seguir definiendo las probabilidades de ocurrencia para cualquier fenmeno (variables cualitativas y variables discontinuas) de cualquier magnitud. Se debe notar que cualquier expresin del binomio (p + q) es siempre igual a 1, esto es:
( P + Q) = 1
N

lo que representa la probabilidad total. Cuando el valor de n crece, esta forma de clculo resulta, por supuesto, inapropiada puesto que el nmero de resultados posibles es cada vez ms grande. En tales circunstancias se utiliza el siguiente modelo:

L
Donde p(r) es la probabilidad de que se presenten r resultados con la caracterstica de inters. n! es el factorial de n. B es la probabilidad previamente definida. As, por ejemplo, la probabilidad de que en familias de 3 hijos (n = 3), encontremos familias en que 2 de ellos sean del sexo masculino (r = 2), sin importar el orden en que se presentan, siendo que la probabilidad de que un hijo cualquiera sea del sexo masculino es de 0.5 (B = 0.5), es: n! = 3! = 3*2*1 = 6

44 r! = 2! = 2*1 = 2 (n-r)! = (3-2)! = 1! = 1 6 p(m,m,f) = _____ 52 * 0.53-2 2 * 1 0. p(m,m,f) = 3 * 0.25 * 0.5 = 0.375 el mismo resultado que observamos en el cuadro arriba. Esta distribucin de probabilidades, propuesta alrededor del siglo XVII, originalmente fue ideada para dar cuenta de sucesos como eran las oportunidades de tener xito en los juegos de azar; de aqu viene la tan arraigada costumbre de que en muchos libros de estadstica se le ilustre con ejemplos de sa clase (juegos de dados, de baraja, etc.). En realidad, sus fundamentos matemticos son mucho ms complejos que lo presentado aqu, pero consideramos que con esto se puede tener una idea suficiente para los propsitos de este manual. 3.3. DISTRIBUCIN NORMAL . La distribucin normal (originalmente desarrollada por Abraham de Moivre (1667 - 1754) y publicada por l mismo en 1733) es una distribucin de probabilidades que se desarroll con propsitos menos triviales que la binomial. En realidad, es un modelo matemtico de algunas distribuciones encontradas en la observacin de distintos fenmenos; es entonces un modelo inductivo. Como todo modelo, constituye una representacin idealizada de la realidad, por lo que en la prctica no encontraremos nunca un grupo de observaciones que lo sigan exactamente, pero si lo observado es de alguna manera parecido a lo terico, entonces se justifica su utilizacin (vase la grfica 3.1).

Grfica 3.1. Como caractersticas generales de la distribucin normal, podemos sealar las siguientes: a) Es una distribucin de probabilidades de una variable continua, que generalmente se representa por la letra x. En la escala de medicin de este tipo de variables, resulta intil sealar la probabilidad para un punto preciso de la escala (por ejemplo, la probabilidad de

45 encontrar individuos con una talla de exactamente 172 cm en una poblacin dada, es prcticamente nula, ya que el nmero de valores posibles entre dos puntos de una escala continua es infinito), ms bien se habla de la probabilidad referida a un intervalo de esa escala (por ejemplo, la probabilidad de encontrar individuos con una talla entre 170 y 174 cm). b) La curva de la distribucin normal tiene forma de campana, con altura mxima en el valor correspondiente a (vase la grfica 3.2). c) La curva de la distribucin normal es simtrica alrededor de y por lo tanto, la media aritmtica la divide en dos partes iguales. Por esa misma razn, en la curva normal la media, la mediana y la moda tienen el mismo valor (vase la grfica 3.2). d) Siendo una distribucin de probabilidades, el rea total bajo la curva representa a la probabilidad total (la cual es igual a 1), por lo que la media, al dividir la distribucin en dos partes iguales, deja dos reas con valor de 0.5 a cada lado de ella. Sin embargo la curva es asinttica, por lo cual nunca se puede determinar la probabilidad absoluta (vase la grfica 3.2).

Grfica 3.2. e) La probabilidad (rea bajo la curva) entre los lmites del intervalo definido por: 1F contiene al 0.68 (68 por ciento) del rea bajo la curva; 1.96F contiene al 0.95 (95 por ciento) del rea bajo la curva; y 2.58F contiene al 0.99 (99 por ciento) de rea bajo la curva (vase la grfica 3.3).

46

Grfica 3.3. Estos valores han sido definidos a travs de clculo integral. Debe recordarse que en el captulo anterior se dieron unos valores aproximados, que pueden ser utilizados en estimaciones rpidas, sin embargo, los que ahora mostramos son los que se usan para la presentacin de resultados y su anlisis. f) La curva de distribucin normal est determinada por dos valores: y F (vase la grfica 3.4). La media define el lugar que ocupa una distribucin en la escala, es decir, al modificarse la media se modifica la posicin de la distribucin en la escala, por ello tambin se le conoce como medida de posicin; mientras que la desviacin estndar determina el grado de apuntamiento, llamado curtosis, que tenga una distribucin.

Grfica 3.4.

47 Aqu se puede ver que al variar la F, el grado de apuntamiento o curtosis se modifica: si la F es pequea, como en F 1, quiere decir que los valores de las observaciones tienden a parecerse entre s (son homogneos y estn cerca de la media) y la curva se vuelve muy apuntada, es decir, leptocrtica; pero si los valores son muy distintos entre s (heterogneos, alejados de la media), como con F 3, la curva se aplana y se vuelve platocrtica. La curva normal (F 2) queda enmedio de las otras dos y se le conoce como mesocrtica. Adems, se observa que las tres distribuciones son muy distintas unas de las otras, aun cuando tienen la misma media, por lo que podemos concluir que para la correcta descripcin de una distribucin siempre debern referirse tanto las medidas de tendencia central como las de dispersin. Para saber si la aplicacin de la distribucin normal es adecuada para una distribucin observada, se necesita conocer la curtosis y el sesgo (grado de asimetra) de esta ltima. En la actualidad, con los programas de computadora disponibles, es fcil obtener estas mediciones y determinar si lo observado se aleja o no de manera considerable de una distribucin normal. Diferencias importantes impiden que se lleven a cabo anlisis ms avanzados, como se ver en captulos posteriores. g) La distribucin normal est descrita por:

L
Donde y es el valor que toma el eje de las ordenadas. n: nmero de observaciones B: 3.14159... exp: es el nmero e (2.71828...), base de los logaritmos naturales (ln) elevado a la potencia sealada. x: valor de una observacin sobre el eje de las abscisas. : media aritmtica de la distribucin. F 2: varianza de la distribucin. En siglos anteriores, este modelo deba ser aplicado para "normalizar" las observaciones y obtener los valores de la probabilidad (rea bajo la curva) para la observacin de un suceso. En un inicio (siglo XVIII), esto resultaba ser un problema de considerable magnitud, pues para cada tamao de muestra (n) y para cada valor de la variable (x) haba que realizar las operaciones necesarias; y si por acaso se modificaba, aunque fuera un poco, el tamao de la muestra o alguno de los valores, lo hecho anteriormente ya no era til (en la actualidad los medios electrnicos lo han resuelto por completo). Se pens entonces en construir una distribucin modelo que pudiera ser aplicada en todos los casos: esta es la distribucin normal estndar, en la cual se trata de determinar la distribucin de una variable imaginaria,

48 identificada como z, en lugar de la variable observada x, y que siempre tiene una = 0 y una F = 1. Con esto se simplific considerablemente el modelo anterior, y se pudo definir la probabilidad bajo la curva para cada valor de z (vase la tabla 1 del Apndice). El razonamiento de lo anterior consiste en lo siguiente: a) Se imaginaron una distribucin normal en la cual la media () siempre es igual a 0, y la desviacin estndar es igual a 1. La media sera 0 porque, habiendo valores de la variable mayores que ella, las diferencias de aqullos con respecto a sta resultaran positivas, mientras que las diferencias de los valores menores que la media seran negativas; as, la media estara en el origen de los ejes, cuyo valor es 0. Por otro lado, una desviacin estndar igual a 1 simplificara cualquier operacin. b) En el modelo de la distribucin normal arriba descrito, hicieron las sustituciones correspondientes (como F = 1, entonces tambin F 2 = 1, por lo que no tena caso conservarla en la ecuacin; como la = 0, tambin se omiti).

c) Pero como los valores de n podan cambiar, el problema persista, por lo que pensaron en algn valor que pudiera ser de aplicacin general. Este valor era el rea total bajo la curva, la probabilidad total, es decir, 1.

d) Pero como ya no se trataba de la distribucin de una variable observada, sino de una distribucin imaginaria, ya no se estaba hablando de la variable x, por lo que le dieron otro nombre: z.

L
e) Una vez hecho lo anterior, se determin el rea bajo la curva para distintos intervalos de la distribucin de esta variable imaginaria z (vase la tabla 1 del Apndice). f) Ahora que ya se tena una distribucin (distribucin normal estndar, de naturaleza terica), cuyas reas bajo la curva (probabilidades), para distintos intervalos, eran conocidas, slo restaba aplicarla a cualquier distribucin emprica, observada. Pero la pregunta es cmo se puede lograr esto? g) Hay que tomar en cuenta que la variable z est expresada en unidades de desviacin estndar, pues si F = 1, entonces cuando z = 1= F. En otras palabras, z expresa el alejamiento, la diferencia con respecto a en unidades de desviacin estndar. Por

49 consiguiente, si tomamos la diferencia de alguna observacin x con respecto a , y si esta diferencia la relacionamos con F podremos ver qu distancia hay de x respecto a en unidades de F , es decir, en valores de z.

L
As, se hizo el trabajo una nica vez y para siempre: la probabilidad entre dos valores observados (x1, x2) puede encontrarse por la probabilidad entre z1 y z2 (vase el ejemplo 3.1). No es extrao que se desconozcan los valores de y de F por lo que en su lugar debern usarse los de la muestra. 3.4. APROXIMACIN DE LA DISTRIBUCIN BINOMIAL A LA NORMAL . En el caso de la distribucin de probabilidades en cuanto al sexo de los hijos en familias de dos o tres, se obtuvieron los siguientes resultados (inciso 3.2), donde p(m=r) es la probabilidad de tener r hijos del sexo masculino: n=2 p=0.5 p(m=0) p(m=1) p(m=2) Total n=3 p=0.5 p(m=0) p(m=1) p(m=2) p(m=3) Total p 0.25 0.5 0.25 1 p 0.125 0.375 0.375 0.125 1

Si esto se representa en histogramas, en la primera situacin se observaran tres rectngulos y en la segunda cuatro. Sin embargo, el rea total contenida en ellos es la misma: 1, o sea la probabilidad total:

50

Si tomsemos familias con cinco hijos, el nmero de rectngulos (de posibles resultados) ser mayor (y cada vez mas estrechos) pero contienen, al sumarlos, la misma probabilidad total: n=5 p=0.5 p(m=0) p(m=1) p(m=2) p(m=3) p(m=4) p(m=5) Total p 0.0313 0.15625 0.3125 0.3125 0.15625 0.0313 1

51 Con familias de 8, la distribucin de probabilidades tendra an una mayor cantidad de rectngulos, cada vez ms estrechos, pues la probabilidad total, siempre igual a 1, debe distriburse en cada ocasin en una mayor cantidad de resultados posibles: n=8 p=0.5 p(m=0) p(m=1) p(m=2) p(m=3) p(m=4) p(m=5) p(m=6) p(m=7) p(m=8) Total p 0.004 0.0313 0.10937 0.21875 0.27344 0.21875 0.10937 0.0313 0.004 1

En otros fenmenos el nmero de posibles sucesos (n) puede ser ms grande. Si la cantidad de ocurrencias posibles es grande, la distribucin binomial va tomando una forma parecida a la distribucin normal, entre mayor sea n ms semejante ser aquella a esta, pero nunca llegar a ser continua. Sin embargo, podemos aplicar lo que sabemos de la normal a la binomial.

52

Las probabilidades extremas no se observan en la grfica por ser muy pequeas. Debido a esta caracterstica de la distribucin binomial, y para evitar el clculo complejo de probabilidades que supona, antes del uso generalizado de los instrumentos electrnicos, se ha utilizado lo que se conoce como aproximacin de la distribucin binomial a la normal, a travs de la cual se obtiene la puntuacin z para conocer la probabilidad de un suceso binomial, donde:

Ntese que r hace las veces de x, y nB las de la media, mientras que el denominador es la desviacin estndar (vase el captulo 2). Despus de lo cual, usando la tabla 1 del Apndice podemos encontrar la probabilidad correspondiente. Sin embargo, es necesario echar mano de lo que se conoce como correccin por continuidad, dado que estamos tratando una variable cualitativa, o una discontinua, con un modelo para variables continuas pues, de no hacerlo, las estimaciones tendrn un considerable margen de error:

L
en ocasiones, en lugar de B se utiliza el valor de p (cuando tratamos con muestras).

53 Como ejemplo de la aproximacin, vase que si se utiliza la distribucin binomial en el caso de las familias con 8 hijos, la probabilidad de que 6 o ms sean varones es igual a 0.14452 (usando la distribucin binomial), si obtenemos el valor de z, entonces:
Z

= [(6-0.5) - (8*0.5)] / /(8*0.5*0.5) = 1.06

lo que de acuerdo a la tabla 1, significa que el rea bajo la curva por encima del valor de z = 1.06, es igual a 0.1446, lo que resulta prcticamente igual a lo obtenido con la distribucin binomial. En la actualidad, con los medios electrnicos disponibles, este tipo de conversiones no son necesarias para el clculo de probabilidades, pero es conveniente tenerlas en mente porque se utilizan para anlisis que posteriormente se abordarn y que no permite hacer la distribucin binomial. Dos requisitos son indispensables para aplicar esta aproximacin: a) El nmero de observaciones (n) debe ser grande. b) La proporcin estudiada debe estar cercana a 0.5, ya que de no ser as la distribucin binomial deja de ser simtrica y se aleja de la normal. Vase el caso cuando p = 0.3: n=7 p=0.3 p(7) p(6) p(5) p(4) p(3) p(2) p(1) p(0) Total p 0.00022 0.00357 0.025 0.09724 0.22689 0.31765 0.24706 0.08235 1

En este caso, la probabilidad de que cuatro o ms individuos tengan la caracterstica buscada sera igual a 0.1260, de acuerdo a la distribucin binomial. Mientras que si utilizamos la aproximacin, tendremos que z = 1.15, y la probabilidad resultante es igual a 0.1251, con un cierto margen de error, debido a que la distribucin pierde la simetra (est sesgada), que puede ser importante de acuerdo al problema de que se trate en la realidad, pero que ser mayor conforme p se aleja de 0.5.

54 En la grfica siguiente se tienen cuatro distribuciones, basadas en distintas probabilidades (0.1, 0.5, 0.7 y 0.9). Puede verse que cuando p = 0.5, la distribucin es simtrica, pero al modificarse la probabilidad, las distribuciones empiezan a presentar un sesgo, el cual es mayor conforme la probabilidad se aleja ms de 0.5 (si la probabilidad es menor que 0.5, el sesgo se hace positivo, si es mayor, el sesgo es negativo).

Las probabilidades extremas no se observan en la grfica por ser demasiado pequeas.

55 Ejemplo 3.1: Determinacin del rea bajo la curva (probabilidad).


INFORMACIN

En un grupo de pacientes que haban sufrido infarto al miocardio se encontr, despus de su recuperacin y de un tratamiento especial seguido durante 3 aos, que su presin sistlica media era de 136.0 mmHg, con una desviacin estndar de 23.6 mmHg. Qu proporcin de estos pacientes esperara encontrar con a) una presin sistlica menor que 120 mmHg? b) una presin sistlica mayor que 160 mmHg? c) una presin sistlica menor que 145 mmHg? d) una presin sistlica entre 100 y 110 mmHg? e) Por encima de qu nivel de presin sistlica estara el 2.3% de pacientes con presin mas alta?
PROCEDIMIENTO

1. Identifique los datos bsicos: 0 = 136.0 mmHg s = 23.6 mmHg 2. Encuentre las reas pedidas: para esto, hay que convertir los valores de la variable observada (x) en valores de la variable z. a) En este caso x = 120, por lo que z = (120 - 136) / 23.6 = -16 / 23.6 = -0.68 b) En este caso x = 150, por lo que z = (160 - 136) / 23.6 = 24 / 23.6 = 1.02

56 N.B.: el signo negativo o positivo de z indica solamente el lado de la curva en el cual se est trabajando; si es negativo, el valor se encuentra a la izquierda de la media (el valor en cuestin es menor que la media), si es positivo, a la derecha (es mayor que la media). Como la curva es simtrica, la tabla 1 del apndice nicamente muestra los valores positivos. 3. Encuentre el rea Bajo la Curva que est entre el Valor de y de z: en la primera columna de la tabla 1 del apndice se muestran, encabezados por la letra z , los valores enteros y el primer decimal, las otras columnas (0 a 9) corresponden al segundo decimal de z (generalmente, z slo para dos decimales. a) si z = -0.68, se busca en la primera columna de la tabla el valor 0.6, en esa fila se busca el valor correspondiente a la columna encabezada por el nmero 8 (segundo decimal de z. La tabla nos muestra que el rea bajo la curva que est entre = 0 y z = 0.68 equivale a 0.2518 (o al 25.18% del total del rea bajo la curva).

Grfica A Sin embargo, lo que interesa es el rea que se encuentra por debajo de z = -0.68, es decir, la proporcin de los pacientes con una presin sistlica menor que 120 mmHg:

Grfica B

57 Entonces, si se sabe que el rea a cada lado de la media es igual a 0.5 (o al 50%):

Grfica C simplemente se resta a este ltimo valor el rea obtenida en la tabla: rea buscada = 0.5 - 0.2518 = 0.2482 La respuesta es que la proporcin de individuos que se espera encontrar con una presin sistlica menor que 120 mmHg es 0.2482 o 24.82%. b) Si z = 1.02, el procedimiento que se sigue es el mismo. Se busca en la tabla la fila donde z = 1.0 y luego el valor indicado en esa misma fila para la columna encabezada por el nmero 2. La tabla indica que el valor del rea bajo la curva entre = 0 y z = 1.02 es 0.3461:

Grfica D Pero lo que interesa es el valor del rea por encima de z = 1.02, es decir, la proporcin de los pacientes con una presin sistlica mayor que 160 mmHg:

58

Grfica E y al igual que anteriormente: z = 0.5 - 0.3461 = 0.1539 La respuesta es que la proporcin de pacientes que se puede esperar encontrar con una presin sistlica mayor que 160 mmHg es 0.1539 o 15.39%. c) Encuentre las respuestas a las otras preguntas. En la ltima, note que se debe proceder en sentido inverso (primero, encontrar el valor de z y despus el de x, que es la interrogante.

Ejemplo 3.2: Aproximacin de la Distribucin Binomial a la Normal.


INFORMACIN

En 65 pacientes tratados con warfarina (anticoagulante que se utiliza para prevenir tromboembolias), se produjeron hemorragias graves. En 24 de ellos, estas fueron gastrointestinales. Suponiendo que esta proporcin pueda tomarse como referencia para otros casos, cul es la probabilidad de que en una muestra de 100 pacientes con hemorragia grave debida al tratamiento con warfarina, sufran de hemorragia gastrointestinal?

PROCEDIMIENTO

1. Identifique la informacin bsica: n = 100 pacientes tratados con warfarina y que sufren hemorragias graves

59 r = 40 pacientes de los anteriores que sufren hemorragia gastrointestinal B = 24/65 = 0.3692, proporcin obtenida en el estudio mencionado, y que se toma como referencia 2. Obtenga el valor correspondiente de z: z = [(r-0.5) - (nB)] / /[nB (1-B)] por lo tanto z = (40-0.5)(100*0.3692) / /[100*0.3692*0.6308] = 2.58 / /23.289 = 2.58 / 4.8259 = 0.53 3. Busque la correspondiente rea bajo la curva: En la tabla 1, tenemos que el valor del rea desde la media hasta z = 0.53 es: 0.2019. Como el rea que se pide es la que queda por encima de este valor, entonces: 1 - 0.2019 = 0.7981, por lo que se concluye que de estos 100 pacientes, se puede esperar que 79.81 por ciento tengan hemorragia grave gastrointestinal.

60

CAPTULO 4: MUESTREO Y DISTRIBUCIONES DE MUESTRAS


4.1. POBLACIN Y MUESTRA . En estadstica, la poblacin es un agregado o conjunto de observaciones que poseen ciertas caractersticas en comn, definidas de acuerdo a los intereses de una investigacin. Este concepto de poblacin se diferencia del que se tiene en la epidemiologa o en la demografa, en las cuales se habla de conjuntos de personas. En el lenguaje estadstico, la poblacin puede ser referida a individuos, pero tambin a agregados de ellos (por ejemplo, una poblacin de familias o una poblacin de localidades), o a agregados de caractersticas (por ejemplo, una poblacin de presiones arteriales o una poblacin de retinas). Cuando la investigacin incluye el estudio de toda la poblacin se habla de un censo; si nicamente se escoge una parte (n) se hace referencia a una muestra. El objetivo de esta ltima no es, como en ocasiones se cree, conocer lo que sucede en la muestra misma, sino obtener informacin que posteriormente pueda ser generalizada a la poblacin de la cual esa muestra procede. Esto se conoce como estadstica inferencial. Debido a que al tomar una muestra se estudia slo parte de la poblacin, las conclusiones que de ella se obtengan siempre tendrn un grado de error; entonces, por qu llevar a cabo un muestreo y no un censo?: a) porque con frecuencia se trabaja con poblaciones infinitas y por lo tanto no es posible llevar a cabo un censo, puesto que la poblacin siempre estar cambiando y en consecuencia no se podr determinar el nmero total de sus elementos. Ejemplo de ellas es el grupo de pacientes que requiere de un tratamiento particular, porque siempre habr aquellos que dejen de necesitar el tratamiento (ya sea porque se curaron o porque fallecieron) y otros que ingresan al grupo porque han adquirido la enfermedad; b) porque al trabajar con una poblacin finita (aquella en la cual el nmero de elementos puede ser definido) esta resulta demasiado grande o bien se desea ahorrar trabajo, tiempo y costos. c) o bien, aunque en ocasiones se est en capacidad para levantar un censo y se cuenta con los recursos suficientes, al tomar una muestra parte de esos recursos puede ser mejor aprovechada en la indagacin de otros problemas o en ahondar en ciertos aspectos del asunto central. En cualquier caso, al tomar una muestra tenemos las siguientes: a) Ventajas: ahorro en trabajo, tiempo y costos; capacidad para entrenar a un nmero conveniente de observadores bien calificados que recaben los datos de manera ms confiable. b) Desventajas: se pierde precisin. En realidad lo que hacemos es reemplazar una afirmacin absoluta con respecto a la poblacin por una aproximacin (el trmino estadstico es estimacin).

61 Al obtener una muestra, se desea conocer una de dos cosas: a) el valor medio () de alguna medida, o b) la proporcin (B) de la poblacin con alguna caracterstica. Pero, como se dijo arriba, ya que slo se ha estudiado a una parte de la poblacin y no a toda ella, las estimaciones tendrn un grado de error. En otras palabras, nunca se podr esperar que las estimaciones muestrales sean iguales a los valores reales, o parmetros, en la poblacin (0 = ; p = B), si acaso sern aproximadamente / / iguales. De hecho, si los valores obtenidos a partir de una muestra fuesen los mismos que los de la poblacin, no lo sabramos, pues desconocemos estos ltimos, lo cual es el motivo del estudio. Es importante reconocer que al tomar una muestra pueden existir dos tipos de errores: a) El error aleatorio (error de muestreo, error experimental) que surge debido al hecho mismo de que estamos observando precisamente a una parte de la poblacin y no al total. Este tipo de error tiene dos importantes caractersticas: conforme aumenta el tamao de la muestra (n), el error disminuye (en un censo no hay error de muestreo); y adems puede ser medido. b) El error no aleatorio (error sistemtico), que se debe a la introduccin de sesgos en la seleccin de la muestra, el cual constituye un descuido o una tendencia por parte del observador, aunque tambin se puede deber al sujeto observado. Este tipo de error no disminuye al aumentar el tamao de la muestra (no desaparece ni aun cuando se levanta un censo) y no puede ser medido. Dadas las caractersticas de ambos tipos de error, es importante reducir el primero y saber evitar el segundo. Ello depender de la forma en que las unidades muestrales sean seleccionadas. Aqu se tratarn nicamente los aspectos relacionados con el error de muestreo, los errores sistemticos son motivo de estudio metodolgico ms que estadstico. Una de las preocupaciones ms frecuentes cuando se toma una muestra, es que esta sea representativa de la poblacin de la cual procede, esto es, que de alguna manera refleje adecuadamente las caractersticas de la poblacin. Algunos autores prefieren no referirse a este trmino por las dificultades implcitas que plantea. En todo caso la nica manera de "asegurar la representatividad" consiste en la toma de una muestra aleatoria. Es decir, lo importante en el muestreo es la forma en que se ha llevado a cabo. La seleccin aleatoria se basa en que cada una de las unidades muestrales tiene la misma oportunidad de ser elegida. Para ello, antiguamente se utilizaban las tablas de nmeros aleatorios que an contienen los libros de estadstica (vase la tabla 2 del Apndice); actualmente es fcil auxiliarse de distintos recursos electrnicos como son las calculadoras cientficas de bolsillo o distintos programas de cmputo.

62 El uso de esta tabla es sencillo: en primer lugar se decide la cantidad de dgitos que han de formar los nmeros que se seleccionarn; por ejemplo, si la poblacin de la cual se ha de extraer la muestra est constituida por 500 elementos, se requiere de tres dgitos, por lo que se numerarn desde 001 hasta 500; se decide de antemano el sentido en el que se ha de leer la tabla (de izquierda a derecha, de derecha a izquierda, de abajo hacia arriba, o cualquier combinacin que se desee); se escoge al azar el punto de inicio en la tabla y se procede a seleccionar los nmeros. Con instrumentos del tipo de las calculadoras cientficas de bolsillo se siguen los mismos principios. Por lo general, estas calculadoras tienen una tecla ("random" o algo similar) que produce nmeros en el formato de tres decimales. Tales nmeros son "semialeatorios" pues son producidos a partir de un nmero "semilla". De cualquier forma, es necesario definir de antemano cmo habrn de ser utilizados los resultados. Algunos programas de cmputo, como Excel , pueden producir nmeros aleatorios con una amplia variedad de controles por parte del usuario. Como alternativa a la seleccin aleatoria existe la seleccin regulada, donde el investigador escoge unidades muestrales tpicas del fenmeno estudiado. Este tipo de muestra, aunque en ocasiones proporciona resultados ms precisos en el estudio de ciertos fenmenos (por ejemplo, alguna enfermedad) tiene la desventaja de que no permite medir el error de muestreo, no permite hacer estudios comparativos y est sujeta a la posibilidad de sesgos muy importantes. Otro tipo de seleccin es la sistemtica, en donde se toman las unidades muestrales que se encuentran a cada determinado nmero de elementos que integran el universo (por ejemplo, cada tercer paciente). Esto puede hacerse nicamente si el nmero de elementos seleccionados es grande y la homogeneidad entre ellos no es importante para el estudio. Adems, se puede "aleatorizar" al dejar al azar el nmero que resulte como punto de partida. En lo subsecuente se supone que se hablar siempre de muestras aleatorias las cuales, adems, pueden ser de diferentes tipos: simples, estratificadas, proporcionales, etc. Aqu se supondr que hablamos siempre de las muestras aleatorias simples. 4.2. DISTRIBUCIONES MUESTRALES . Cuando se toma una muestra aleatoria de tamao n y calculamos su media 0, se sabe que debido al error de muestreo sta ser diferente de la verdadera media . Entonces, interesa saber qu tan diferente es; en otras palabras, interesa conocer cul es la magnitud del error de estimacin. Por supuesto nunca se podr conocer exactamente dado que se ignora el valor de (pues si se conociese no tendra objeto hacer la investigacin). Suponiendo que se toman muchas muestras (i muestras) todas del mismo tamao n y de la misma poblacin, se pueden obtener entonces sus respectivas medias 0 i. Si estas resultan ser similares entre s, se puede decir que el error de muestreo es pequeo. Si las 0 i difieren

63 ampliamente, el error sera grande. De qu depende entonces la magnitud del error? Fundamentalmente de dos aspectos: a) Como se vio anteriormente, el error de muestreo ser menor conforme el tamao de la muestra aumente, de tal manera que en un censo completo no existe error de muestreo. b) Pero adems, depender de la variabilidad (dispersin) de los valores en la poblacin estudiada. Una poblacin heterognea (con F 2 grande) dar un error de muestreo mayor que una poblacin homognea (con F 2 pequea); esto es resultado de que, en el primer caso, los valores seleccionados para la muestra tendern a estar ms cercanos a . De esta manera, el error de muestreo ser el resultado de la relacin entre dos factores: el tamao de la muestra y la variabilidad de las observaciones, y esto se puede expresar como sigue:

En esta relacin se puede ver que el resultado aumenta si aumenta la varianza y disminuye si aumenta el tamao de la muestra. Si, de acuerdo a la suposicin de prrafos anteriores, se obtuviesen diferentes medias 0 i (todas con el mismo tamao) y se observase su distribucin, se podran advertir las siguientes caractersticas: a) La distribucin de las 0 i tiende a ser normal an cuando la distribucin de la variable original que est bajo estudio no lo sea (teorema del lmite central; grfica 4.1). b) La media de la distribucin de las 0 i es la misma que la media de la variable original en la poblacin, o sea (grfica 4.1). c) La varianza de la distribucin de las 0 i es F 2/n. d) La desviacin estndar es la raz cuadrada de la varianza, y se le denomina error estndar de la media (EE0):

o ms comnmente:

L EE0 =
el cual representa la magnitud del error de muestreo.

64

Grfica 4.1. Ntese que si n aumenta el EE0 disminuye y si F aumenta el EE0 aumenta y viceversa. Por lo general, como el valor de F se desconoce, deber ser substituido por el valor de la muestra (s):

L EE0 =
Por ltimo, si la distribucin de las 0 i tiende a ser una distribucin normal, entonces podemos aplicar las propiedades de sta a la distribucin de las medias muestrales. Esto significa que el intervalo definido por: 1.96 EE0 incluye al 95% de las medias muestrales similar al intervalo definido por: 1.96 F que incluye al 95% de las observaciones (vase el captulo 3; grfica 4.2).

Grfica 4.2.

65 Se puede definir el intervalo correspondiente para el 99 por ciento: 2.58 EE0 incluye al 99% de las medias muestrales Para el caso de las variables binomiales tenemos que:

o ms comnmente:

L
Por lo general, como los valores de B se desconocen, debern ser sustitudos por el valor de la muestra (p):

L
4.3. INTERVALOS DE CONFIANZA . Una vez conocida la magnitud del error de muestreo, queda por responder a la pregunta sobre qu tan buen estimador resulta la media de la muestra 0, de la media de la poblacin , cuyo valor nos es desconocido. Anteriormente se vio que en una distribucin de medias muestrales (0 i) el 95 por ciento de ellas caeran dentro del intervalo: 1.96 EE0 es decir, existe el 95 por ciento de probabilidad de que el error de estimacin no sea numricamente mayor que 1.96 EE0 o, dicho en otras palabras, confiamos en que la nica media observada 0, forme parte de ese conjunto de medias 0 i que tienen como media a y como medida de dispersin al EE0. En la estimacin o inferencia cientficas se trabaja con este concepto probabilstico en el que siempre habr un grado de incertidumbre pues, en nuestro ejemplo, un 5 por ciento de las medias 0 i caer por fuera del intervalo 1.96 EE0. Podemos construir un intervalo dentro del cual caiga el 99 por ciento de las medias 0 i, o el 99.9 por ciento, o cualquier otro, pero nunca podremos definir un intervalo tal en que la certeza de nuestras afirmaciones sea absoluta (recurdese que la distribucin normal es asinttica). Sin embargo, el problema usual no es el anterior, ya que por lo regular no tomamos muchas muestras de la misma poblacin. Se pretende que, a travs de una sola muestra, podamos

66 estimar el valor que tiene , la cual permanece desconocida y que es el motivo de la investigacin. Para lo anterior, dicho en palabras coloquiales, la inferencia cientfica juega a la lotera, pero en sentido contrario: en la lotera, el jugador desea, o confa, que el nmero comprado salga premiado con el premio principal, es decir, busca obtener, por medio del azar, el resultado menos probable; en la inferencia estadstica se desea que la nica media 0 forme parte del conjunto de medias 0 i que caen dentro del intervalo, por ejemplo, del 95 por ciento ( 1.96 EE0), en otras palabras, se confa en que no se obtendr el primer premio, en que el error de estimacin no ser mayor que 1.96 EE0, y que por lo tanto, el intervalo definido por:

L 0 1.96 EE0
tenga en realidad una probabilidad del 95 por ciento de contener el valor de . Este intervalo es llamado intervalo de confianza al nivel del 95 por ciento para la verdadera media de la poblacin y es una medida de la precisin con que 0 estima el valor de . Ntese que es el intervalo de confianza el que tiene una probabilidad dada de incluir el valor de y que no es la que tiene esa probabilidad de caer dentro del intervalo. Entre ms amplio resulte el intervalo al mismo nivel de confianza (por ejemplo 95 por ciento), menor ser la precisin con que se est estimando el parmetro de la poblacin y viceversa. Un intervalo muy amplio ser de menor utilidad prctica que uno estrecho. El mismo razonamiento se sigue para las variables binomiales, donde el intervalo de confianza del 95 por ciento para la verdadera proporcin de la poblacin (B) es:

L p 1.96 EEp
Por supuesto, se pueden definir otros intervalos a distintos niveles de confianza: 0 2.58 EE0 p 2.58 EEp que son los intervalos correspondientes al nivel de confianza del 99 por ciento. Por supuesto, el intervalo del 99 por ciento ser ms amplio que el del 95 por ciento, con un mismo error estndar, debido al simple hecho de que se abarca un rea mayor bajo la curva (no a que sea menos exacto). Estos dos intervalos son los ms usados en la investigacin, pero ello es arbitrario y se puede utilizar cualquier otro.

67 Es por medio de estos intervalos que se puede estimar el valor desconocido de un parmetro de la poblacin ( o B) por medio de una muestra, con una cierta probabilidad de acertar y, en consecuencia, con una cierta probabilidad de equivocarse (que siempre existir y que en ocasiones puede hacerse real, por pequea que nos parezca; hay quienes obtienen el primer premio de la lotera!; vanse los ejemplos 4.1 y 4.2).

68 Ejemplo 4.1: Obtencin de un Intervalo de Confianza para la Verdadera Media en una Poblacin.
INFORMACIN

En un estudio realizado en una comunidad rural de Mxico, se tom una muestra de 127 individuos, a quienes se les midi el nivel de colesterol srico. Los resultados arrojaron una media (0 ) igual a 250.16 mg/100 ml y una desviacin estndar (S) igual a 48.29 mg/100 ml. Suponiendo que esta muestra fue correctamente tomada y que es representativa de la poblacin de la cual se obtuvo, cul sera el intervalo de confianza del 95 por ciento para estimar la verdadera media de la poblacin?

PROCEDIMIENTO

1. Defina los datos bsicos: n = 127 individuos 0 = 250.16 mg/100 ml por individuo s = 48.29 mg/100 ml 2. Obtenga el error estndar: EE0 = s/%n = 48.29/%127 = 48.29/11.269 = 4.29 mg/100 ml 3. Obtenga el intervalo de confianza del 95 por ciento: 0 1.96 EE0 250.16 (1.96 * 4.29) 250.16 8.41 es decir, de 241.75 mg/100ml a 258.57 mg/100ml
INTERPRETACIN

69 Con un 95 por ciento de probabilidades de acertar, se puede afirmar que el valor de la verdadera media de colesterol srico, en la poblacin de la cual fue tomada esta muestra, se encuentra entre 241.75 y 258.57 mg/100ml.

70 Ejemplo 4.2: Obtencin de un Intervalo de Confianza para la Verdadera Proporcin en una Poblacin.
INFORMACIN

La infeccin por virus de hepatitis B (VHB) puede tener diferentes consecuencias, como son la hepatitis aguda, la hepatitis activa crnica, la cirrosis y el carcinoma hepatocelular primario. En los adultos esta infeccin es responsable de una gran parte de tales enfermedades. En un estudio realizado en Argentina, fueron examinadas 276 personas con hepatitis crnica, de las cuales 174 resultaron positivas al VHB; en otro estudio, llevado a cabo en Chile fueron examinadas 48 personas con carcinoma hepatocelular, de las cuales 34 resultaron positivas para el VHB. Suponiendo que estas fueron muestras seleccionadas al azar, determine: a) el intervalo de confianza del 95por ciento para la verdadera proporcin (B) de pacientes con hepatitis crnica VHB positivos en Argentina. b) el intervalo de confianza del 95por ciento para la verdadera proporcin (B) de pacientes con carcinoma hepatocelular VHB positivos en Chile.

PROCEDIMIENTO

Para el problema (a): 1. Defina los datos bsicos: n = 276 pacientes con hepatitis crnica r = 174 pacientes con hepatitis crnica VHB positivos 2. Obtenga la proporcin de la muestra: p=r/n = 174 / 276 = 0.6304 3. Obtenga el error estndar: EEp = %[p(1-p) / n] = %[0.6304*0.3696 / 276]

71 = 0.0291 4. Obtenga el Intervalo de Confianza del 95 por ciento: p 1.96 EEp 0.6304 (1.96 * 0.0291) 0.6304 0.057 esto es, de 0.5734 hasta 0.6874.
INTERPRETACIN

Con un 95 por ciento de probabilidad de acertar (o de confianza), se puede afirmar que la verdadera proporcin de pacientes con hepatitis crnica que son VHB positivos se encuentra entre 0.5734 y 0.6874, es decir, entre el 57.34 por ciento y el 68.74 por ciento. Esto ser vlido solamente para la poblacin de la cual fue extrada la muestra y en el caso de que esta realmente haya sido obtenida por mtodos aleatorios. Obtenga el intervalo de confianza del 99 por ciento. Obtenga los resultados para el problema (b).

72

CAPTULO 5: CONTRASTE DE HIPTESIS PARA UNA SOLA MUESTRA


5.1. UNA SOLA MEDIA . En ocasiones, al tomar una sola muestra, interesa saber si los resultados obtenidos (0) proceden de una poblacin de la que es conocida. Esta situacin es comn cuando tratamos de ver si, por ejemplo, los enfermos de un padecimiento se diferencian de la poblacin sana (de la cual se supone se conoce su verdadera media) en cuanto a, por ejemplo, un resultado de laboratorio. Por supuesto, en estricto sentido, una poblacin de este tipo sera infinita y en realidad no podramos llegar a conocer su verdadera media. En la realidad, es difcil decir que se conoce F, por lo que hay que utilizar el valor de la desviacin estndar de la muestra (s). En primer lugar, siempre se pone a prueba una afirmacin que se denomina hiptesis nula (Ho) la cual establece que la media 0 en realidad procede de la poblacin con media , y que toda diferencia observada se debe al error de muestreo y no a una verdadera diferencia (es decir, en este caso la hiptesis nula nos dira que la medicin que estamos tomando en los enfermos tiene la misma media que la de la poblacin sana). En otras palabras, la Ho establece la nulidad de las diferencias entre las dos medias y esto es algo que requiere ser probado. A la prueba que se hace para verificar lo anterior se le llama contraste de hiptesis o prueba de hiptesis. Una forma de abordar el problema es a travs del establecimiento de intervalos de confianza. Si se sabe que el intervalo definido por: 1.96 incluir al 95 por ciento de las medias 0 i (todas del mismo tamao n; vase el captulo 4), entonces la probabilidad de que la 0 observada caiga dentro de ese intervalo es igual a 0.95; si en algn caso no es as, se dice que se ha encontrado una diferencia significativa al nivel de significancia del 0.05 o 5 por ciento, lo cual se expresa como: p < 0.05 donde p se interpreta siempre como la probabilidad de equivocarse al rechazar la hiptesis nula. Es decir, en este caso se rechazara la Ho con una probabilidad de error menor que 0.05 o 5 por ciento. Esto quiere decir que se ha encontrado evidencia de que existe una diferencia entre 0 y .

73 Si la 0 cae dentro de ese intervalo, entonces no se puede rechazar la Ho a ese nivel de significancia, puesto que su valor est dentro del intervalo en el que caera la mayora de las 0 i que tienen como verdadera media a , y se expresa como: p > 0.05 lo que indica que la probabilidad de equivocarse al rechazar la Ho es mayor que 0.05 o que el 5 por ciento. Es decir, que no se ha encontrado evidencia de alguna diferencia significativa y que la observada entre 0 y se debe slo al error de muestreo. Debe tenerse presente que una Ho nunca se acepta, pues un resultado negativo nunca es evidencia de nada, es decir, el hecho de que no se observe una diferencia significativa no quiere decir que esta no exista. Si se desean otros niveles de significancia, se pueden construir los intervalos respectivos, como por ejemplo: 2.58 para el nivel de significancia del 0.01 o 1 por ciento, y los resultados se expresan como: p < 0.01 o bien como: p > 0.01 segn sea el caso de que se trate de una diferencia significativa o no, respectivamente. Sin embargo, este procedimiento puede resultar tedioso si hay que comparar la 0 con varios niveles de significancia (por ejemplo, si resulta significativa al nivel de 0.05 y se desea ver si tambin lo es al nivel de 0.01), pues en cada caso se deber construir el intervalo de confianza respectivo. Una manera ms sencilla de hacer la prueba o contraste consiste en obtener la puntuacin z para la diferencia de las medias, donde:

L
y si el resultado es numricamente mayor que 1.96 (sin importar el signo), entonces la diferencia entre 0 y es significativa (p < 0.05), como anteriormente. Al mismo tiempo, y sin

74 necesidad de hacer ninguna otra operacin, se puede ver si z es mayor que 2.58 y si es as, la diferencia tambin ser significativa al nivel de 0.01 (p < 0.01). La interpretacin que se puede hacer es igual a lo dicho con respecto a los intervalos de confianza, cuando z es menor que 1.96 o 2.58 entonces: p > 0.05 o p > 0.01. En el caso de que z sea mayor que 1.96 pero menor que 2.58, entonces: 0.01 < p < 0.05 lo que quiere decir que se ha encontrado diferencia significativa al nivel del 5 por ciento pero no al nivel del 1 por ciento. En la actualidad con los medios electrnicos al alcance, es comn encontrar la probabilidad exacta en expresiones como: p = 0.038 que equivaldra a 0.01 < p < 0.05. Es necesario aclarar que los niveles de significancia del 1 por ciento, 5 por ciento o cualquier otro son arbitrarios y dependern del problema estudiado y de las preferencias del investigador establecidas de antemano en el protocolo de investigacin. Por otro lado, debe tenerse en cuenta que "significativo" en estadstica, indica que la diferencia no es fcilmente explicada por el azar, esto es, por el error de muestreo, y que entonces debera ser explicada de otras maneras (por ejemplo, a travs de la influencia de alguna variable que se est estudiando). Adems, es importante recordar siempre que una diferencia estadsticamente significativa no necesariamente implica una diferencia importante en trminos del fenmeno real estudiado, y que existe la posibilidad de error en las conclusiones (rechazar una Ho cuando en realidad no hay diferencia, o no rechazarla cuando s la hay). La decisin final acerca de la importancia que puede tener una diferencia dada, depender de criterios distintos a los puramente estadsticos (vase el ejemplo 5.1). Debemos insistir en que nuestras conclusiones, basadas en principios probabilsticos, siempre contienen la posibilidad de resultar errneas. 5.2. UNA SOLA PROPORCIN . En el caso de las proporciones, la comparacin que se hace es la siguiente:

75 o su equivalente:

L
las dos frmulas dan los mismos resultados los cuales, de acuerdo a la magnitud de z, se interpretan de la misma manera que para el caso de las medias (vase el ejemplo 5.2).

76 Ejemplo 5.1: Contraste de Hiptesis para Una Sola Media


INFORMACIN

La infeccin por microorganismos provoca una compleja respuesta en el hospedero, la cual puede incluir alteraciones en el metabolismo intermedio. Entre otras cosas, se puede producir una disminucin en los procesos de remocin de lipoprotenas circulantes, a la vez que un incremento en la sntesis heptica de lpidos. Se piensa que estas alteraciones son producidas por las citoquinas liberadas durante la respuesta inmune. Por estos motivos, se ha sugerido que puede existir una asociacin entre el sndrome de inmunodeficiencia adquirida (SIDA) y los niveles elevados de triglicridos en la sangre. En un estudio en el que se analizaron estos niveles, en 32 pacientes con SIDA, se encontr una media de 231 mg/dl. Si en la poblacin normal el nivel promedio es de 91 mg/dl, con una desviacin estndar de 41.23 mg/dl, existe evidencia de que la hipertrigliceridemia puede considerarse como una manifestacin del SIDA?

PROCEDIMIENTO

1. Identifique la informacin bsica: = 91 mg/dl F = 41.23 mg/dl 0 = 231 mg/dl n = 32 pacientes 2. Establezca la hiptesis nula: En este caso, la Ho podra plantearse como: la diferencia observada entre la media de triglicridos en los pacientes con SIDA, y la de la poblacin sana se debe nicamente al error de muestreo y no al hecho de que aqullos estn enfermos. 3. Obtenga el error estndar: EE0 = F / %n = 41.23 / %32 = 7.2885 4. Obtenga el valor de z:

77 z = (0 - ) / EE0 = (231-91) / 7.2885 = 19.21


INTERPRETACIN

Ya que el valor de z es numricamente mucho mayor que los niveles crticos de 1.96 y de 2.58, se puede rechazar la hiptesis nula al nivel de significancia del 1 por ciento o inclusive de 0.1 por ciento: p < 0.001 (en realidad, p = 5.58 *10-52). Esto quiere decir que los niveles de triglicridos en sangre son significativamente ms altos en los pacientes con SIDA, comparados con la poblacin sana; o en otras palabras, que los pacientes con SIDA pertenecen a una poblacin cuyos niveles de triglicridos son ms altos que los de la poblacin sana. Pero muchas veces interesa saber si esta diferencia, estadsticamente significativa, es tambin importante en trminos clnicos o biolgicos. Para ello se debe obtener el intervalo de confianza para la verdadera diferencia entre 0 y , puesto que la diferencia observada est basada en los resultados obtenidos de una muestra y no puede considerarse como la verdadera:

L (0 - ) (1.96)(EE0)
Para lo cual se sustituyen los correspondientes valores: (231 - 91) (1.96)(7.2885) 140 14.29 Es decir, el intervalo de confianza para la verdadera diferencia est entre 125.7 y 154.3 mg/dl. En otras palabras, con un nivel de confianza del 95 por ciento, podemos afirmar que los niveles de triglicridos en la sangre son ms altos en los pacientes con SIDA, comparados con las personas sanas, en al menos 125.7 mg/dl y hasta 154.3 mg/dl.

78 Ejemplo 5.2: Contraste de Hiptesis para Una Sola Proporcin.


INFORMACIN

En un estudio para verificar la teora de que la resistencia a la dieldrina (0.4 por ciento con exposicin de una hora) es debida a un solo gene dominante en Anopheles farauti, homocigotos resistentes (RR) fueron cruzados con homocigotos susceptibles (rr) para producir una poblacin de heterocigotos (F1). Los mosquitos F1 fueron nuevamente cruzados con una cepa de homocigotos susceptibles. De acuerdo con la teora de la determinacin unignica, el porcentaje de la progenie de este ltimo entrecruzamiento que podra ser susceptible a la dieldrina es de 50 por ciento. De 465 mosquitos de esta progenie, 264 (56.77 por ciento) murieron. Es este porcentaje significativamente diferente al porcentaje que predice el modelo gentico?

PROCEDIMIENTO

1. Identifique la informacin bsica: B = 0.5 (proporcin predicha por la teora) n = 465 (mosquitos estudiados) r = 264 (mosquitos muertos) p = 0.5677 (proporcin observada) 2. Establezca la hiptesis nula: La Ho podra plantearse de la siguiente manera: la diferencia en el porcentaje de mosquitos muertos entre el experimento realizado y lo predicho por la teora, se debe solamente al error de muestreo; es decir, la teora de que la resistencia a la dieldrina se debe a un nico gene dominante, es cierta. 3. Obtenga el error estndar: EEp = %[B(1-B) / n] = %[0.5*0.5 / 465] = 0.0232 4. Obtenga el valor de z: z = (p - B) / EEp

79 = (0.5677-0.5) / 0.0232 = 2.919 o de acuerdo a la otra frmula z = (r - nB) / %[nB(1-B)] = 264-232.5 / 10.78 = 2.92
INTERPRETACIN

Ya que el valor de z es mayor que 1.96 se puede rechazar la hiptesis nula p < 0.05 e inclusive puede hacerse al nivel de significancia del 1 por ciento p < 0.01 (en realidad p = 0.0035). Por este motivo se puede afirmar que existe evidencia para rechazar la hiptesis de que la resistencia a la dieldrina se debe a un nico gene dominante, y que por lo tanto, debe buscarse alguna otra explicacin al fenmeno. Al haber encontrado una diferencia significativa entre la proporcin esperada por la teora y la observada, resulta de inters estimar la verdadera magnitud de esa diferencia. Para tal caso se puede construir un intervalo de confianza (95 por ciento, 99 por ciento o cualquier otro) para la verdadera diferencia. El intervalo de confianza del 95 por ciento es:

L (p - B) 1.96 EEp
0.0677 (1.96 * 0.0232) 0.0677 0.0455 lo que quiere decir que la magnitud de la verdadera diferencia entre las proporciones esperada y observada, con un 95 por ciento de probabilidad de acertar, est entre 0.0222 y 0.1332 o

80 que el porcentaje de mosquitos muertos observado debe ser mayor que el esperado por la teora entre 2.22 y 13.32 puntos porcentuales.

81

CAPTULO 6: CONTRASTE DE HIPTESIS PARA DOS MUESTRAS GRANDES


Tal vez una de las tcnicas estadsticas ms comunes utilizadas en la investigacin mdica sea la comparacin de los resultados de dos muestras, por ejemplo, al comparar el efecto que dos tratamientos distintos pueden tener sobre sendos grupos de individuos con caractersticas similares. Al hacer esto, se puede determinar si los niveles medios de algn indicador se modifican de manera ms favorable con uno de los tratamientos o si estos tienen efectos similares, o bien si es mayor la proporcin de individuos que presentan alguna mejora, o son curados, con un tratamiento en comparacin con el otro. En este captulo se muestra el procedimiento que se sigue en casos donde se tienen dos muestras cuyo tamao es grande, y lo que se desea es contrastar la hiptesis nula de que son iguales entre s.

6.1. MEDIAS DE DOS MUESTRAS.


Supongamos que existen dos poblaciones, una con 1, F1 y la otra con 2, F2. Si se toman muestras de tamao n1 y n2 de estas dos poblaciones (no se requiere que estas muestras sean del mismo tamao), se calcula la diferencia de sus medias (01 - 02) y se repite el procedimiento i veces, se puede encontrar que: a) la media de la distribucin de las diferencias (01 - 02)i es (1 - 2), es decir, la diferencia de las medias de las respectivas poblaciones). b) la varianza de la distribucin de las diferencias es la suma de las varianzas individuales, es decir: varianza (01 - 02) = varianza(01) + varianza(02)
2 2 = F1/n1 + F2/n2

Siendo el error estndar de la diferencia de las medias, EE(01-02):

L EE(0 -0 ) =
1 2

En el caso de una sola muestra ponemos a prueba la Ho que afirma que la 0 procede en realidad de una poblacin con media y que toda diferencia observada se debe al error de muestreo. La respuesta se obtuvo calculando (captulo 5):

En el presente caso, ya que se cuenta con dos muestras, la Ho establece que las medias 0 1 y 0 2 han sido tomadas de poblaciones cuyas medias 1 y 2 son iguales, es decir: 1 = 2, o bien 1 - 2 = 0

82 y que la diferencia observada entre 0 1 y 0 2 es debida nicamente al error de muestreo. Para probar (contrastar) la hiptesis nula, de nuevo se calcula z, pero ahora se sustituyen los valores de 0 por (0 1 - 0 2) y de por (1 - 2), y el error estndar de la media EE0 por el error estndar de la diferencia de las medias EE(0 1-0 2):

lo cual, de acuerdo a la Ho queda como sigue:

donde el valor cero expresa lo afirmado por la Ho. Debido a que F generalmente permanece desconocida y a que se trata de muestras grandes (en donde s tiende a parecerse a F), entonces se utilizan los valores muestrales s2 y s2 como 1 2 estimadores, quedando la frmula que se utilizar como:

L
El valor de z que se obtenga se interpreta de la misma manera que en el caso de una sola media, generalmente a los niveles crticos del 5 por ciento y del 1 por ciento. Debe tenerse presente que si primero se obtuvo el valor de z con una sola media muestral para estimar el valor de la verdadera media de la poblacin (captulo 4) y luego se obtuvo para el valor de z para ver la verdadera diferencia entre 0 y (captulo 5), ahora se calcula z para indagar la verdadera diferencia entre dos medias de las muestras, 0 1 y 0 2. Finalmente, resulta importante estimar la magnitud de la verdadera diferencia (si es que se ha encontrado una diferencia significativa) entre las dos muestras estudiadas. Esto se puede hacer construyendo un intervalo de confianza para la verdadera diferencia, por ejemplo: (0 1-0 2) 1.96 EE(0 1-0 2) o cualquier intervalo a otros niveles de confianza (vase el ejemplo 6.1). 6.2. PROPORCIONES DE DOS MUESTRAS.

83 En el caso de las variables binomiales, frecuentemente interesa saber si la proporcin de individuos con una caracterstica dada difiere en dos grupos que se comparan. La Ho dice que las proporciones, B 1 y B 2, de las poblaciones de las cuales proceden las muestras, son iguales: B 1 = B 2, o bien B1 - B 2 = 0 Por ello, de las dos muestras se pretende obtener la mejor estimacin de B que sea posible, esto es, una proporcin combinada (pc), donde:

L
Con la cual se puede calcular el error estndar de la diferencia de las proporciones EE(p1-p2), que originalmente sera:

pero que al sustituir B por la estimacin pc, se tiene:

y ya simplificado:

L EE(p -p ) =
1 2

Con cuyo valor se puede proceder a obtener el valor de z para la diferencia de las proporciones:

L
Y de la misma manera que para la diferencia de medias, se puede obtener el intervalo de confianza para la verdadera diferencia de las proporciones:

84 (p1-p2) 1.96 EE(p1-p2) (vase el ejemplo 6.2).

85 Ejemplo 6.1: Contraste de Hiptesis para las Medias de Dos Muestras.


INFORMACIN

En un estudio de la edad a la menarquia en mujeres de EUA, se obtuvo la siguiente distribucin por edades en una muestra de dos generaciones de mujeres, una con edades entre 21 y 30 aos y la otra con edades entre 31 y 40 aos en el momento del estudio. Se pretende probar la hiptesis de que no hay diferencia en la edad promedio a la menarquia entre ambos grupos de mujeres.

Edad a la Menarquia 10 11 12 13 14 15 16 17 18 TOTAL

Mujeres de 31-40 aos 21-30 aos 0 2 8 14 27 5 8 1 1 16 3 11 28 23 12 1 0 0 0 78

PROCEDIMIENTO

1. Identifique y obtenga los datos bsicos: n1 = 66 mujeres de 31-40 aos n2 = 78 mujeres de 21-31 aos 0 1 = 13.88 aos de edad a la menarquia 0 2 = 12.42 aos de edad a la menarquia 2 2 s1 = 1.93 s2 = 1.17 2. Obtenga el error estndar de la diferencia de las medias:
2 EE(0 1-0 2) = %[s2/n1 + s2/n2] 1

= %[1.93/66 + 1.17/78] = %0.0442

86 = 0.2103 3. Obtenga el valor de z para la diferencia de las medias: z = (0 1-0 2) / EE(0 1-0 2) = (13.88-12.42) / 0.2103 = 6.94
INTERPRETACIN

Como z es mayor que el valor crtico de 1.96, y an mucho mayor que 2.58, la diferencia entre las medias resulta altamente significativa: p < 0.001 -6 (en realidad, p = 0.1099 * 10 ). Esto quiere decir que existe evidencia de que la edad promedio a la menarquia ha variado (ha disminuido, de acuerdo a las medias muestrales) significativamente entre una y otra generacin. 4. Obtenga el intervalo de confianza del 95 por ciento para la verdadera diferencia entre las medias: Ya que se encontr una diferencia altamente significativa entre las dos medias de las muestras, interesa saber cul puede es la magnitud del cambio: (0 1-0 2) 1.96 EE(0 1-0 2) (13.88-12.42) (1.96 * 0.2103) 1.46 0.4122 lo que da un intervalo que se encuentra entre 1.05 y 1.87 aos de diferencia en la edad a la menarqua. INTERPRETACIN: con un 95 por ciento de probabilidades de acertar, se puede afirmar que la edad a la menarquia se ha reducido entre 1.05 y 1.87 aos en promedio para las mujeres de la generacin ms joven.

87 Ejemplo 6.2: Contraste de Hiptesis para las Proporciones de Dos Muestras.


INFORMACIN

La mayora de las mujeres que voluntariamente se someten a esterilizacin quirrgica dicen no arrepentirse de su eleccin. No obstante, entre el 1 por ciento y el 3 por ciento solicitan ms tarde la recanalizacin quirrgica de las trompas, lo cual se puede lograr con mtodos modernos, aunque complejos y costosos. El porcentaje de xitos vara entre el 50 por ciento y el 70 por ciento, dependiendo, entre otras cosas, del mtodo de esterilizacin que se haya seguido. En un estudio se vio que de 299 mujeres recanalizadas despus de la esterilizacin por medio de la ligadura de Pomeroy, 176 lograron tener un embarazo a trmino; en comparacin, de 258 mujeres recanalizadas despus de la esterilizacin con electrocoagulacin, 111 lograron tener un embarazo a trmino. Para ver si existe una diferencia significativa entre ambos grupos de mujeres, respecto al porcentaje que logra tener un embarazo a trmino despus de la recanalizacin: a) establezca la hiptesis nula. b) obtenga el porcentaje de mujeres que lograron un embarazo a trmino en uno y otro casos. c) realice el contraste de hiptesis para ver si existe una diferencia entre ambos porcentajes. d) obtenga el intervalo de confianza para la verdadera diferencia, en caso de que esta sea significativa.

PROCEDIMIENTO

1. Establezca la hiptesis nula: Una forma de plantear la hiptesis nula podra ser: los resultados de la recanalizacin quirrgica en mujeres que han sido esterilizadas por la ligadura de Pomeroy y en las que lo han sido por electrocoagulacin, en realidad son iguales, cualquier diferencia observada se debe al error de muestreo. 2. Obtenga los porcentajes de embarazos: GRUPO A (LIGADURA DE POMEROY) GRUPO B (ELECTROCOAGULACION) n1 = 299 mujeres recanalizadas n2 = 258 r1 = 176 mujeres con embarazo a trmino r2 = 111

88 p1 = 176/299 = 0.5886 o 58.86% 3. Obtenga la Proporcin Combinada: pc = (r1+r2) / (n1+n2) = (176+111) / (299+258) = 0.5153 4. Obtenga el error estndar de la diferencia de las proporciones: p2 = 111/258 = 0.4302 o 43.02%

EE(p1-p2) = /[pc(1-pc)(1/n1 + 1/n2) = /[0.5153(1-0.5153)(1/299 + 1/258) = 0.0425 5. Obtenga el valor de z para la diferencia de las proporciones: z = (p1-p2) / EE(p1-p2) = (0.5886-0.4302)/0.0425 = 3.73
INTERPRETACIN

Como z es numricamente mayor que el valor crtico de 2.58, se puede afirmar que existe una diferencia significativa entre ambos grupos de pacientes en cuanto al xito de la recanalizacin, el cual es mayor para las mujeres que siguieron la esterilizacin por medio de la ligadura de Pomeroy: p < 0.001 (en realidad, P = 0.00019). 6. Obtenga el intervalo de confianza del 95 por ciento para la verdadera diferencia entre las proporciones:

89 Debido a que se encontr una diferencia significativa, es conveniente obtener este intervalo, con el objetivo de determinar cul puede ser la magnitud de la verdadera diferencia: (p1-p2) 1.96 EE(p1-p2) (0.5886-0.4302) (1.96 * 0.0425) 0.1584 0.0833 es decir, la verdadera diferencia se encuentra entre 0.0751 y 0.2417. INTERPRETACIN: con un 95 por ciento de probabilidad de acertar, se puede afirmar que la verdadera proporcin de xitos en la recanalizacin es mayor entre 7.51 y 24.17 puntos porcentuales para las pacientes que fueron esterilizadas por medio de la ligadura de Pomeroy, comparadas con las que se sometieron a la electrocoagulacin.

90

CAPTULO 7: DISTRIBUCIN t DE STUDENT


El contraste de hiptesis para la media de una sola muestra implica el clculo de:

cuyo resultado se compara con los niveles crticos de 1.96 o de 2.58 (o alguno otro que se desee). Sin embargo, F generalmente permanece desconocida, por lo que se utiliza s como su estimador. Si el tamao de la muestra es grande (n > 30) entonces s se aproxima al valor de F, pero si el tamao de la muestra es pequeo (n < 30) se introduce una fuente adicional de error en los clculos pues en estas circunstancias s tiende a ser menor que F, por lo que se subestima el error de muestreo por lo que la probabilidad de equivocarse al decir que se ha encontrado una diferencia significativa es mayor que lo dicho en los captulos anteriores. Debido a esto, se deben hacer modificaciones apropiadas introduciendo lo que se conoce como Teora de Muestras Pequeas, o ms apropiadamente Teora Exacta de Muestreo, ya que sus resultados son vlidos tambin para muestras grandes. Esta es la Distribucin t de Student. En este caso, al introducir el valor s basado en una muestra pequea, se obtiene una nueva estimacin:

L
que es por completo anloga a z. Sin embargo, el valor observado de t deber compararse con valores crticos ms estrictos y ya no con los valores de z (que son 1.96 al nivel de significancia de 0.05 o 2.58 al nivel de significancia de 0.01) pues estos incluirn una rea menor bajo la curva y, por lo tanto, la probabilidad de errar, al utilizarlos, ser mayor. Los valores con los que se compare t no son fijos, y dependern de qu tan buen estimador sea s de F, lo que est en relacin con el tamao de la muestra, es decir, con los grados de libertad (n-1). Para poder aplicar esta distribucin se deben cubrir los siguientes supuestos bsicos: a) Las observaciones son independientes. b) Las muestras han sido tomadas de poblaciones que se distribuyen normalmente. c) Las varianzas son iguales. Para esto se recurre a algunas pruebas como la F de Snedecor para el contraste de las varianzas.

91 En el caso de que de que no se cumplan estos requisitos se deber utilizar las pruebas conocidas como no paramtricas. Tampoco se utiliza la prueba de t para contrastar proporciones obtenidas con muestras pequeas. La interpretacin de los niveles de significancia para la prueba de t es igual que en el caso de z, aunque los valores crticos con los que se le compara, como ya se dijo, varan de acuerdo al tamao de la muestra. La prueba de t es muy til en los estudios clnicos pues con frecuencia no es posible tener un grupo grande de pacientes para realizar las investigaciones, y por lo tanto, el observador se ve obligado a trabajar con muestras pequeas (esto es particularmente cierto en estudios de casos y testigos sobre enfermedades de baja frecuencia). 7.1. MUESTRAS PAREADAS . En muchas ocasiones, al efectuar un estudio mdico se desea establecer una comparacin entre dos grupos de individuos (comparar dos tratamientos, comparar casos y testigos, etctera) y se recurre al pareamiento de los casos de uno y otro grupo. En tal situacin:

y la Ho que utilizamos ser que la diferencia de las medias de las poblaciones (1-2) de donde proceden las muestras, es cero: 1 = 2 1 - 2 = 0 De tal manera que:

L
donde n es el nmero de pares de observaciones y sd es la desviacin estndar de las diferencias entre cada par. Ntese que en estos estudios a cada caso del primer grupo le corresponde un caso en particular del segundo grupo, pues estn organizados por pares: x11, x12 (observacin 1 del grupo 1, observacin 1 del grupo 2) x21, x22 x31, x32 . .

92 . xn1, xn2 por lo que se puede obtener la diferencia para cada uno de los pares de observaciones (di = xi1 - xi2), a partir de las cuales se calcula la media de las diferencias, G , y su desviacin estndar, sd, es decir, cada par es tratado como d si fuera una nica observacin. El resultado se compara con el valor de t en la tabla de la distribucin terica de acuerdo al nivel de significancia elegido y a los grados de libertad (tabla 3 del Apndice; vase el ejemplo 7.1). Si el valor absoluto (sin tomar en cuenta el signo) de t observada es menor que el de la tabla, al nivel de significancia elegido, no se puede rechazar la Ho (se dice que no se observ diferencia significativa); si, por el contrario, es mayor que el de la tabla, se rechaza la Ho, de manera anloga a como se hara con z. Cuando llega a encontrarse una diferencia significativa, ser conveniente obtener el intervalo de confianza para estimar la magnitud de la verdadera diferencia. Esto se hace obteniendo el intervalo de confianza respectivo:

L (0 -0 ) t
1 2

",gl

EE(0 1-0 2)

donde t es el valor de t en la distribucin terica. " es cierto nivel de significancia (0.05, 0.01, etc.). gl son los grados de libertad (n pares - 1). 7.2. MUESTRAS NO PAREADAS . Cuando las muestras no son pareadas (se les llama independientes), en las que sus tamaos pueden ser iguales o distintos entre s, se establece la Ho siguiente: las dos muestras han sido tomadas de poblaciones distribuidas normalmente, cuyas 1 y 2 son en realidad iguales y cuyas varianzas tambin son iguales: 1 = 2 1 - 2 = 0 F2 = F2 1 2 Esto quiere decir que se puede hablar de una sola varianza verdadera. Entonces s2 y s2 son 1 2 estimaciones separadas de una misma varianza F 2 resultara mejor, particularmente si se trata de muestras pequeas, obtener una sola estimacin, la cual se puede llamar varianza ponderada:

93

o ms comnmente:

L
Con este valor de la varianza ponderada se puede calcular el error estndar de la diferencia de las medias:

o ms comnmente:

L
Finalmente, se obtiene el valor de t:

L
En caso de que se haya encontrado una diferencia significativa, se puede obtener el intervalo de confianza para estimar la verdadera diferencia de las medias: (0 1-0 2) t",gl EE(0 1-0 2) donde t es el valor de t en la distribucin terica. " es cierto nivel de significancia. gl son los grados de libertad (en este caso [n1 + n2 - 2]; vase el ejemplo 7.2).

94 Ejemplo 7.1: Contraste de Hiptesis para Dos Medias de Muestras Pequeas Pareadas.
INFORMACIN

En un estudio para evaluar la eficacia de dos drogas en el tratamiento de la angina de pecho, 12 pacientes fueron estudiados. Durante un perodo se les administr nifedipina (20 mg cuatro veces al da) y posteriormente propanolol (80 mg cuatro veces al da). A travs de electrocardiografa ambulatoria, se detectaron los episodios de aplanamiento del segmento S-T, indicativo de episodios de angina de pecho. Los resultados son los siguientes: Paciente 1 2 3 4 5 6 7 8 9 10 11 12 Nifedipina 26 3.5 0 8 0 0 2.5 3.5 4 1 0.5 0 Propanolol 6.5 1 0 0 0.5 0 0.5 0 0 4.5 0.5 0

Existe evidencia de que los tratamientos difieren significativamente en la prevencin de episodios de angina de pecho?

PROCEDIMIENTO

1. Obtenga los datos bsicos: 0 1 = 4.08 episodios 0 2 = 1.12 episodios s1 = 7.48 s2 = 2.08 n = 12 pacientes 2. Obtenga la desviacin estndar de las diferencias:

95 Esto se logra simplemente restando los valores de la segunda columna de los datos a los de la primera, y obteniendo la desviacin estndar de estas diferencias por los procedimientos comunes: PACIENTE 1 2 3 4 5 6 7 8 9 10 11 12 NIFEDIPINA 26 3.5 0 8 0 0 2.5 3.5 4 1 0.5 0 PROPANOLOL 6.5 1 0 0 0.5 0 0.5 0 0 4.5 0.5 0 DIFERENCIA 19.5 2.5 0 8 -0.5 0 2 3.5 4 -3.5 0 0

En este caso: sd es igual a 5.96 3. Obtenga el error estndar para la diferencia de las medias: EE(0 1-0 2) = sd / /n = 5.96 / /12 = 5.96 / 3.46 = 1.72 4. Obtenga el valor de t para la diferencia de las medias: t = [(0 1-0 2) - 0] / (sd//n) = (4.08 - 1.12) / 1.72 = 1.72 5. Compare el valor de t observada (1.72) con el valor de t11,0.05 en la tabla 3 (es decir, el valor de t en la distribucin terica con 11 grados de libertad, al nivel de significancia del 5%), el cual es igual a 2.20.

96
INTERPRETACIN

Dado que el valor de t observada es menor que el de la distribucin terica, no se ha encontrado evidencia de que los medicamentos difieran entre s por lo que se refiere a la prevencin de episodios de angina de pecho. Por este motivo, no se hace necesario buscar el intervalo de confianza para la verdadera diferencia.

97 Ejemplo 7.2: Contraste de Hiptesis para Dos Medias de Muestras No Pareadas.


INFORMACIN

En un estudio se midi la dosis diaria descargada (g) cuando se implantaban 2 o 3 grnulos biodegradables de noretindrona (NET), pues ello es importante para correlacionarlo con la eficacia anticonceptiva. En un grupo de 8 mujeres a quienes se les implantaron 2 grnulos, la liberacin media diaria de NET fue de 111 g, con una desviacin estndar de 20 g; en otro grupo de 12 mujeres a quienes se les implantaron 3 grnulos, la liberacin media diaria fue de 150 g y la desviacin estndar de 7 g. Sugieren estos datos que la descarga media diaria difiere entre los dos grupos de mujeres?

PROCEDIMIENTO

1. Obtenga los datos bsicos: Grupo A (2 grnulos) Grupo B (3 grnulos) n1 = 8 mujeres n2 = 12 mujeres 0 1 = 111 g 0 2 = 150 g s1 = 20 g s2 = 7 g 2 s1 = 400 s2 = 49 2 2. Obtenga la varianza ponderada: s2 = [(n1-1) s21 + (n2-1)s2] / (n1+n2-2) p 1 2 = [8*400 + 12*49] / 18 = 210.44 por lo que la desviacin estndar ponderada es sp = 14.51 g 3. Obtenga el error estndar para la diferencia de las medias: EE(0 1-0 2) = sp /[1/n1 + 1/n2]

98 = 14.51 * /[1/8 + 1/12] = 6.6229 4. Obtenga el Valor de t para la Diferencia de las Medias t = (0 1-0 2) / EE(0 1-0 2) = (111-150) / 6.6229 = -5.889 5. Compare el valor de la t observada (-5.889) con el valor de t18,0.001 en la tabla 3 (es decir, el valor de t en la distribucin terica con 18 grados de libertad, al nivel de significancia del 0.1%), el cual es igual a 3.922.
INTERPRETACIN

Dado que el valor de t observada es muy grande, se puede concluir que existe evidencia de que la liberacin media diaria de NET difiere significativamente entre los dos grupos de mujeres (p < 0.001). 6. Obtenga el Intervalo de confianza del 95 por ciento para la verdadera diferencia: (0 1-0 2)

99

CAPTULO 8: PRUEBA DE P2 (JI AL CUADRADO)


En las pruebas de contraste de hiptesis de la distribucin t de Student con muestras pequeas, los supuestos bsicos consisten en que las variables estudiadas pertenecen a poblaciones cuyos valores se distribuyen normalmente y en las que sus varianzas son iguales. En otros casos, tal vez se necesite comparar dos proporciones, pero no se cumplen los requisitos necesarios para aplicar la aproximacin de la distribucin binomial a la normal (n grande y p no muy alejada de 0.5; vase el captulo 3). Debido a que se establecen tales condiciones, las anteriores se conocen como pruebas paramtricas. Sin embargo, no siempre se tiene la informacin necesaria para sostener tales afirmaciones, o bien se sabe que en realidad no se cumple con ellas. En tales situaciones, es conveniente recurrir a otro tipo de pruebas que no requieren de estos supuestos. Estas son las que se conocen como pruebas no paramtricas entre las cuales tal vez la ms utilizada sea la de P (Ji al cuadrado). La caracterstica de esta prueba es que se utiliza para frecuencias absolutas. Generalmente se aplica a variables cualitativas o a variables discontinuas, pero de igual manera puede utilizarse con variables continuas haciendo las conversiones necesarias a categoras o a intervalos. La prueba de P se utiliza con distintos propsitos: a) Para comprobar si una distribucin difiere de otra que es conocida de antemano. b) Para determinar si las respuestas de dos o ms grupos difieren frente a un tratamiento. Es decir, se pretende ver si las variables son independientes entre s (contraste de independencia). c) Para indagar si una distribucin observada sigue una cierta distribucin. Esta es lo que se conoce como la bondad del ajuste. Como se puede ver, el sentido general de la prueba es comparar dos frecuencias, comnmente, una observada con una esperada. El clculo e interpretacin en todos los casos son iguales, en lo nico que difieren es en la manera de obtener las frecuencias esperadas, as, las frecuencias esperadas en el primer caso, estn dadas por una distribucin, terica o emprica, que se conoce previamente. En el segundo caso se podrn comparar las frecuencias de los distintos grupos. Lo ms comn, sin embargo, es que se recurra al tercer caso, en donde se ignora la distribucin de frecuencias esperadas y debe recurrirse a un procedimiento, ya establecido, para obtenerlas. Una caracterstica del anlisis con P consiste en que es posible comparar dos o ms proporciones (an cuando lo que se utilice sean las frecuencias absolutas, el efecto es el

100 mismo), lo que representa una gran ventaja sobre el anlisis con la aproximacin a la distribucin normal, en donde slo se pueden comparar dos proporciones. La Ho en este caso establece que las diferencias que se encuentran entre las frecuencias observadas y las esperadas se deben al error de muestreo. La manera de llevar a cabo el anlisis consiste en organizar los datos en una tabla de contingencia (en el sentido de eventualidad; este tipo de tablas son aquellas cuyos subtotales de las filas suman exactamente lo mismo que los subtotales de las columnas), en las cuales se ordenan las observaciones de acuerdo a las categoras de dos variables. Las tablas de contingencia ms sencillas son aquellas que tienen dos filas y dos columnas: Variable 1 categora 1 Variable 2 categora 1 categora 2 Total a c a+c categora 2 b d b+d Total a+b c+d Gran Total = a+b+c+d

Una vez que se ordenan las observaciones, se debe obtener las frecuencias esperadas. En general, las frecuencias esperadas para cada casilla se obtienen de la siguiente manera: E = (tf*tc)/gt donde tf es el total de la fila correspondiente a la casilla tc es el total de la columna correspondiente a la misma casilla. gt es el gran total, es decir, la suma de todos los subtotales de las filas (o de las columnas). Por ejemplo, la frecuencia esperada para la casilla "a" (Ea) es: Ea = ((a+b) * (a+c)) / (a+b+c+d) Este procedimiento se repite para cada casilla. El sentido de este procedimiento consiste en lo siguiente: la relacin (a+b)/gt, por ejemplo, nos seala la probabilidad, en una serie de observaciones, de pertenecer a la categora 1 de la variable 2, independientemente de los efectos de la variable 1. La relacin (a+c)/gt es la probabilidad, en la misma serie de observaciones, de pertenecer a la categora 1 de la variable 1, independientemente de los efectos de la variable 2. Esto es, se han obtenido las probabilidades de dos sucesos independientes entre s. Si se multiplican estas dos probabilidades, entonces se obtendr la probabilidad de que se d el suceso de la casilla "a" si los efectos de las variables 1 y 2 fuesen

101 independientes y, si a su vez se multiplica esta probabilidad por el gran total, se obtiene la frecuencia que se esperara en la casilla "a" en el caso de que los efectos de ambas variables fueran independientes entre s. La frmula general para el contraste de hiptesis es:

L
donde O son las frecuencias observadas. E son las frecuencias esperadas. Ntese que: Las diferencias entre las frecuencias observadas y las esperadas en cada casilla se elevan al cuadrado, (O-E)2, de ah que el nombre de la prueba sea P 2, pues de otra manera, E(OE)= 0. Entre menores sean las diferencias (entre ms parecidas sean las frecuencias observadas respecto a las esperadas) menor es el valor de P 2, lo que implicara que las variables no estn asociadas (hiptesis nula), y viceversa. Los valores crticos con los que se compara el resultado dependern de los grados de libertad: gl = (nmero de columnas - 1)(nmero de filas - 1) por lo que para tablas de contingencia de 2*2 los grados de libertad sern siempre 1. Para obtener los valores correspondientes de la distribucin terica de P, se utiliza la tabla 4 del Apndice. Si la diferencia entre las frecuencias observadas y las esperadas es grande, entonces P tambin ser grande, lo cual sealar una diferencia significativa, si P = 0, entonces la distribucin observada y la esperada concuerdan exactamente. El anlisis no debe incluir casillas con frecuencias esperadas menores que 3 (algunos autores sugieren el valor de 5 como mnimo; este es el criterio que se toma en SPSS). Como P es una variable continua, al momento de usar esta distribucin para variables discontinuas o cualitativas es conveniente hacer la correccin por continuidad necesaria (correccin de Yates):

102 donde |O-E| es el valor absoluto de la diferencia, es decir, el valor numrico independiente del signo (vase el ejemplo 8.1).

103 Ejemplo 8.1: Obtencin de Ji al Cuadrado.


INFORMACIN

En un estudio realizado en una comunidad rural, a un grupo de nios que tenan coproparasitoscpico (CPS) positivo para Ascaris se le dividi en dos: uno sujeto a tratamiento trimestral con levamisol durante un ao, y el otro con placebo. Al final se vi que de 22 nios bajo tratamiento, 15 permanecieron con CPS negativo, y que de los 32 con placebo 20 resultaron con CPS positivo para Ascaris. Realice una prueba de P para determinar si los nios con tratamiento evolucionaron mejor que los nios con placebo.

PROCEDIMIENTO

1. Identifique la informacin bsica: Total de nios bajo tratamiento: 22 Nios bajo tratamiento que al final resultaron negativos: 15 Nios bajo tratamiento que al final resultaron positivos: 7 Total de nios con placebo: 32 Nios con placebo que al final resultaron negativos: 12 Nios con placebo que al final resultaron positivos: 20 Gran total: 54 2. Construya el cuadro de contingencia: Distribucin de Nios con CPS Inicialmente Positivo de Acuerdo al Grupo Asignado Levamisol CPS Final Positivo Negativo Total 7 15 22 Placebo 20 12 32 Total 27 27 54

104 3. Establezca la hiptesis nula: Una manera de plantear la hiptesis nula puede ser: el nmero de nios que al final del estudio resultaron positivos para Ascaris, en ambos grupos, en realidad no difiere respecto al nmero que se podra esperar si el tratamiento y el placebo tuvieran el mismo efecto, toda diferencia observada se debe al error de muestreo. 4. Obtenga las frecuencias esperadas (E) para cada casilla: E = (total de la fila * total de la columna) / gran total Distribucin de Nios con CPS Inicialmente Positivo de Acuerdo al Grupo Asignado Levamisol CPS Final Positivo Negativo Total a c 22 Placebo b d 32 Total 27 27 54

a) Ntese que los subtotales de las filas y de las columnas, y el gran total, son iguales a los observados. b) Casilla a: (27 * 22) / 54 = 594 / 54 = 11 c) Casilla b: (27 * 32) / 54 = 864 / 54 = 16 (o simplemente, ya que se conocen los valores de la casilla "a" y del subtotal de la fila: 27 - 11 = 16) d) Casilla c: (22 * 27) / 54 = 594 / 54 = 11 ( o simplemente, 22 - 11 = 11) e) Casilla d: (32 * 27) / 54 = 864 / 54 = 16 5. Obtenga el valor de P: P = E(O-E)2/E = (7-11)/11 + (15-11)/11 + (20-16)/16 + (12-16)/16 = 16/11 + 16/11 + 16/16 + 16/16 = 1.45 + 1.45 + 1+1 = 4.9 6. Compare el valor obtenido con el de la distribucin terica:

105 En la tabla 4 del apndice, busque por ejemplo el valor de P1,0.05, es decir, con un grado de libertad, pues se trata de una tabla de contingencia de 2*2, al nivel de significancia del 5 por ciento. Este valor es igual a 3.841.
INTERPRETACIN

Como el valor de P observada (4.9) es mayor que el de la distribucin terica, se rechaza la hiptesis nula al nivel del 5 por ciento de significancia, y se puede afirmar que existe evidencia de que el grupo de nios sujeto a tratamiento evolucion distinto al grupo sujeto a placebo. De hecho, se puede observar que el porcentaje de nios sujetos a tratamiento y que al final result negativo es mayor que el correspondiente en el grupo con placebo, p < 0.05. 7. Qu sucede al nivel de significancia del 1 por ciento? 8. Realice el anlisis con la correccin de yates.

9. Cul es su conclusin final?

106

CAPTULO 9: REGRESIN LINEAL Y CORRELACIN


9.1. INTRODUCCIN . Un frecuente inters durante las investigaciones consiste en tratar de determinar si dos sucesos estn relacionados entre s, de tal manera que al conocer lo que sucede con el primero, se pueda prever o predecir lo que acontezca con el segundo. Lo anterior se identifica generalmente con el estudio de la causalidad, pero los procedimientos estadsticos, por su propia naturaleza, no pueden dar respuesta a esta cuestin, aunque son tiles para aproximarse a ella. La afirmacin de la existencia de una relacin causa - efecto entre dos sucesos requiere de un conocimiento profundo de los mecanismos y de los procesos que intervienen, y de una base terica firme que los explique y sistematice. De hecho, en las ciencias mdicas el establecimiento de las relaciones causa - efecto, por ejemplo el atribuir a un factor el desarrollo o aparicin de una enfermedad, no siempre requiere de algn modelo matemtico, ms bien necesita del conocimiento detallado de la fisiopatologa. La estadstica contribuye dando a conocer el grado y el sentido de la asociacin entre sucesos, pero no puede decir mucho acerca de su validez o de su veracidad. Tal vez el procedimiento ms utilizado para indagar la asociacin entre dos sucesos (identificados por variables) es el modelo de regresin lineal. Este modelo de anlisis, en su formulacin ms simple, pretende determinar hasta qu punto los cambios en el valor de una variable (llamada independiente) influyen en los cambios observados en los valores de la otra variable (llamada dependiente). En ocasiones se entiende que la primera es la causa de los cambios en la segunda, reconocida como el efecto, pero esta es una interpretacin errnea en tanto el anlisis estadstico no se acompae de un anlisis terico que soporte la existencia de tal relacin. El modelo de regresin lineal fue desarrollado en el siglo XIX por F. Galton, fundador de la eugenesia, a partir de sus observaciones sobre un fenmeno hereditario: la relacin de estaturas entre padres e hijos. Pudo ver que aunque los padres de estatura alta tendan a tener hijos altos y los de estatura baja hijos bajos, la distribucin de estaturas de una generacin a otra no cambiaba. Galton explic este fenmeno por la tendencia de la estatura promedio a desplazarse hacia la media poblacional, es decir, a sufrir una regresin. As, los padres con estatura promedio alta tenan hijos con estatura promedio menor que ellos, y los padres con estatura promedio baja tenan hijos con estatura promedio mayor que ellos. Cuando solamente se toma el valor de una variable independiente para explicar los cambios en la variable dependiente, se habla de regresin lineal simple, y cuando se utilizan dos o ms variables independientes, se habla de regresin lineal mltiple. Ambos modelos pertenecen a un sistema ms amplio de anlisis matemtico que se conoce como curvas de ajuste o de aproximacin, el cual incluye relaciones no lineales y que no sern tratadas aqu.

107 Con el trmino "lineal" nos estamos refiriendo a aquellas relaciones cuyo ajuste se hace por medio de una lnea recta, la cual tiene las siguientes caractersticas: Es el tipo ms sencillo de linea de aproximacin. La relacin funcional ms simple entre dos variables es la igualdad: y = x; es decir, si x = 0 entonces y = 0, si x = 1 entonces y = 1, etctera (esto se conoce como recta a travs del origen puesto que cruza a ste en un ngulo de 45 grados). Las propiedades comunes de todas las ecuaciones de lineas rectas son: contienen valores solamente de x y de y; no hay productos ni cocientes de x ni de y; no hay potencias mayores de x ni de y (x = x1). La ecuacin de una linea recta es y = a+bx. Dados dos puntos (dos coordenadas x, y) se pueden encontrar los valores de a y de b; o bien, conocidas a y b, se puede trazar la lnea. El cambio en los valores de y (y2-y1) est relacionado con el cambio en los valores de x (x2-x1) de la siguiente manera: (y2-y1) = b(x2-x1) por lo que De aqu se deduce que b representa la magnitud del cambio en y por cada unidad de cambio en x. Esto es, los cambios son proporcionales; por ejemplo, si b = 2, entonces y se modifica el doble de lo que se modifica x. De aqu, para cualquier valor conocido de x y de y se puede obtener a = y-bx. Las constantes (dentro de la ecuacin) a y b son llamadas respectivamente "interseccin" (es el valor que toma y cuando x = 0, es decir, el punto del eje de las ordenadas en donde la lnea recta cruza) y "pendiente" (la inclinacin de la lnea, entre ms alejado est su valor de cero, ya sea positivo o negativo, mayor ser su inclinacin). Cuando b=0 tenemos el caso en que para cualquier valor de x, y siempre tendr el mismo valor (constante).

9.2. REGRESIN LINEAL . Comnmente en las investigaciones se mide ms de una variable en el mismo caso, ya que se encuentra o se sospecha que existe alguna relacin entre ellas. El objetivo es saber cmo la respuesta (variable dependiente) cambia con el estmulo (variable independiente). Si la variable independiente es x y la dependiente es y, entonces, como para cada caso existe un par de observaciones, se tiene en total n coordenadas: (x1, y1) (x2, y2) . . . (xn, yn)

108 El primer paso para tratar de ver si existe relacin entre las dos variables es construir una grfica de correlacin (de dispersin o de nube de puntos) y si los puntos (definidos por los valores de las coordenadas, es decir, por cada par de valores x, y) caen cercanos a una lnea recta, se puede asumir que entre las variables existe una relacin lineal (vase la grfica 9.1) y se puede trazar a ojo una lnea que siga la tendencia general de las coordenadas (mtodo libre de ajuste). Aqu es cuando la representacin grfica se vuelve indispensable para el anlisis estadstico. Sin embargo, esta forma de llevar a cabo el anlisis es muy subjetiva, lo cual significa que diferentes observadores podran obtener diferentes lneas de ajuste, en particular por el hecho de que en la realidad las coordenadas prcticamente nunca coinciden todas sobre una sola lnea.

Grfica 9.1. La regresin lineal es un mtodo objetivo para ajustar esta lnea recta a travs de un conjunto de puntos. Se le denomina objetivo porque cualquier persona que realice el anlisis siguiendo el procedimiento establecido, y utilizando los mismos datos, llegar a idnticos resultados. La lnea recta resultante del anlisis de regresin se conoce como lnea de regresin o de ajuste ptimo. Esta lnea es una recta respecto de la cual la suma de los cuadrados de las diferencias entre ella y las coordenadas observadas es mnima, por lo que se le conoce tambin como recta de los mnimos cuadrados. Es decir, cuando
2 2 2 d1 +d2 + ... +dn

es mnima con respecto a la lnea de regresin, siendo las d2i los valores de las diferencias al cuadrado entre las coordenadas observadas y la lnea (vase la grfica 9.2).

109

Grfica 9.2. El trazado de la lnea recta puede lograrse a travs de la siguiente ecuacin:

donde " y $ son las dos constantes de la ecuacin (ver arriba); x es la variable independiente, continua, que se ubica en el eje de las abscisas; y es la variable dependiente, continua, que se ubica en el eje de las ordenadas. De la misma manera que arriba se refiri, se puede ver que cuando x = 0, entonces y = ", lo que quiere decir que " es el punto en que la lnea cruza el eje de las y, por lo que se le llama interseccin. Por supuesto, si x = y, entonces " = 0. Por su parte, $ representa la magnitud del cambio promedio en el valor de y por cada unidad de x. Entre ms alejado de cero est el valor de $ (positivo o negativo) mayor ser la inclinacin de la lnea de regresin; mientras que entre ms cercano sea a cero, la lnea de regresin se acercar ms a la horizontal. Por este motivo, a $ se le conoce como la pendiente. Cuando, para cualquier valor de x, y toma siempre el mismo valor, se dice que es una relacin constante, y $ ser igual a cero. En una muestra, los valores de " y de $, que son los valores poblacionales, permanecen por lo general desconocidos, por lo que se estiman con los valores muestrales a y b. Para calcular estas estimaciones se tiene que (las siguientes ecuaciones se han obtenido por clculo diferencial y no de la manera simple relatada arriba para la lnea recta):

110

L
y que

L
o lo que es lo mismo: donde y es la media de los valores de la variable y; G G x es la media de los valores de la variable x; E(x-x )2 es simplemente el denominador de la varianza de la variable x. Tambin se G representa como Sxx; E(x-x )(y-y ) es la varianza conjunta de x y de y; a esto se le conoce como covarianza. G G Ntese que, en este caso, las diferencias de x y de y con respecto a sus medias no se elevan al cuadrado, pues al multiplicarse entre ellas su suma no necesariamente es igual a cero (podra llegar a serlo, pero ello no impide el anlisis), y adems puede tener un resultado con signo positivo o negativo. Tambin se representa como Sxy. Estas ecuaciones son las que permiten obtener la lnea recta en la que la suma de las distancias, elevadas al cuadrado, de las coordenadas observadas con respecto a la recta es mnima. Una vez conocidas estas constantes, es posible trazar la recta de ajuste ptimo: a) Se escogen dos puntos, cada uno con un valor determinado de x (x1 y x2), para los cuales se obtienen los valores correspondientes de y (y1 y y2). b) Se marcan las coordenadas de los puntos anteriores en la grfica y se unen. c) Se verifica que la lnea trazada cruce la coordenada correspondiente a las medias (x , G G y ). En dcadas anteriores, llevar a cabo un anlisis de regresin lineal poda constituir toda una hazaa, particularmente si el nmero de observaciones era grande. En la actualidad, con los recursos electrnicos disponibles, todos estos procedimientos se realizan de manera fcil y rpida. Con este procedimiento, adems se puede "predecir" el valor que tomar y para cualquier valor de x: yp = a + bx donde yp es la y predicha por el modelo.

111 Sin embargo, hay que tomar en cuenta que se trabaja con una muestra, y ser necesario, como siempre, estimar la magnitud del error de muestreo, pues tal y predicha, por caer sobre la lnea, es nicamente el valor medio de todas las y que se podra esperar observar para el valor de x particular dado en la ecuacin:

L
donde EEy,x se conoce como el error estndar de la regresin de y sobre x; sy,x es la desviacin estndar de la regresin de y sobre x: .

Se puede advertir de la ecuacin del error estndar que ste vara para cada valor de x, hacindose mayor conforme x se aleja de su media y viceversa. Con dicho error de muestreo se puede calcular un intervalo de confianza (95 por ciento, 99 por ciento o cualquier otro que se desee) para estimar los valores de y que se podran observar para un determinado valor de x. Estos intervalos se calculan utilizando la distribucin t de Student:

Como se observa en la grfica anterior, al calcular los intervalos a partir de todos los valores de x, lo que se obtiene es una franja de confianza. Por otro lado, siendo la constante b de gran importancia para el modelo obtenido (no en vano se le conoce tambin como coeficiente de regresin), vale la pena estimar cul puede ser el valor de este parmetro en la poblacin ($), pues b es un valor obtenido a partir de una muestra. Interesa, en particular, estimar si $ = 0 (hiptesis nula) pues, de ser as, no podramos afirmar que existe una asociacin entre las dos variables que estamos analizando. Para ello, debemos obtener el error estndar de b:

112

que es en todo similar a EEy,x excepto por la unidad dentro de la raz cuadrada. Con ello se puede obtener tambin una franja de confianza para la verdadera lnea de regresin a cualquier nivel de confianza (95%, 99%, o algn otro que se desee). De igual manera, se utiliza la distribucin t de Student:

Grfica 9.4. Con este mismo error estndar se puede hacer el contraste de hiptesis para determinar si b es significativamente diferente de cero:

donde b es el valor estimado de $ a partir de la muestra; t es el valor en la distribucin t de Student al nivel " de significancia (0.5, 0.01 o el que se desee) y con gl grados de libertad (n-2). As, cuando el intervalo incluye el valor cero, no se puede rechazar la hiptesis nula de que $ = 0, es decir, no se ha encontrado asociacin lineal entre las variables, aunque siempre debe advertirse que puede haber otro tipo de asociacin, la cual se puede sospechar al observar la grfica de dispersin (de nuevo, la representacin grfica inicial es indispensable para este anlisis). Si el intervalo no incluye el valor cero, entonces se rechaza la hiptesis nula y se puede afirmar que la pendiente es significativa (que y cambia significativamente conforme cambia x). Dado que para calcular estos errores y sus respectivas franjas de confianza se requiere de clculos muy tediosos (hay que repetir los clculos para cada valor de x que se desee), se

113 asume que el estudiante tendr acceso a programas de cmputo estadsticos que harn ms feliz su vida. 9.3. CORRELACIN . Pero an cuando b sea significativa y de gran magnitud, queda por medir la fuerza de la asociacin, es decir, el grado de relacin entre las dos variables estudiadas. Si la variable dependiente tiende a incrementar su valor conforme lo hace la independiente (si el coeficiente de regresin b es positivo), entonces se habla de una correlacin positiva (lo que en el lenguaje comn se conoce como "directamente proporcional"):

Grfica 9.5. Si, adems de lo anterior, todas las coordenadas llegaran a corresponder a la ecuacin (si todas cayeran sobre la lnea de regresin) se dice que existe una correlacin perfecta positiva:

Grfica 9.6.

114 Por otro lado, si el valor de la variable dependiente tiende a disminuir cuando el de la independiente aumenta, se tratar de una correlacin negativa (en el lenguaje comn se le conoce como "inversamente proporcional"):

Grfica 9.7. De la misma manera que anteriormente, si todas las coordenadas caen sobre la lnea recta, se habla de una correlacin perfecta negativa:

Grfica 9.8. Si el cambio en y cuando cambia x no muestra ninguna tendencia, entonces podemos decir que las variables no estn correlacionadas:

115

Grfica 9.9. Pueden existir, sin embargo, relaciones no lineales:

Grfica 9.10. Al hacer la representacin grfica, habr ocasiones en donde las coordenadas se dispersen en mayor grado alrededor de la linea de regresin, o en donde se acerquen mucho a ella. En el primer caso, diremos que la fuerza de asociacin es menor que en el segundo:

116

Grfica 9.11. La manera de medir esta fuerza de asociacin es por medio del coeficiente de correlacin r de Pearson (no confundir con el coeficiente de regresin, b):

cuyas propiedades son: a) el signo de r es el mismo signo que el de la pendiente (vase que el numerador es el mismo); b) r slo toma valores entre -1 y +1 y su valor no tiene ninguna magnitud en trminos de las unidades de medida de x o de y; c) si r = 1 o r = -1, entonces se habla de una correlacin perfecta; d) si r es igual o muy cercana a cero se puede decir que no hay correlacin, pero se debe estar pendiente siempre de la posibilidad de una correlacin no lineal; e) una correlacin alta (cercana a 1) no necesariamente indica una relacin de dependencia entre las variables, pues puede haber correlaciones falsas. Debe recordarse que la correlacin es asociacin estadstica, no necesariamente relacin causal. El coeficiente r de Pearson es tambin un estimador del verdadero coeficiente de correlacin de la poblacin (D), por lo que se le somete a pruebas de hiptesis, en las que la hiptesis nula es que D = 0. Para ello, se utiliza tambin la distribucin t de Student:

117 El resultado se contrasta con la distribucin t al nivel de significancia deseado y con n-2 grados de libertad. Finalmente, es comn recurrir a otro coeficiente que en ocasiones sirve como resumen de todo el anlisis. Este se llama coeficiente de determinacin y es simplemente r2 el cual se interpreta como la proporcin o porcentaje en el que la variacin de la variable dependiente puede ser atribuido a la variacin en la variable independiente. Como proporcin slo toma valores entre 0 y 1 (entre 0 y 100 por ciento). Es decir, entre ms alto es el valor de r2 podemos afirmar que la relacin entre una y otra variables es ms estrecha (ejemplo 9.1).

118 Ejemplo 9.1: Regresin Lineal y Correlacin.


INFORMACIN

En un estudio realizado por el Instituto para el Desarrollo de los Recursos (EUA), se midieron entre otras cosas el porcentaje de nios con diarrea tratados por medio de la terapia de rehidratacin oral (TRO) y los niveles de mortalidad infantil (tasa por 1000 nacidos vivos: TMI) en diferentes pases. Esto form parte del Programa de Encuestas Demogrficas y de Salud. Algunos resultados se presentan enseguida: Pas Burundi Liberia Mali Senegal Marruecos Sri Lanka Tailandia Tnez Brasil Colombia Rep. Dominicana El Salvador Per
1

TRO (%)1 30 7 2 2 15 29 37 20 9 42 38 26 4

TMI (x1000)2 75 144 108 86 73 25 35 50 76 33 68 71 76

Trinidad y Tobago 53 26 : por ciento de nios con diarrea tratados con terapia de rehidratacin oral (TRO). 2 : tasa de mortalidad infantil (TMI) por 1000 nacidos vivos. Utilizando el anlisis de regresin lineal, determine si existe una relacin entre el porcentaje de nios con diarrea tratados con TRO y el nivel de la tasa de mortalidad infantil. Por supuesto, siempre ser mejor hacer este tipo de anlisis en con computadora o, al menos, con una calculadora cientfica con funciones para regresin lineal. En este ejemplo slo se ilustran los pasos generales.

119
PROCEDIMIENTO

1. Distinga la variable dependiente de la independiente: a) variable independiente (x): porcentaje de nios con diarrea tratados con TRO. b) variable dependiente (y): tasa de mortalidad infantil por 1000 nacidos vivos. 2. Construya la grfica de dispersin: Vea si los puntos presentan alguna tendencia. Con fines de comparacin posterior, trace una lnea a ojo. 3. Obtenga los datos bsicos: G x = 22.4286 G y = 67.5714 E(x-x )2 = 3539.4286 G E(x-x )(y-y ) = -5274.4286 G G E(y-y )2 = 14159.4286 G 4. Obtenga los valores de a y de b: b = -5274.43 / 3539.43 = -1.49 a = 67.57 - (-1.49) 22.43 = 100.99 5. Trace la linea de regresin: Primero, obtenga los valores predichos de y en dos coordenadas (x1,y1) y (x2,y2) que no se encuentren muy cercanas entre s y compare esta linea con la que traz a ojo. Por ejemplo: si x1 = 10 por ciento de ninos con diarrea tratados con TRO, entonces y1 = a+bx = 100.99 + (-1.49)(10) = 86.09 (TMI predicha por el modelo para el valor de x); y si x2 = 60, entonces y2 = a+bx = 100.99 + (-1.49)(60) = 11.58 Compruebe que la lnea de regresin trazada cruza por la coordenada (x ,y ). GG 6. Obtenga el valor del coeficiente de correlacin: r = E(x-x )(y-y ) / (E(x-x )2 E(y-y )2) = -5274.43 / (3539.43)(14159.43) = -0.7451 G G G G 7. Obtenga el valor del coeficiente de determinacin: r2 = (-0.7451)2 = 0.5552
INTERPRETACIN

120 a) Si bien el grfico de correlacin no muestra uniformidad total en la tendencia de los puntos, esto es algo que cabe esperar en todos los casos, ms an cuando son pocas las observaciones, como en este ejemplo. A pesar de todo, la tendencia es clara en el sentido de que conforme aumenta el porcentaje de nios con diarrea tratados con TRO, disminuye la TMI; por lo tanto, pareciera ser que el modelo de regresin lineal es aplicable en este caso (en realidad, haran falta otros anlisis para afirmar esto con mayor certeza, pero estos no se vern en el manual). b) El valor de a = 100.99 indica que la TMI en promedio, tendra este nivel si el porcentaje de nios con diarrea tratados con TRO fuera igual a 0. El valor de b = -1.49 indica que por cada punto porcentual de aumento en los nios con diarrea tratados con TRO, la TMI se reducira en promedio en 1.5 defunciones por cada 1000 nacidos vivos. c) El valor del coeficiente de correlacin r = -0.7451, es alto y negativo, lo que indica una fuerte asociacin entre las dos variables. Ello no significa, sin embargo, que necesariamente exista una relacin de causalidad, esta debera establecerse, en todo caso, a travs de la explicacin de cmo la TRO puede modificar la TMI y hasta qu punto. Adems, otros muchos factores entran en juego para determinar el nivel de la mortalidad infantil. d) El coeficiente de determinacin r2 = 0.5551 nos indica que el 55.5 por ciento de la variacin (de los cambios) en la TMI pueden ser atribuidos a la variacin en el porcentaje de nios con diarrea tratados con TRO.