You are on page 1of 50

Estadstica Inferencial -Ao 2009-

ESTADSTICAS EN SALUD II ESTADSTICA INFERENCIAL

AUTORA: Mg. Silvana Torres

-AO 2009-

-1Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

PRLOGO Es de fundamental importancia que los profesionales de salud conozcan la ciencia estadstica, asumiendo que esta es una herramienta imprescindible para poder cuantificar y analizar todos los aspectos relacionados con el proceso salud-enfermedad. Es conocido que la informacin confiable y correctamente analizada es la base de las decisiones coherentes. Tambin como herramienta bsica de la investigacin, el conocimiento de la metodologa estadstica es indispensable, ya que la investigacin trabaja con fenmenos eminentemente variables. El concepto de variabilidad como la sistematizacin y organizacin racional de una metodologa para el anlisis y conocimiento de fenmenos cambiantes, es un componente de conocimiento relativamente nuevo. Decimos que la estadstica es un conjunto de procedimientos que tienen por finalidad recolectar, elaborar, caracterizar y analizar un conjunto de datos. Cuando

hablamos de anlisis estadstico es necesario puntualizar que este comprende dos grandes reas de la metodologa estadstica: el anlisis descriptivo y el inferencial. El primero, ms ampliamente conocido, consiste en describir un conjunto de datos (recolectarlos, presentarlos en forma tabular y grfica, calcular las medidas de resumen, etc.), para interpretar el comportamiento de las variables. El anlisis inferencial, bastante ms

complejo que el anterior, consiste en aplicar determinadas tcnicas estadsticas, para tratar de generalizar o inferir resultados en la poblacin a partir del anlisis de una parte de ella (muestra). Es obvio que para poder comprender las tcnicas de estadstica inferencial es imprescindible manejar con fluidez la metodologa de estadstica descriptiva,

conocimiento que el alumno de esta materia posee previamente. En este curso estudiaremos un concepto ms amplio de la metodologa estadstica, que no slo contempla la descripcin de datos, sino bsicamente el conocimiento de herramientas que le permitan al alumno aplicar e interpretar algunas tcnicas inferenciales bsicas (muestreo, estimacin de parmetros, pruebas de hiptesis, etc).

-2Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

INDICE
PRLOGO ....................................................................................................................................................................... 2 CAPTULO I-CAMPOS DE LA METODOLOGA ESTADSTICA......................................................................... 4 reas de la Estadstica ............................................................................................................................................... 4 Variables ...................................................................................................................................................................... 5 Medidas Descriptivas ................................................................................................................................................ 7 Parmetros y estadsticos .......................................................................................................................................... 8 CAPTULO II- NOCIONES BSICAS DE MUESTREO........................................................................................... 9 Poblacin...................................................................................................................................................................... 9 Generalidades ......................................................................................................................................................... 9 Definicin ................................................................................................................................................................ 9 Muestreo..................................................................................................................................................................... 10 Definiciones .......................................................................................................................................................... 11 Ventajas del muestreo: Razones para realizar un muestreo ......................................................................... 11 Diseo de muestreo.............................................................................................................................................. 12 Sesgos por muestras inadecuadas o informacin incompleta...................................................................... 12 Mtodos de muestreo................................................................................................................................................ 13 Muestreo no probabilstico................................................................................................................................... 13 Muestreo probabilstico........................................................................................................................................ 14 Tamao de la muestra (n).................................................................................................................................... 15 CAPTULO III- MEDIDAS DE ASOCIACIN ENTRE VARIABLES .................................................................. 17 Relacin entre dos caractersticas cualitativas dicotmicas.......................................................................................... 17 Estudios Prospectivos o de cohorte .......................................................................................................................... 18 Riesgo Relativo .................................................................................................................................................... 19 Riesgo Atribuible.................................................................................................................................................. 20 Estudio retrospectivo o de caso control .................................................................................................................... 21 Odds Ratio de Exposicin al Factor ..................................................................................................................... 22 Estudios de Corte Transversal .................................................................................................................................. 23 Razn de Prevalencias .......................................................................................................................................... 24 Odds Ratio de Enfermedad................................................................................................................................... 24 Relacin entre variables cuantitativas .......................................................................................................................... 25 Coeficiente de Correlacin de Pearson..................................................................................................................... 26 Coeficiente de Correlacin de Spearman. ................................................................................................................ 29 Relacin entre dos caractersticas ordinales ............................................................................................................. 29 CAPTULO IV- ESTIMACIN DE PARMETROS ............................................................................................... 30 ESTIMACIN........................................................................................................................................................... 33 Estimacin Puntual................................................................................................................................................... 33 Estimacin por intervalos ......................................................................................................................................... 35 Estimacin de la media aritmtica........................................................................................................................ 36 Estimacin de una proporcin .............................................................................................................................. 38 Estimacin de medidas de asociacin................................................................................................................... 39 CAPTULO V- TEST DE HIPTESIS ESTADSTICA............................................................................................ 41 Tipos de pruebas de hiptesis....................................................................................................................................... 43 Procedimiento general de un test de hiptesis.............................................................................................................. 43 Prueba sobre una media................................................................................................................................................ 44 Prueba sobre una proporcin ........................................................................................................................................ 45 Prueba de Independencia o Test Chi Cuadrado (2) .................................................................................................... 45 ESTUDIOS ANALITICOS............................................................................................................................................ 48 BIBLIOGRAFA ............................................................................................................................................................ 50

-3Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

CAPTULO I-CAMPOS DE LA METODOLOGA ESTADSTICA


reas de la Estadstica La metodologa estadstica se refiere al grupo de tcnicas o mtodos que se han desarrollado para la recopilacin, presentacin, anlisis de datos y para el uso adecuado de los mismos, con el objeto de fundamentar cientficamente las conclusiones y decisiones que se asuman a partir de los mismos. Las dos grandes reas de la metodologa estadsticas son: Estadstica descriptiva: mediante estas tcnicas, ante un conjunto de datos, se los describe y caracteriza; esto significa, una vez recolectados los datos, se los presenta en forma tabular y grfica, y se calculan las medidas de resumen (posicin y variabilidad); para luego ser analizados mediante la descripcin de las caractersticas que se observan en los mismos. Estadstica inferencial: consiste en aquellos mtodos mediante los cuales se pueden realizar inferencias o generalizaciones acerca de una poblacin; mediante procedimientos estadsticos basados en la teora de las probabilidades, a partir de una muestra o parte de una poblacin. Es decir que, a partir del anlisis de una parte de la poblacin (muestra), se puede conocer el comportamiento de los fenmenos en la poblacin, midiendo y controlando, a travs de la teora de las probabilidades, el grado de error que se estara cometiendo por el hecho de estudiar las caractersticas en slo una parte de la poblacin y no en la totalidad de la misma. La inferencia estadstica comprende bsicamente tres grandes metodologas: Tcnicas de muestreo Estimacin de parmetros Pruebas de hiptesis Para poder entender y aplicar las tcnicas de estadstica inferencial es indispensable el conocimiento de la metodologa bsica de estadstica descriptiva por lo que es fundamental repasar los siguientes temas: Presentacin de datos: tabular y grfica Distribucin de frecuencias: absolutas y relativas

-4Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Medidas descriptivas o de resumen: de variables cuantitativas (posicin: media, mediana, modo, cuartos, etc; variabilidad: rango, desvo estndar, etc.), en variables cualitativas (proporciones, razones, etc.) Una vez que hayamos recordado los elementos bsicos de estadstica descriptiva, debemos aceptar que todo el campo de conocimientos que abordaremos, se desenvuelve en torno al manejo de datos cuantitativos inferidos (y a las tcnicas que ello implica), es decir obtenidos a travs de operaciones matemticas y lgicas que nos permitan inferir juicios con mrgenes de error cuantificados. Es decir, podremos conocer lo que ocurre en una poblacin determinada con slo el anlisis de los datos de una muestra extrada de ella: decidiremos si los resultados de una investigacin son demostrativos o no de las hiptesis que nos hayamos planteado; emitiremos juicios acerca del comportamiento futuro de un fenmeno (prediccin), todo esto en el terreno de las probabilidades, es decir, sin certeza absoluta, sino con un mayor o menor grado de seguridad. En sntesis, logrado un lote de datos como producto de una investigacin, el tratamiento que le daremos ser diverso segn se haya trabajado con: 1) Una muestra y no el total de unidades de la poblacin: se podr inferir que es lo que ocurre en la poblacin a la que pertenece la muestra estudiada, usando para ello la metodologa de estimacin de parmetros. 2) Una hiptesis acerca del comportamiento de un fenmeno: se necesitar comprobar la hiptesis enunciada durante la metodologa de pruebas de hiptesis. 3) El estudio de un problema en un momento cronolgicamente bien definido, pero necesitamos inferir el comportamiento futuro de las variables: para esto necesitaremos conocer los conceptos de prediccin. Variables Antes de avanzar en el desarrollo de las tcnicas bsicas de estadstica inferencial es necesario recordar el concepto de variables y su clasificacin. Definicin: es una caracterstica que puede tomar diferentes valores (no necesariamente numricos) en las distintas unidades de observacin. Por ejemplo, edad, sexo, tiempo de evolucin de la diabetes, tipo de tratamiento administrado, etc. Las propiedades o investigacin, para lo que necesitaremos la

-5Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

caractersticas susceptibles de tomar distintos valores o intensidades es lo que se conoce con el nombre de variables. Clasificacin: Si la variable presenta un atributo o cualidad se denomina cualitativa. Si la variable presenta valores numricos es cuantitativa. Las variables cualitativas a su vez se clasifican en nominales, cuando sus categoras no presentan ningn orden preestablecido (por ejemplo sexo: varn o mujer); y ordinales cuando las categoras de la variable tiene un orden preestablecido (por ejemplo nivel de instruccin: primario, secundario, universitario) Dentro de estas variables cuantitativas podemos distinguir dos tipos: las que pueden variar slo en nmeros enteros o en fracciones bien definidas sin valores intermedios, como por ejemplo: Nmero de hijos de una mujer: puede tener 1, 2, 3,hijos; nunca 1,5 o 3,8 hijos. Son por ello llamadas variables cuantitativas discontinuas o discretas. Las que pueden variar en forma continua, como el contenido de hemoglobina en la sangre, la presin arterial, estatura, edad, etc. son llamadas variables cuantitativas continuas, estas pueden tomar cualquier valor entre un mximo y un mnimo. Para determinar los grupos o categoras en la escala cualitativa basta con enunciar las posibilidades que se presentan. Veamos algunos ejemplos: Variable Sexo Categoras Varn Mujer Alfabetismo Alfabeto Analfabeto Rendimiento Bueno Regular Malo Para el caso de las variables cuantitativas discretas se deben definir los intervalos de clase. Por ejemplo nmero de cigarrillos fumados presenta los siguientes intervalos de clase: 0- 9: los que fuman menos de 10 cigarrillos 10-20: los que fuman desde 10 a 20 cigarrillos inclusive + 20: los que fuman ms de 20 cigarrillos Mayor problema se presenta cuando se trata de escalas cuantitativas continuas pues para determinar los intervalos de clases debemos tomar en cuenta varios aspectos:
-6Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Siempre se pierde algo de informacin por el hecho de agrupar los datos. Es necesario definir con claridad los lmites de estos grupos o intervalos de clase, de modo que sepamos bien a qu intervalo pertenece una observacin individual. Estos intervalos deben ser exhaustivos (tener en cuenta todos los posibles valores) y mutuamente excluyentes. Por ejemplo la variable edad, los intervalos podran ser: 0-4, 5-9, 10-14, 15-19, 20-24 aos, etc. En resumen las variables se clasifican en: Por su escala de medicin. Cualitativas Nominales Ordinales Discretas Continuas

Cuantitativas

Por su lugar en la investigacin: Independiente: que precede a la aparicin del fenmeno en estudio, frecuentemente llamado causa o factores relacionados con el fenmeno en estudio. Dependiente: frecuentemente llamada efecto, los valores que asume

dependen de otras variables. Es la variable principal que mide el fenmeno que se quiere estudiar. Medidas Descriptivas Segn el tipo de variable que se estudie y los objetivos de la investigacin se calcularn las medidas descriptivas correspondientes: o En el caso de variables cualitativas: Tasa Razn Proporcin o En el caso de variables cuantitativas Medidas de Posicin central Media aritmtica
-7Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Mediana Modo Medidas de Posicin no central: Mnimo y mximo Percentiles Cuartiles Medidas de Variabilidad o Dispersin Desvo estndar Rango Rango inter-cuartos o En el caso de relacin entre dos variables Coeficiente de correlacin Riesgo relativo Odds Ratio Parmetros y estadsticos Si estas medidas, tambin designadas caractersticas son calculadas con los datos de la poblacin se denominan parmetros, si estas son calculadas a partir de datos muestrales son llamadas estadsticos. Cuando no es posible calcular directamente los parmetros de la poblacin, estos pueden ser estimados a travs del clculo de los estadsticos de las muestras. Veamos algunos ejemplos de parmetros y estadsticos y los smbolos con los que usualmente se representan: Caractersticas Media Desvo estndar Varianza Correlacin Proporcin Riesgo Relativo Odds Ratio Smbolo del Parmetro 2 RR OR Smbolo del Estadstico x s s2 r p RR OR

-8Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

CAPTULO II- NOCIONES BSICAS DE MUESTREO


Poblacin Generalidades En cualquier investigacin, el inters central es la obtencin de conclusiones que sean aplicables no solamente a quienes fueron escogidos para participar en ella; sino al conjunto de la poblacin de la cual se obtuvo la informacin. Uno de los primeros pasos en una investigacin, consiste en delimitar con exactitud los elementos (personas, objetos, etc.) sobre los cuales se desea realizar el estudio. Los elementos de una poblacin son las unidades de las cuales se busca informacin; son los individuos, elementos, unidades elementales que forman la poblacin; stas son las unidades de anlisis, y su naturaleza se determina mediante los objetivos de la investigacin. Definicin La poblacin es el agregado de los elementos, siendo stos las unidades bsicas que forman y definen la poblacin. Poblacin: conjunto de unidades (individuos, objetos, instituciones, etc.) en las que existe una caracterstica comn susceptible a ser medida y a partir de las cuales se obtendrn los datos. Es el agregado de los elementos que cumplen con un conjunto predeterminado de criterios. La poblacin puede estar constituida por personas, animales, registros mdicos, nacimientos, muestras de laboratorio, accidentes viales, instituciones, etc.. El tamao de la Poblacin (N) es el total de unidades que la componen. Si la poblacin tiene un tamao limitado recibe el nombre de poblacin finita, en estos casos es posible obtener un listado o inventario de los elementos de la poblacin (por ej. Alumnos de la Escuela de Enfermera). Por su parte una poblacin infinita o hipottica es aquella que contiene una cantidad ilimitada o muy grande de elementos, por lo que resulta imposible en la prctica producir un listado o inventario de ellos (por ej. portadores de HIV). Con fines didcticos se acostumbra a diferenciar dos tipos de poblaciones: poblacin bajo estudio y poblacin objetivo. La primera representa la poblacin a partir
-9Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

de la cual se obtendrn los datos, o se extraer la muestra, denominndose tambin poblacin muestreada; en tanto que la poblacin objetivo es aquella a la que se desea generalizar los resultados del estudio. Generalmente ambas poblaciones son coincidentes.
Poblacin objetivo

Se requiere sentido comn para hacer inferencias del muestreo a la poblacin objetivo

Poblacin muestreada
Para hacer inferencias estadsticas de la muestra a la poblacin muestreada se requiere que la muestra sea aleatoria

Muestra

Si todos los elementos que integran una poblacin poseen similares caractersticas, es decir baja variabilidad, se dice que esta es homognea; en caso de no cumplir esta condicin, la poblacin es heterognea, o sea que presenta mucha variabilidad. En sentido estricto, las poblaciones humanas son siempre heterogneas, puesto que las unidades que la componen presentan variaciones individuales respecto a una o ms caractersticas personales (edad, sexo, raza, actividad laboral, nivel de instruccin, tipo de alimentacin, etc.). Si en un estudio de investigacin se obtiene la informacin de la totalidad de la poblacin se denomina censo. Cabe destacar que los datos censales estn tambin sujetos a error: errores de medicin. Muestreo Con frecuencia resulta muy difcil, y a veces imposible, desarrollar una investigacin que comprenda el total de la poblacin, ya sea porque el nmero de elementos es demasiado grande o infinito, porque estn distribuidos en forma muy heterognea o porque la inclusin de todos los elementos de la poblacin generara complicaciones o encarecera excesivamente el estudio. De all la utilidad del diseo de muestras, con las que habindose operado adecuadamente, pueden obtenerse resultados similares a los que se alcanzan incluyendo a todos los elementos de la poblacin.

- 10 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Definiciones Muestra: es el subconjunto de unidades provenientes de la poblacin (parte de la poblacin), que con algn criterio o sin l, son seleccionadas a los efectos de ser estudiadas en una o ms caractersticas. Es el subconjunto o parte de la poblacin en la que se llevar a cabo la investigacin con el fin posterior de generalizar los hallazgos a la poblacin. La cantidad de elementos que integran la muestra constituyen el tamao muestral (n). El muestreo puede definirse como la seleccin de una parte de la poblacin con el fin de hacer inferencias acerca de la totalidad de la misma. Unidad de observacin: son los elementos de la poblacin en los cuales se medirn o estudiarn las variables de inters. Unidad de muestreo: es el elemento utilizado para seleccionar la muestra. En muchos casos las unidades de observacin y muestreo coinciden ( Ej. Alumnos de la Facultad), pero hay casos en que no (Ej. Si se desea estudiar las infecciones respiratorias agudas en menores de 2 aos, no se tendra un listado de nios, sino que se tendra que tomar muestras de casas para llegar a los nios) Ventajas del muestreo: Razones para realizar un muestreo 1. Costo: las muestras al examinar parte de la poblacin es mucho menos costosa que el censo. El costo es un argumento a favor del muestreo debido a que frecuentemente una muestra puede proporcionar datos con la suficiente precisin y a un costo mucho ms bajo que el censo. 2. Precisin: (calidad de informacin) se puede ejercer mucho mejor control sobre los errores que no son de muestreo (fallas en las encuestas, respuestas incompletas, informacin imprecisa, errores de medicin, errores de proceso, etc..) usando el muestro en lugar del censo. Por ejemplo en una encuesta por muestreo generalmente obtenemos mejor supervisin y entrenamiento de encuestadores; mayor control de respuestas y procesos. 3. Tiempo necesario: las muestras producen informacin ms rpidamente por dos razones principales: 1- tomar una muestra requiere menos tiempo que levantar un censo y 2- el procesamiento de los datos toma menor tiempo.

- 11 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

4. Cantidad de informacin: puede obtenerse informacin ms detallada debido a que la muestra toma menos tiempo, menor costo y permite poner ms cuidado en la ejecucin. ( Ej. en el Censo 2001 se llev a cabo una muestra para conocer ciertas caractersticas de la poblacin). 5. Pruebas destructivas: cuando la medicin implica la destruccin del elemento poblacional la nica manera de realizar la investigacin es a travs de muestras. Ej. Control de estados de conservacin de las vacunas (cadena de fro), efectividad. Diseo de muestreo El diseo de muestras tiene dos aspectos fundamentales: un proceso de seleccin, que consiste en las reglas y operaciones mediante las cuales se incluyen en la muestra algunos elementos de la poblacin; y un proceso de estimacin (inferencias) para calcular los estadsticos de la muestra que son estimaciones muestrales de valores de la poblacin (proporciones, medias, desvo estndar, etc.). Otros aspectos importantes que se deben considerar en el diseo de muestras son: Definicin de variables: especificar la naturaleza de las caractersticas, categoras de clasificacin y unidades para expresarlas. Mtodos de observacin: (mediciones) que incluye tanto la recoleccin como el procesamiento de los datos. Mtodos de anlisis estadsticos: reducen los datos de la encuesta a resultados que pueden comprenderse y utilizarse. Utilizacin de los resultados: que estos sirvan para tomar decisiones concretas que se basen en los resultados. La precisin que se desea: fijar la probabilidad de error por estar trabajando con una muestra en lugar de la poblacin; es decir el riesgo que se corre de que el resultado obtenido a partir de la muestra no estime con exactitud al de la poblacin, se simboliza con p (p value) y generalmente vara del 0,01 al 0,05 (1% al 5%). Sesgos por muestras inadecuadas o informacin incompleta Una muestra constituye una parte de la poblacin, y si el mtodo de seleccin de las unidades se realiza a travs de un procedimiento adecuado se espera que sta represente a la poblacin en su conjunto, es decir que todas las unidades que la constituyan posean
- 12 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

idnticas caractersticas a las que tiene la poblacin. En cambio si la muestra es integrada por algunas de las unidades y por lo tanto corresponden slo a una parte de la poblacin de origen se dice que la muestra es sesgada. Podemos hablar de error sistemtico o sesgo cuando existe una tendencia a obtener resultados que difieren en forma sistemtica de los valores verdaderos. Las principales fuentes de error sistemtico son: Sesgo de seleccin Sesgo de medicin (o clasificacin) cuando las mediciones y/o clasificaciones

de la variable son inexactas. Si el error no es sistemtico no lo denominamos sesgo. Sesgo de seleccin: el sesgo de seleccin se produce cuando existe una diferencia sistemtica entre las caractersticas de la poblacin seleccionada para el estudio y las caractersticas de la poblacin no seleccionada. El marco de referencia no est constituido por la totalidad de la poblacin. El error de muestreo mide la discrepancia que se presenta a partir de una enumeracin incompleta de la poblacin. Estos errores pueden presentarse debido a que la poblacin no ha sido definida debidamente o no corresponde a la poblacin bajo estudio. La poblacin meta (a ser estudiada) difiere de la poblacin muestreada. Ejemplo: analizar la cobertura de vacunacin de los nios de Tucumn, tomando una muestra de los que concurren a los Centros Asistenciales oficiales. Los errores de muestreo (si no son debido a problemas del diseo) pueden reducirse aumentando el tamao y/o complejidad de la muestra. Mtodos de muestreo Los mtodos de muestreo se clasifican en no probabilsticos y probabilsticos. Muestreo no probabilstico Se caracterizan porque se desconoce la probabilidad que tienen los elementos de la poblacin de ser escogidos para constituir la muestra, y la seleccin tiene lugar siguiendo criterios para los fines del estudio, sin recurrir al azar. En estos mtodos no se puede medir o controlar el error probable de muestreo. Algunas de las tcnicas de muestreo no probabilstico ms usadas son:

- 13 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Muestras casuales o fortuitas: los elementos van siendo incorporados a medida que acuden al sitio donde se efectan las mediciones, hasta alcanzar un tamao muestral previamente establecido. Seleccin experta: muestra de juicio utilizadas por expertos para seleccionar elementos representativos o tpicos de la poblacin. Por cuotas: el investigador propone estratos de acuerdo a las variables que considere relevantes, y se incorporan elementos hasta completar la cantidad o cuota prefijada. Muestreo probabilstico En el muestreo probabilstico cada elemento de la poblacin tiene una probabilidad conocida y no nula de ser seleccionado. Esta probabilidad se obtiene a travs de una operacin mecnica de aleatorizacin (fraccin de muestreo: fh). En ste tipo de muestreo se puede cuantificar la probabilidad de cometer error de muestreo (p). El muestreo irrestricto aleatorio (mia) es el proceso de seleccin y todos los dems procedimientos pueden verse como modificaciones de l, introducidos para proveernos de diseos ms prcticos econmicos y precisos. Las tcnicas de muestreo probabilsticas ms usadas son: Aleatorio Simple: En este tipo de muestreo cada unidad tiene la misma probabilidad de ser seleccionada para formar la muestra. Este se basa en la aleatoriedad del proceso de seleccin (seleccin al azar) esto puede ser llevado a cabo a travs de diferentes maneras: sorteo, empleo de tablas de nmeros aleatorios, nmeros aleatorios de computadoras o de calculadoras. Para poder realizar el sorteo de las unidades que conformarn la muestra es necesario previamente enumerar el listado de elementos de la poblacin (marco muestral), y luego seleccionar las unidades de la muestra. Sistemtico: Consiste en seleccionar al azar la primera unidad y a partir de all tomar las siguientes unidades a intervalos constantes, establecidos de acuerdo al tamao de la muestra que se desea obtener. Estratificado: De acuerdo a un criterio predeterminado la poblacin se divide en subgrupos (bloques o estratos) mutuamente excluyentes, con igual o diferente tamao, en cada uno de los cuales estn contenidas unidades que poseen caractersticas semejantes, es decir que cada estrato es homogneo dentro del mismo, y son heterogneos entre los estratos. De cada estrato se obtiene una muestra aleatoria. El
- 14 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

muestreo estratificado se aplica cuando la poblacin bajo estudio es heterognea y las caractersticas de los estratos difieren entre s, obtenindose as resultados con menor nivel de error. Por conglomerados: Consiste en dividir la poblacin bajo estudio en subgrupos, llamados conglomerados, que tienen existencia en la realidad (tales como barrios, manzanas, escuelas, etc.), y que contienen unidades de distinta clase, aplicando luego en cada uno de ellos el mtodo de muestreo aleatorio simple. A diferencia del muestreo estratificado, donde los subgrupos son homogneos, en el muestreo por conglomerados resultan conjuntos heterogneos, los cuales no fueron divididos por el investigador sino que se encuentran divididos en la realidad, adems se desconoce de antemano cmo estn distribuidas las unidades. Polietpico: consiste en realizar el muestreo en varias etapas sucesivas, utilizando iguales o distintos procedimientos en las diferentes fases. Se comienza con la divisin del universo en unidades de primer grado, a partir de las cuales se obtiene la muestra inicial, a continuacin esta vuelve a dividirse para formar las unidades de segundo grado, de donde se selecciona una nueva muestra, as en forma continuada hasta llegar a las unidades finales del muestreo, unidades de observacin de las cuales se obtendrn los datos. Tamao de la muestra (n) La cantidad de unidades incluidas en la muestra (tamao muestral) debe ser la adecuada para demostrar con una probabilidad razonable, prefijada por el investigador, la existencia de una diferencia estadsticamente significativa (no atribuible al azar), cuando la misma realmente existe. El tamao muestral depende entre otros factores de: El diseo de la investigacin La frecuencia con que se presenta en la poblacin la caracterstica, factor o fenmeno que se desea estudiar El nivel de confianza con que se pretende efectuar las estimaciones La variabilidad de las mediciones (dispersin) La precisin que se desea (p value)

- 15 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

En general el tamao muestral es menor cuanto mayor sea la frecuencia con que ocurre la caracterstica, factor o fenmeno que se estudia en la poblacin, ms homognea sea su distribucin en la misma (menor variabilidad) y menor sea la precisin que se desea obtener. El criterio empleado, para la eleccin del tamao muestral es realizar el estudio con el menor nmero posible de elementos que sean suficientes para obtener los resultados con la precisin fijada.

- 16 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

CAPTULO III- MEDIDAS DE ASOCIACIN ENTRE VARIABLES


Las medidas descriptivas consideradas hasta ahora son apropiadas slo para resumir observaciones sobre una caracterstica o variable (como por ejemplo: edad, nivel de colesterol en sangre, etc.). Sin embargo, gran parte de la investigacin en salud se interesa en la relacin entre dos o ms caractersticas, tratando de establecer el grado de asociacin entre ellas. Cuando se quiere describir el grado de asociacin entre dos caractersticas hay que tener en cuenta no slo si ellas son cuantitativa o cualitativas sino tambin algunas caractersticas de su distribucin, como ser si ellas son simtricas o asimtricas, los objetivos y el diseo de la investigacin. Para cumplir con el objetivo de evaluar la asociacin entre dos variables, se debe tratar de cuantificar esta relacin, establecer la posible relacin causa-efecto; para esto es necesario definir medidas de asociacin. Los objetivos de asociacin dependen del tipo de variables involucradas, estos pueden ser: 1. Evaluar si la presencia de un factor (causa) produce cambios en la frecuencia de presentacin de una patologa (evento de inters). Relacin entre dos variables cualitativas dicotmicas. 2. Evaluar si la distribucin de una variable efecto (evento de inters) cambia segn los niveles de un factor. Relacin entre una variable cualitativa y la otra cuantitativa. 3. Evaluar si la magnitud del cambio observado en los valores de la variable efecto se puede explicar por un cambio en los valores del factor. Relacin entre dos variables cuantitativas. Relacin entre dos caractersticas cualitativas dicotmicas Uno de los ms difciles, pero tambin ms importante, de los problemas en investigaciones mdicas concierne a la existencia de asociacin entre el llamado factor de riesgo y la incidencia de una enfermedad. La investigacin de tales tpicos es parte de lo que se conoce formalmente como epidemiologa. El principal inters est en dar medidas e interpretacin de la asociacin entre el posible factor de riesgo y la particular enfermedad. Tres diseos epidemiolgicos principales son los que se tratarn en esta seccin: el estudio prospectivo, estudio retrospectivo y el de corte transversal.
- 17 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Ejemplo: supngase que existe una sospecha clnica de que existe una relacin entre la obesidad y el diagnstico de cardiopata coronaria. Hay muchas formas para investigar esta suposicin, se mostrarn las ms importantes. Estudios Prospectivos o de cohorte Un estudio prospectivo comienza con dos grupos de personas, el primero contiene personas expuestas al factor de riesgo de inters, y el segundo contiene personas sin tal exposicin. Al comienzo de la investigacin se supone que los dos grupos estn sanos, es decir libres del evento (patologa) que se est estudiando. Las personas dentro de cada grupo son seguidas durante un perodo de tiempo especificado, y al final del mismo se comparan, de alguna manera, las estimaciones de la incidencia de enfermos en cada grupo. Diseo de Estudio de Cohorte Prospectivo

Tanto en el grupo de expuestos como en el grupo de de no expuestos al factor se pueden calcular las incidencias de la enfermedad, por lo tanto es posible conocer el riesgo de enfermar en cada grupo. Los resultados de esta investigacin se pueden resumir en una tabla de contingencia de 2x2.
- 18 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Tabla 1: Datos genricos de un estudio prospectivo Factor de riesgo Presente Ausente Total Enfermos a c a+b No enfermos b d c+d Total a+b c+d a+b+c+d

En esta tabla slo los totales a+b, c+d son conocidos ya que ellos estn fijos por el diseo del estudio, incluyen al total de personas expuestas (factor presente) y total de personas no expuesta (factor ausente) respectivamente. Determinar Incidencia o riesgo de enfermar en cada grupo: Incidencia en Expuestos (Factor presente): IF=a/(a+b) Incidencia en no expuestos (Factor ausente): INF =c/(c+d) Conocida la incidencia en cada grupo (Riesgo Absoluto) debemos construir medidas para poder comparar las mismas, entre las ms usadas tenemos: Riesgo Relativo y Riesgo Atribuible. Riesgo Relativo El riesgo relativo se calcula como

RR =

IF a (a + b ) = I NF c (c + d )

En el ejemplo presentado anteriormente donde se pretende conocer si la obesidad podra ser considerado un factor de riesgo para enfermedad coronaria, la investigacin podra comenzar con un grupo de obesos y no obesos (ambos sin enfermedad coronaria) y hacer un seguimiento en el tiempo para determinar la incidencia de enfermedad coronaria entre los obesos y entre los no obesos. Un conjunto hipottico de datos obtenidos despus de un nmero de aos de seguimiento se muestra en la siguiente tabla. Tabla 2: Enfermedad Coronaria segn obesidad Obesidad Presente Ausente Total Enfermos 65 25 90 No enfermos 500 650 1150 Total 565 675 1240

- 19 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

A partir de estos datos se encuentra que la proporcin de personas con enfermedad coronaria entre los obesos es 65/565 (11,5%), mientras que la del grupo de no obesos es 25/675 (3,7%). Estas dos proporciones son las estimaciones de la incidencia (tambin llamado riesgo) de la enfermedad entre los que presentan el factor y los que no presentan el factor considerado de riesgo respectivamente. Un procedimiento comnmente usado para resumir los resultados de un estudio prospectivo es comparar estos riesgos estimados mediante lo que se conoce como el riesgo relativo. Esto es simplemente el cociente del riesgo estimado en cada grupo, dando aqu el valor 11,5/3,7=3,11. El riesgo relativo le indica cunto se incrementa el riesgo de enfermarse en un paciente expuesto al factor de riesgo, comparado con un paciente no expuesto al factor; y cuantifica el beneficio que puede tener el paciente si el factor de riesgo fue removido. As en el ejemplo el riesgo de sufrir enfermedad coronaria entre aquellas personas con obesidad se estima que es aproximadamente tres veces el riesgo de las personas que no presentan obesidad. Si tanto obesos como no obesos tuvieran el mismo riesgo de enfermedad coronaria, el riesgo relativo en la poblacin debera ser igual a 1. De esta manera, un valor del RR igual a uno o cercano a uno indicara que el factor considerado no es un factor de riesgo para la enfermedad.

Si IF INF RR1 NO ES FACTOR DE RIESGO Si IF > INF RR>1 ES FACTOR DE RIESGO Si IF < INF RR<1 ES FACTOR PROTECTOR
Riesgo Atribuible Tambin se denomina diferencia de riesgos, se calcula mediante una resta entre la incidencia de expuestos y la incidencia entre no expuestos. Tambin se puede calcular el riesgo atribuible porcentual.

Riesgo Atribuible RAexp= IF -INF Riesgo atribuible porcentual %RAexp=RAexp / IF x 100


- 20 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

El Riesgo Atribuible mide el exceso de riesgo a enfermar de los expuestos al factor en comparacin a los que no presentan el factor.

Si IF INF RAO NO ES FACTOR DE RIESGO Si IF > INF RR>0 ES FACTOR DE RIESGO Si IF < INF RR<0 ES FACTOR PROTECTOR
Esto es simplemente una resta del riesgo estimado en cada grupo, en el ejemplo planteado este valor sera 11,5% - 3,7% = 7,8%. Lo que se interpretara que entre los obesos la incidencia de enfermedad coronaria es un 7,8% mayor. Estudio retrospectivo o de caso control Un estudio retrospectivo comienza, como el prospectivo, con dos grupos de personas. Sin embargo, ahora, uno de los grupos est compuesto por individuos que ya tienen la enfermedad y el otro por personas que no tienen la enfermedad. Diagrama de un estudio retrospectivo o de caso control

Nuevamente los resultados de este estudio se pueden resumir en una tabla de contingencia de 2x2 en la cual inicialmente se conocen los totales de casos (enfermos) y controles (no enfermos), y a partir de ellos se examina en cada grupo, por ejemplo por medio de una encuesta, cuantas personas han estado expuestas al factor de riesgo en el pasado obtenindose una tabla como la siguiente:
- 21 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Tabla 3: Datos genricos de un estudio retrospectivo Factor de riesgo Presente Ausente Total Casos (Enfermos) a c a+c Controles (No enfermos) b d b+d Total a+b C+d a+b+c+d

En el ejemplo, para analizar la posible asociacin entre relacin entre la obesidad y el diagnstico de cardiopata coronaria, usando un diseo retrospectivo, se debera comenzar con un grupo de pacientes que haya sido diagnosticados con cardiopata coronaria (casos) y un grupo que no presenta dicha patologa (control). Una vez elegidos los grupos se busca la informacin acerca de la presencia de obesidad. Odds Ratio de Exposicin al Factor Un conjunto hipottico de datos se muestra en la tabla siguiente: Tabla 4: Enfermedad Coronaria segn obesidad Obesidad Presente Ausente Total Casos (Enfermos) 70 30 100 Controles (No enfermos) 40 60 100 Total 110 90 200

A partir de esta tabla podemos calcular las proporciones de expuestos al factor (obesidad) en cada grupo. As, para el grupo de enfermos la proporcin es 70/100 (70%), mientras que en el control (no enfermos) es 40/100 (40%). Aqu no podemos estimar el riesgo en cada grupo como lo hicimos en el estudio prospectivo, ya que el nmero de expuestos al factor y no expuestos al factor no estn bajo el control del investigador y las proporciones calculadas (70% y 40%) no son la incidencia de la enfermedad., lo que se puede calcular son las chances u odds de exposicin en casos y controles, lo que permite contar con otra medida que indica el grado de asociacin entre las variables consideradas conocida como odds ratio (OR): Chance u odds de exposicin Odds exposicin en Enfermos (casos)= oddsE= a/c Odds exposicin en No Enfermos (controles)= oddsNE= b/d

- 22 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Odds Ratio de Exposicin al Factor.

OR

(F )

oddsE a c ad = = odds NE b / d c b

Un odd ratio igual a 1 indica que no hay asociacin entre las variables estudiadas. As si en un caso particular se obtiene valores de OR cercanos a uno se podra inferir que la asociacin no es significativa. El odd ratio estimado para los datos del ejemplo es OR=70x60/30x40=3,5 lo que indicara que dentro del grupo de los enfermos (casos) la proporcin de expuestos al factor es mayor que la de los no enfermos (control). Si oddsE oddsNE OR1 NO HAY ASOCIACIN ENTRE FACTOR Y ENFERMEDAD Si oddsE>oddsNE OR>1 FACTOR POSITIVAMENTE ASOCIADO A ENFERMEDAD Si oddsE <oddsNE OR<1 FACTOR NEGATIVAMENTE ASOCIADO A ENFERMEDAD Debe notarse que OR no es una medida de riesgo, sino solo de asociacin Estudios de Corte Transversal En este tipo de estudio donde se parte de un grupo de individuos sin predeterminar con anterioridad ninguna caracterstica. De la poblacin se selecciona un grupo de personas y se observa si est enfermo o no y si estuvo expuesto o no al factor de riesgo. Es decir que inicialmente solo conocemos en total de individuos incluidos en el estudio.

- 23 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Obtendramos finalmente la siguiente informacin: Tabla 5: Datos genricos de un estudio de corte transversal Factor de riesgo Presente Ausente Total Enfermos a c a+c No enfermos b d b+d Total a+b C+d a+b+c+d

Razn de Prevalencias En este tipo de estudios es posible calcular la prevalencia de la enfermedad en los grupos de exposicin (presente y ausente), por lo que la medida de asociacin adecuada a calcular es la Razn de Prevalencias (RP). Esta se calcula de la misma forma que el Riesgo Relativo, pero su interpretacin es distinta ya que no es posible conocer la incidencia de la enfermedad sino solo la prevalencia. Determinar Prevalencia en: Expuestos al Factor de Riesgo: PF= a/(a+b) No expuestos al Factor de Riesgo: PNF = c/(c+d)

RP =

PF a (a + b ) = PNF c (c + d )

Esta medida se interpreta como una razn que nos indica cuntas veces es ms frecuente la prevalencia de la enfermedad entre los expuestos al factor en relacin a los no expuestos. Si PF PNF Si PF >PNF Si PF <PNF RP1 NO HAY ASOCIACIN ENTRE EL FACTOR Y ENFERMEDAD RP>1 FACTOR POSITIVAMENTE ASOCIADO A LA ENFERMEDAD RP<1 FACTOR NEGATIVAMENTE ASOCIADO A LA ENFERMEDAD

(La prevalencia de la enfermedad es igual en expuestos y no expuestos) (La prevalencia de la enfermedad es mayor en el grupo de expuestos al factor)

(La prevalencia de la enfermedad es menor en el grupo de expuestos al factor) Odds Ratio de Enfermedad En los estudios de corte transversal tambin es posible calcular las chances u odds de la Enfermedad
- 24 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Chance u odds de la enfermedad Odds de Enfermedad entre expuestos al factor: oddsF= a/b Odds de Enfermedad entre no expuestos al factor: oddsNF= c/d Odds Ratio de la Enfermedad:

OR
Si oddsF oddsNF

(E)

odds F a b ad = = odds NF c d c b

OR1 NO HAY ASOCIACIN ENTRE FACTOR Y ENFERMEDAD

Si oddsF >oddsNF OR>1 FACTOR POSITIVAMENTE ASOCIADO A ENFERMEDAD Si oddsF <oddsNF OR<1 FACTOR NEGATIVAMENTE ASOCIADO A ENFERMEDAD Relacin entre variables cuantitativas Suponga, por ejemplo, que se desea estimar la relacin entre la concentracin de colesterol y el cambio en el dimetro vascular medio en pacientes con angina de pecho estable (variables cuantitativas), en el sentido de que cunto se asocia un cambio en el dimetro vascular medio a un cambio en los niveles de colesterol. Como ya se vio en el Mdulo de Estadstica Descriptiva, una manera de graficar esta relacin es a travs de un diagrama de dispersin o correlacin. Qu debemos observar de ese diagrama para que se pueda visualizar algn tipo de asociacin? La respuesta es ver si los puntos de ese diagrama son tales que se puede pensar que estn agrupados alrededor de alguna lnea, como se puede observar en los grficos siguientes, donde el primero muestra una agrupacin alrededor de una lnea recta, y el segundo alrededor de una curva. Grfico N1: Grfico de dispersin o correlacin
20

37

15

27

10

17

0 -1 1 3 5 7

-3 -1 1 3 5 7

- 25 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Coeficiente de Correlacin de Pearson Si se consideran los tipos de agrupamientos alrededor de una lnea, una medida de este tipo de asociacin o correlacin (lineal) es el Coeficiente de Correlacin de Pearson. En la figura 1 del grfico 2 se observa que cuando aumenta el valor de X, tambin aumenta el valor de Y, mientras que en la figura 2 cuando aumenta el valor de X, disminuye el de Y (X,Y son las variables que se estn analizando). En el primer caso se dice que hay una correlacin positiva y en el segundo una negativa. Las tres ltimas figuras muestran casos de ausencia de correlacin, donde una aumento o disminucin de X no implica un aumento o disminucin de Y. Grfico N2: Gficos de correlacin

Volviendo al ejemplo, si con X designamos a la concentracin de colesterol, y con Y al cambio del dimetro vascular medio, y si se denota con r al Coeficiente de Correlacin de Pearson, su clculo puede hacerse usando la expresin:

r=

(X X )(Y Y ) ( X X)
2

( Y Y)

donde X e Y son las medias de la concentracin de colesterol y del dimetro vascular medio respectivamente. Con los datos de los valores tpicos de colesterol total/LAD, y cambio del dimetro vascular medio en 39 pacientes con angina de pecho, cuya lesin no creci; se
- 26 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

calcul el coeficiente de correlacin y se obtuvo r = 0.5. Qu significa una correlacin de 0.5 entre colesterol y cambio en el dimetro vascular? Los posibles valores de r oscilan entre 1 y +1, en donde +1 describe una lnea recta perfecta con pendiente positiva, como se observa en la primera figura del Grfico N3 y -1 describe una lnea recta perfecta con pendiente negativa, como se muestra en la segunda figura del mismo grfico Grfico N3: Tipos de correlacin lineal
Y 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 X Y 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 X

Una correlacin de 0 (o sea r=0) significa que no hay relacin lineal entre las dos variables. Existe una correspondencia entre la cifra del coeficiente de correlacin y cun dispersas estn o no las observaciones alrededor de una lnea recta. Cuando la correlacin se aproxima a 0, la forma del grfico de dispersin es ms o menos circular, como se observa en el siguiente grfico. Grfico N4: Correlacin entre dos variables
12

10

4 -1 1 3 5 7

Conforme el valor de la relacin se aproxima a +1 o 1, la forma se vuelve ms elptica, hasta que, en +1 o 1, las observaciones quedan directamente sobre la lnea recta. Con una correlacin de 0.5, cabe esperar una dispersin de datos en forma ms o menos oval, como en el siguiente grfico.
- 27 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Grfico N5: Correlacin entre colesterol total y cambio en el dimetro vascular.

En ocasiones, la correlacin se eleva al cuadrado (r2) para formar un valor estadstico importante llamado coeficiente de determinacin. Para los datos de colesterol y dimetro vascular, el coeficiente de determinacin es (0.5)2 0.25, que significa que el colesterol total explica el 25 % de los cambios del dimetro vascular medio. De otra manera si se conociera el valor del colesterol de los pacientes y se tomara en consideracin al examinar el cambio del dimetro del vascular medio, la variabilidad de esta ltima medicin podra reducirse un 25 %. El coeficiente de correlacin posee varias caractersticas. Es independiente de cualquier unidad usada para medir las variables, es decir es adimensional El valor del coeficiente de correlacin se altera en forma importante por la presencia de un valor alejado o distante. Por tanto la correlacin no proporciona una descripcin adecuada entre dos variables cuando la distribucin de una u otra variable est sesgada o incluye valores distantes. El coeficiente de correlacin de Pearson mide slo el grado de asociacin lineal; de hecho, dos factores pueden guardar una relacin no lineal fuerte, an cuando la correlacin lineal es bastante pequea. Por tanto, cuando se analizan las relaciones entre dos caractersticas, los datos se debern graficar antes de calcular el coeficiente de correlacin.
- 28 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Correlacin no implica causalidad. El enunciado de que una caracterstica causa otra, debe justificarse basndose en observaciones experimentales o argumentos lgicos, no con fundamento en el tamao de un coeficiente de correlacin. El coeficiente de correlacin de Pearson no es adecuado cuando las variables provienen de distribuciones asimtricas. Coeficiente de Correlacin de Spearman. En el caso de falta de conocimiento a cerca de la distribucin, o de la linealidad de la relacin entre las variables, se puede usar mtodos de rango para evaluar una relacin ms general entre los valores de las variables mencionadas. El coeficiente de correlacin que se usa con frecuencia para describir la relacin entre dos caractersticas que no cumplen con las condiciones antes mencionadas ya sea porque las distribuciones de las variables son asimtricas o estn medidos en escala ordinal (o una ordinal y una numrica) o hay observaciones alejadas, o el tamao de muestra es pequeo, es el coeficiente de correlacin de Spearman. Este coeficiente puede variar de 1 a +1 igual que el coeficiente de Pearson, pero +1 o 1 indican concordancia perfecta entre posiciones de los valores o categoras de la variable ordinal en lugar de entre los valores mismos. Para calcular el coeficiente de correlacin de rangos de Spearman (rs), se ordena separadamente de menor a mayor los valores de ambas variables y se les asigna rangos (indicando el orden que ocupan), luego se sustituye los valores de los rangos en la frmula del coeficiente de correlacin de Pearson. Aunque la frmula de Spearman se deriva de la de Pearson, esto no implica que los valores de ambos coeficientes vayan a coincidir siempre. Relacin entre dos caractersticas ordinales Otras medidas de correlacin de datos ordenados son Tau de Kendall y W de Kendall basadas tambin en rangos. La Tau generalmente da valores menores de la correlacin si se la compara con el coeficiente de correlacin de Pearson cuando se puede usar este ltimo.

- 29 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

CAPTULO IV- ESTIMACIN DE PARMETROS


Antes de desarrollar los conceptos bsicos sobre las tcnicas estadsticas que nos permitirn estimar parmetros a partir de datos muestrales es importante dar algunos conceptos sobre distribucin muestral. Un estadstico (media aritmtica, mediana, proporcin, RR, OR, etc.) es una forma de combinar los datos (funcin de los datos muestrales), por ejemplo la media es la suma de los datos divida en el nmero de datos. Para un conjunto particular de datos (valores observados en una muestra) el valor obtenido de esa funcin nos da una estimacin del parmetro poblacional. Obviamente con cada posible muestra tendramos diferentes valores del estadstico, es decir obtendramos diferentes estimaciones. Por lo tanto, un estadstico es una variable que toma diferentes valores, y estos valores o estimaciones depende de la particular muestra con que estemos trabajando. Si pudiramos extraer todas las posibles muestras de un dado tamao de la poblacin de inters y con cada una de ellas calculamos el estadstico correspondiente obtendramos todas las estimaciones posibles, a partir de ella podramos construir la distribucin del estadstico que recibe el nombre de distribucin muestral del estadstico. Cabe preguntarse por qu es tan importante el concepto de distribucin muestral, la respuesta es simple. Cuando se quiere estimar un parmetro poblacional (caracterstica de la poblacin) a partir de una muestra surgen interrogantes como: qu tan buena es la estimacin obtenida?, se puede llegar a la conclusin de que el parmetro de la poblacin es idntico al estadstico de la muestra o es probable que exista algn error?. Si es as, qu tan grande es dicho error? Para responder a estas preguntas se debe comparar los resultados obtenidos a partir de las muestras con los resultados esperados. Los resultados esperados son justamente dados por la distribucin muestral del estadstico y de all la importancia de ella. Surgen ahora otros interrogantes, cmo es en realidad una distribucin muestral y, por lo tanto, cules son los resultados esperados? La distribucin muestral del estadstico depende de:
- 30 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

la distribucin de la poblacin, el estadstico que se elija para estimar el parmetro, la forma de seleccin aleatoria de la muestra, el tamao de la misma. Distribucin muestral de la media aritmtica (estadstico).

La relacin existente entre ambas distribuciones (distribucin de la poblacin de individuos y distribucin muestral del estimador) es la que nos permite hacer afirmaciones sobre el parmetro poblacional y cuantificar el error de dichas afirmaciones. Debemos ser conscientes que en general es imposible obtener todas las posibles muestras de una poblacin, pero la estadstica inferencial nos provee herramientas que nos permiten conocer la distribucin muestral terica del estadstico, y a partir de ella hacer afirmaciones sobre la precisin de la estimacin y cuantificar el error de las afirmaciones que se hagan sobre ella.

- 31 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

A fin de clarificar estos conceptos, se considera por el momento el caso en que el parmetro poblacional es la media y el estadstico para estimarla es la media aritmtica x , obtenida a partir de una muestra de tamao n de la poblacin. Es claro que si se quiere obtener la distribucin muestral de x, extrayendo todas las muestras de tamao n, esto consumira ms tiempo que el requerido para tomar la informacin de toda la poblacin y, en consecuencia, sera poco prctico. En su lugar, es posible usar la teora estadstica para determinar la distribucin muestral de la media aritmtica en cualquier situacin particular. Por ejemplo, supongamos una poblacin de personas adultas donde la presin arterial sistlica (PAS) tiene media poblacional =120 mm Hg con un desvo estndar =10 mm Hg. Supongamos ahora, que se desconoce esta informacin y se decide estimar la media poblacional tomando una muestra aleatoria de tamao n=100 de la poblacin. La media aritmtica calculada a partir de la muestra dio un valor x=121 mm Hg. Para hacer afirmaciones sobre la precisin de la estimacin que nos d algn grado de confianza en el valor encontrado a travs de la muestra, necesitamos conocer la distribucin muestral de x. Las propiedades de la distribucin muestral de x son la base para uno de los teoremas ms importantes de la teora estadstica, llamado Teorema del Lmite Central. Dada una poblacin con media y desviacin estndar , la distribucin muestral de la media basada en muestras aleatorias repetidas de tamao n tiene las siguientes propiedades: 1. La media de una distribucin muestral o media de medias, es igual a la media de la poblacin

.
2. La desviacin estndar en la distribucin muestral de x es igual a

. Esta cantidad

denominada error estndar de la media (SEM), tiene una funcin importante en numerosos procedimientos estadsticos. 3. Con muestras de tamao grande la distribucin muestral de x sigue un modelo terico denominado modelo de distribucin normal, sin importar la forma de la distribucin de la poblacin original.
- 32 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Esto nos da la base para toda la inferencia estadstica sobre la media. As, en el ejemplo si se supone conocido, es decir conocemos que =10 mm Hg. se puede afirmar que la distribucin muestral de x en este caso tiene un error estndar SEM= ya que la raz cuadrada de n=100 es 10. La importancia del SEM radica en que a partir de l se puede hacer la siguiente afirmacin: si el tamao de muestra es grande aproximadamente el 95% de las muestras daran valores de x en un intervalo que va desde -2SEM a +2SEM. Obviamente, en la prctica siempre se desconoce el valor de y casi siempre el valor de , de manera que esto es slo el respaldo terico de toda la inferencia estadstica, como se ver en las secciones subsiguientes. En el ejemplo de PAS, si y fueran conocidos entonces se puede afirmar que aproximadamente el 95% de las muestras de tamao n=100 daran valores de x entre 120-2 y 120+2. Si el estadstico elegido para estimar la media poblacional no es la media aritmtica sino cualquier otro estimador, por ejemplo la mediana, entonces el clculo de su error estndar y su distribucin muestral no sigue exactamente lo enunciado para el caso de x, sino que ello deber determinarse en cada caso, basndose en herramientas de la teora estadstica. ESTIMACIN Nuestro objetivo es estimar, de alguna forma, el o los parmetros que caracterizan a nuestra poblacin. El estadstico a utilizar, depender del parmetro a estimar, y para un dado parmetro en general hay ms de un estadstico que nos podra resultar de utilidad. Estimacin Puntual Se denomina Estimacin Puntual al valor obtenido del estadstico o estimador a partir de una muestra. A partir de los datos muestrales se calculan los estadsticos (media, desvo estndar, proporciones, etc.) que son los estimadores puntuales de los parmetros poblacionales.
- 33 Mg. Silvana Torres

= 10/10= 1

Estadstica Inferencial -Ao 2009-

Debemos preguntarnos cules son las propiedades de que debera tener un estimador para que sea considerado como bueno y que nos facilite la eleccin entre un estadstico y otro. Al obtener una estimacin puntual debemos ser conscientes que l depende de la muestra que hayamos seleccionado y que el valor encontrado puede cambiar de muestra en muestra. As, las propiedades deseables seran que con cada estimacin no estemos muy alejados del verdadero valor del parmetro y que no haya demasiada diferencia entre los valores del estadstico obtenidos de muestra en muestra. Esto se puede formalizar diciendo que: Las propiedades a tener en cuenta de los estadsticos son las siguientes: 1. Insesgado: Ausencia de error sistemtico, el estadstico tiene como valor promedio el parmetro que se busca estimar. 2. Varianza Mnima: Las estimaciones obtenidas para distintas muestras varan poco entre ellas. Si la variabilidad de las estimaciones se mide a travs del desvo estndar, este desvo estndar recibe el nombre de error estndar del estimador (SE). No debe confundirse entre desvo estndar de la distribucin de la poblacin (variabilidad entre los individuos) y error estndar del estimador que es el desvo estndar de la distribucin muestral (variabilidad entre las estimaciones de las muestras). Si se consideran todos los estadsticos (estimadores) insesgados posibles de algn parmetro, aqul con la varianza ms pequea recibe el nombre de estadstico insesgado ms eficiente del parmetro. Se puede demostrar que la media aritmtica es un estimador insesgado y eficiente de la media poblacional. Es muy probable que el estadstico insesgado ms eficiente no estime el parmetro poblacional con exactitud, esto se debe a que en realidad cuando realizamos la estimacin slo tomamos una muestra, y obtenemos uno de los posibles valores del estadstico que en general no tiene porque coincidir con el valor del parmetro que se quiere estimar. Si bien la precisin se incrementa con muestras grandes no hay razn para esperar que la estimacin puntual de una muestra dada deba ser exactamente igual al
- 34 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

parmetro poblacional que se supone estima. Entonces, existen muchas situaciones en las cuales es preferible determinar un intervalo dentro del cual se esperara encontrar el valor del parmetro, tal metodologa se conoce como estimacin por intervalos de confianza. Estimacin por intervalos Consiste en un conjunto de procedimientos mediante los cuales, segn el nivel de significacin deseado, se calcula el intervalo en el cual se podra encontrar el parmetro estimado a un determinado nivel de confianza, que generalmente vara entre el 95% y 99%. Intervalos de Confianza: Son intervalos aleatorios obtenidos a partir de los datos muestrales y en los cuales hay un grado de confianza prefijado (medido en %) de que dicho intervalo contenga al verdadero valor del parmetro (valor poblacional) que se quiere estimar. El grado de confianza se denomina nivel de confianza y lo denotaremos como 100(1-)%. Usualmente este valor corresponde a un 95%. Donde: (1-) = es el grado de confianza o coeficiente de confianza = es la probabilidad de error de que el parmetro poblacional no se encuentre dentro del intervalo de confianza. Este valor es fijado por el investigador y generalmente vara entre el 1% y 5% (=0,01 o =0,05) Para encontrar estos intervalos debemos conocer la distribucin muestral de cada estimador (tipo de distribucin terica y error estndar del estimador), que como ya se vio esto depende del parmetro de inters y del estadstico que se elija para estimar dicho parmetro. Sin embargo es posible dar la forma general que adopta un intervalo de confianza en cualquier caso. Supongamos que se quiere estimar un parmetro Q de la poblacin a travs del estadstico q, si el error estndar de la distribucin de q lo denotamos con SE(q), entonces un intervalo de confianza para Q con una confianza del 95% (IC95%) viene dado por la expresin: IC95% = [q k1SE(q) , q + k2SE(q)]
- 35 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

donde k1 y k2 dependen de la forma de la distribucin de q. Los lmites inferior y superior del intervalo estn dados por q k1SE(q) y q + k2SE(q) respectivamente En el ejemplo de la PAS el intervalo de confianza para la media poblacional con una confianza del 95% est dado por: IC95% = [121 1.96x1 ; 121 + 1.96x1] = [119.04 ; 122.96] Interpretacin y usos del Intervalo de Confianza: Hay dos aspectos importantes en la interpretacin de un intervalo de confianza a saber: La amplitud del IC mide el grado de precisin de la estimacin puntual, es decir cuando menor es la amplitud mayor es la precisin de la estimacin. Esto viene del hecho de que la amplitud del IC depende del SE el cual, como ya se vio, mide el grado de variabilidad de las estimaciones de muestra en muestra. Dado el IC100(1-)% para Q, existe una probabilidad del 100(1-)% que el intervalo estimado contenga al verdadero valor del parmetro poblacional Q. En el ejemplo podramos decir que existe una probabilidad del 95% que el IC95% =[119.04, 122.96] contenga al verdadero valor de . El IC nos permite hacer comparaciones entre poblaciones o diferentes estimaciones de una misma poblacin. Por ejemplo, supongamos que la PAS media en otra poblacin B es de B=115 mm Hg , luego a partir del IC se puede
B

concluir que la PAS media en nuestra poblacin es significativamente mayor que la correspondiente a la poblacin B, ya que B es menor que el extremo
B

menor del intervalo. A continuacin vamos a ver algunos ejemplos de estimaciones de parmetros. Estimacin de la media aritmtica Sabemos que x (media muestral) estima a (media poblacional), y se calcula con la siguiente frmula:

x = ( xobs)/n
El error estndar de la media (SEM)es igual a

en el caso que se conozca , pero

si es desconocido lo reemplazamos por SD ( desvo estndar) donde:


- 36 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

SD =

suma de los desvios al cuadrado = n 1 SD n

suma ( xobs x) 2 n 1

y el SEM es igual a

Bajo el supuesto de normalidad; es decir que suponemos que la distribucin muestral de la media es normal; podemos decir que x es una estimacin precisa de cuando el tamao muestral (n) es grande. Si fijamos = 0,05 , recordemos que es el error, y 1- es el nivel de confianza. (1-) 100% = (1-0,05)100%= 95%; entonces el intervalo del 95% de confianza de es: IC95% [ x -Z/2 SEM ; x + Z/2 SEM] (1)

Como la distribucin de x es normal Z/2 =Z0,025 = 1,96 (este valor se obtiene de la tabla de valores de la distribucin normal) Ejemplo del clculo e interpretacin de un intervalo de confianza: Supongamos que en una muestra de tamao n=36, el peso promedio de recin nacidos prematuros es de 1930 grs. con un desvo estndar de 325 grs. Se quiere conocer cual es el intervalo del 95% de confianza para el peso promedio de los prematuros. n= 36 ; = 0,05 ; x = 1930 grs. ; /2= 0,025 ; SD= 325 grs. ; Z0.025= 1,96 SEM= 325 = 54,17 36

Usando la formula (1) el intervalo del 95% de confianza para la media es IC95% = [1930 1,96 (54,17) ; 1930 +1,96 (54,17)] IC95% = [1930 106,17 ; 1930 +106,17 ] IC95% = [1823,83 ; 2036,17] El intervalo del 95% de confianza para el peso promedio de los prematuros es de 1824grs. a 2036grs.

- 37 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Estimacin de una proporcin Proporcin (p): es un cociente que relaciona una parte con el total. Es un cociente que se obtiene dividiendo el nmero de individuos que poseen determinada caracterstica con el total de individuos. Esta se calcula de la siguiente forma:

p=

x n

Donde x representa al nmero de individuos que pertenecen a una determinada categora y n es el total de individuos. Como p estima a la proporcin en la poblacin, el error estndar de la proporcin

SE ( p) es igual a:
SE ( p) = pq n
donde q = 1-p

Bajo el supuesto de normalidad; es decir que suponemos que la distribucin muestral de la proporcin es normal; podemos decir que p es una estimacin precisa de la proporcin de la poblacin cuando el tamao muestral (n) es grande. Si fijamos = 0,05 , recordemos que es el error, y 1- es el nivel de confianza. (1-) 100% = (1-0,05)100%= 95%; entonces el intervalo del 95% de confianza de p es: IC95% [p - Z/2 SE ( p ) ; p + Z/2 SE ( p ) ] (2)

Como la distribucin de p es normal Z/2 =Z0,025 = 1,96 (este valor se obtiene de la tabla de valores de la distribucin normal) Ejemplo del clculo e interpretacin de un intervalo de confianza para una proporcin: Supongamos que en una muestra de n=750 nios se encontraron en estado de desnutricin 34 de ellos; se quiere conocer cual es el intervalo del 95% de confianza para la proporcin de desnutridos. n= 750 ;

p=

34 = 0,045 ; q= 1-0,045= 0,955 ; 750


Z0.025= 1,96

SE ( p ) =

0,045 0,955 = 0,0076 750

= 0,05 ;

/2= 0,025 ;

Usando la formula (2) el intervalo del 95% de confianza para la proporcin es


- 38 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

IC95% = [0,045 1,96 (0,0076) ; 0,045 +1,96 (0,0076)] IC95% = [0,045 0,015 ; 0,045+0,015] IC95% = [0,030 ; 0,060] IC95% = [3% ; 6%] El intervalo del 95% de confianza para la proporcin de desnutridos es de 0,03 a 0,06.Las proporciones tambin pueden expresarse en porcentajes, en ese caso podramos decir que la proporcin de desnutridos es de 4,5% , y el intervalos del 95% de confianza es del 3% al 6%. Estimacin de medidas de asociacin En el captulo anterior se definieron las principales medidas para analizar la asociacin entre variables, a estas estimaciones puntuales se deben acompaar los respectivos intervalos de confianza. Para cuantificar la precisin de la asociacin se realiza el clculo de los intervalos de confianza, normalmente estimados para un nivel de confianza del 95%; esto es, si se repitiera el mismo estudio n veces, bajo las mismas suposiciones estadsticas, en 95% de los casos el estimador puntual (r, RR, RP, OR, etc) estar contenido dentro de los lmites estimados. Para cada medida de asociacin calculada se debe tener en cuenta cul es el valor nulo o punto de corte en el cual se puede concluir que no existe asociacin entre las variables, y se podr inferir que existe asociacin significativa slo cuando el intervalo de confianza no contenga dicho valor. El coeficiente de correlacin de Pearson (r) mide la relacin lineal entre dos

variables cuantitativas, este puede tomar valores en el rango [-1 ; 1], siendo el valor nulo o punto de corte r=0; por lo tanto cuando el intervalo de confianza de este coeficiente contenga al cero no podremos concluir que exista asociacin o correlacin lineal significativa entre dos variables cuantitativas. En el caso de variables cualitativas las medidas de asociacin y riesgo, dependiendo del diseo del estudio, son RR (Riesgo Relativo), RP (Razn de Prevalencias) y OR (Odds Ratio), siendo en todos estos casos el valor nulo o punto de corte el uno (1); por lo tanto cuando el intervalo de confianza contenga este valor no podremos concluir que exista asociacin significativa entre las variables en estudio.
- 39 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

En el caso de RR se podr concluir que el factor estudiado se considera de riesgo cuando el intervalo se encuentre en valores mayores que uno, y ser considerado factor protector a intervalos menores que uno; siempre teniendo en cuenta que el intervalo no contenga al valor nulo (uno). La interpretacin del intervalo de confianza de RP es similar, pero se podr concluir que la prevalencia es mayor o menor, o que existe asociacin si el intervalo de confianza no contiene al uno. Tambin se puede calcular el impacto de la exposicin mediante el riesgo atribuible (RA), llamado tambin diferencias de riesgos, el cual mide la proporcin de la enfermedad que se evitara si se lograra erradicar la exposicin. El valor nulo del RA es el cero (0), por lo tanto cuando este valor se encuentre en el intervalo de confianza, la diferencias de riesgos no ser significativa. La interpretacin de los resultados en los estudios retrospectivos es la siguiente: si OR igual a uno, la exposicin no est asociada con el evento o enfermedad; si OR es menor de uno, la exposicin est asociada de manera inversa con el evento, esto es, la exposicin disminuye la posibilidad de desarrollar el evento; si OR es mayor de uno, la exposicin se encuentra asociada positivamente con el evento, lo que quiere decir que la exposicin aumenta la posibilidad de desarrollar el evento y si OR es igual a uno no existe asociacin entre las variables; por lo tanto para poder inferir los resultados a la poblacin es necesario considerar si el intervalo de confianza contiene el valor nulo del OR, es decir el uno. En caso de que el intervalo contenga este valor podremos concluir que la asociacin entre las variables involucradas en el estudio no es significativa. Caractersticas de las Medidas de Asociacin, Correlacin y Riesgo Tipo Variables Cuantitativas Cualitativas Cualitativas Cualitativas Cualitativas Tipo Estudio Corte Transversal Prospectivo Prospectivo Corte Transversal Retrospectivo Medida r RR RA RP OR Valor Nulo 0 1 0 1 1 Interpretacin Mide correlacin lineal Mide Riesgo Mide Riesgo Mide asociacin Mide asociacin

- 40 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

CAPTULO V- TEST DE HIPTESIS ESTADSTICA


En las secciones anteriores tratamos con estimacin y precisin de las estimaciones que es una forma de inferencia estadstica. En esta seccin se introduce una forma diferente de inferencia, los test de hiptesis estadsticas. Un test de hiptesis es una metodologa o procedimiento que permite cuantificar la probabilidad del error que se cometera cuando se hace una afirmacin sobre la poblacin bajo estudio, es decir, nos permite medir la fuerza de la evidencia que tienen los datos a favor o en contra de alguna hiptesis de inters sobre la poblacin. Es un procedimiento de decisin basado en datos muestrales. Hiptesis estadstica se define como una afirmacin acerca de una o ms poblaciones. Para ilustrar los conceptos de los tests de hiptesis supongamos que estamos interesados en conocer cuanto influye el nivel de escolaridad de la madre sobre el estado nutricional del nio, es decir, nuestro inters es saber si en nuestra poblacin el estado nutricional del nio est asociado al nivel de escolaridad de la madre. En principio, este interrogante se plantea porque tenemos la sospecha que realmente existe tal asociacin. Para investigar sobre este punto, se toma una muestra de nios y se analiza en cada uno de ellos el estado nutricional y el nivel de escolaridad de sus madres. Una vez obtenido los datos como estamos conscientes que los hallazgos en la muestra pueden ser aleatorios necesitamos de algn procedimiento que estime la verosimilitud de los resultados obtenidos en la muestra y ste es precisamente un test de hiptesis estadstica. Los tests de hiptesis consisten en confrontar dos hiptesis, una llamada hiptesis nula que denotamos con Ho y otra llamada hiptesis alternativa denotada con H1. En el ejemplo las hiptesis que se plantean son: 1. el estado nutricional de los nios est asociado al nivel de escolaridad de las madres (hiptesis de trabajo) 2. No existe tal asociacin

- 41 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

Cabe preguntarse ahora, cul de ellas se debe considerar como hiptesis nula. En la mayora de los tests que se usan en investigacin mdica la hiptesis nula se elige a aquella que se quiere rechazar, es decir, en este caso Ho: No hay asociacin. La hiptesis nula generalmente es una hiptesis de igualdad, por lo que admite slo una posibilidad; mientras la hiptesis alternativa admite varias posibilidades. Para aclarar esto veamos un ejemplo: Supongamos que queremos probar si la proporcin (p) de desnutridos en una poblacin infantil es igual o no al 20%. La H0 es que la proporcin de desnutridos es igual al 20% (p=0,20); y la H1 admite tres posibilidades, de acuerdo a los datos muestrales, que la proporcin de desnutridos sea menor al 20% (p<0,20), que sea mayor al 20% (p>0,20), o que la proporcin sea distinta al 20% (p#0,20), se debe determinar como H1 una de estas tres posibilidades. En smbolos: H0 : p=0,20 H1 : p<0,20 H1 : p>0,20 H1 : p#0,20 Bajo este planteo un test de hiptesis estadstica no es otra cosa que un procedimiento para tomar una decisin, bajo incertidumbre, sobre la validez de la hiptesis nula usando la evidencia de los datos. Puesto que se trabaja bajo incertidumbre es claro que cualquiera sea la decisin que se tome siempre existe una probabilidad de cometer error. A fin de clarificar esto podemos presentar el siguiente esquema: Situaciones posibles al probar una hiptesis estadstica Decisin Falsa Rechazar Ho No rechazar Ho Decisin correcta Error Tipo II Realidad sobre Ho Cierta Error Tipo I Decisin correcta Seleccionar una de estas alternativas

Como se pueda ver en el esquema, con cada tipo de decisin que se tome hay asociado una posibilidad de cometer un error. Un procedimiento de este tipo sera ptimo cuando las probabilidades de cometer un error, cualquiera sea la decisin que se adopte,
- 42 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

sean pequeas. Lamentablemente, en la mayora de los test de hiptesis slo es posible controlar una de ellas, con el agravante de que estos errores son competitivos, es decir, cuando se disminuye mucho la probabilidad de uno aumenta la probabilidad del otro. Puesto que, el inters generalmente es rechazar Ho la probabilidad de error que se controla durante este procedimiento, es justamente el error asociado a esta decisin (Probabilidad del Error Tipo I), es decir, la probabilidad de rechazar Ho cuando es cierta. La mxima probabilidad de error tipo I se denota con y recibe el nombre de nivel de significacin del test y l debe ser prefijado de antemano, generalmente vara entre el 1% y el 5% (= 0,01 o = 0,05). La probabilidad de Error Tipo II se denota con . La bondad de un test de nivel se mide en trminos de la cantidad 1- denominada Poder del Test. El nivel de significacin que se usa generalmente es =0.05 lo que corresponde a un 5% en trmino de porcentaje. Tipos de pruebas de hiptesis El tipo de prueba de hiptesis depende de la alternativa que se seleccione. Prueba de una cola: prueba de cualquier hiptesis estadstica donde la alternativa es unilateral H0 : p=p0 H1: p>p0 (cola derecha) H1: p<p0 (cola izquierda)

Prueba de dos colas: prueba de cualquier hiptesis estadstica donde la alternativa es bilateral H0 : p=p0 H1: p#p0 Procedimiento general de un test de hiptesis El procedimiento de un test de hiptesis lo podemos resumir en los siguientes pasos: 1. Establecer la hiptesis nula. Se supone que Ho es cierta. 2. Seleccionar la H1 apropiada.
- 43 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

3. Seleccionar el nivel de significacin 4. Para confrontar esta suposicin con la informacin (parcial) que proveen los datos sobre la realidad de Ho, se forma una especie de indicador de concordancia, denominado estadstico del test. 5. Como el estadstico depende de la informacin de los datos, con cada muestra posible hay asociado un valor de este estadstico y en consecuencia se genera una nueva variable aleatoria. Asociada a esta variable hay una cierta distribucin de probabilidad, a partir de la cual se determina la probabilidad de que la informacin de los datos concuerde con la hiptesis nula, denominado P-value. De esta manera, el P-value representara la probabilidad de cometer un error cuando se toma la decisin de rechazar Ho. 6. Decidir: es claro que, si de antemano se fij que la mxima probabilidad de error al rechazar Ho deba ser igual a , para tomar la decisin es necesario comparar el valor de P con . As Si P entonces la decisin es Rechazamos Ho Si P > la decisin es No hay evidencia suficiente para rechazar Ho Prueba sobre una media Para ilustrar el procedimiento a seguir para realizar un test de hiptesis sobre una media, presentaremos el siguiente ejemplo: Se conoce que el promedio das de estada de los pacientes de un hospital es de 8 das; si en una muestra aleatoria de 30 pacientes incluidos en un estudio indica que el promedio das de estada es de 6das con un desvo estndar de 2,31 das; se puede pensar a un nivel de significancia del 5% que el promedio das de estada es menor a 8 das. Siguiendo el procedimiento se prueba la hiptesis nula 1. H0 : =8das 2. H1 : < 8das 3. = 0,05 4. El estadstico de prueba en este caso es el test t para una media
- 44 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

5. Del clculo surge que P= 0,00026 6. Se decide rechazar H0 ya que P(0,00026)es menor que (0,05). Se concluye que el promedio das de estada de los pacientes en el hospital es menor a 8 das. Prueba sobre una proporcin Tambin para ilustrar la aplicacin del procedimiento para realizar un test de hiptesis sobre una proporcin (p), presentaremos el siguiente ejemplo: Se cree que un medicamento es efectivo en un 60% (p=0,6) de los casos. De un nuevo medicamento administrado en una muestra aleatoria de 100 adultos, 70 mejoraron (p=0,7); al 5% de significancia se puede afirmar que el nuevo medicamento es mejor. Siguiendo el procedimiento se prueba la hiptesis nula 1. H0 : p=0,6 2. H1 : p>0,6 3. = 0,05 4. El estadstico de prueba en este caso es el test Z para una proporcin 5. Del clculo surge que P= 0,0248 6. Se decide rechazar H0 ya que P(0,0248)es menor que (0,05). Se concluye que el nuevo medicamento es mejor Si en este ejemplo se hubiese fijado = 0,01 (1%) al comparar P (0,0248) con (0,01) la decisin sera: no hay evidencia estadstica suficiente para rechazar H0, por lo tanto no se puede afirmar que el nuevo medicamento sea mejor. Prueba de Independencia o Test Chi Cuadrado (2) Esta prueba se utiliza para probar la hiptesis de independencia entre dos variables. Se deben presentar las frecuencias observadas (datos de la muestra) en una tabla de contingencia (o tabla de clasificacin cruzada) con sus respectivas frecuencias conjuntas (celdas) y frecuencias marginales (totales). Ejemplo: Supongamos que queremos conocer si existe asociacin entre las variables estado nutricional de los nios y el nivel de instruccin de la madre; para analizar tal
- 45 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

asociacin se toma una muestra aleatoria de 1000 nios y se obtienen los siguiente datos (frecuencias observadas) que presentamos en una tabla de contingencia: Tabla N 1: Estado Nutricional de los nios segn nivel de instruccin de la madre. Frecuencias observadas (oi) Estado Nutricional Nivel de Instruccin de la Madre Primario Eutrfico Desnutrido Total 182 154 336 Secundario 213 138 351 Terciario 203 110 313 598 402 1000 Total

Las Hiptesis nula y alternativas sern: H0: las variables son independientes H1: existe asociacin entre las variables Se calculan las frecuencias esperadas (ei) en caso de independencia: ei = (Total de columna)x (Total de rengln) Gran Total Frecuencias esperadas ( ei ) Estado Nutricional Nivel de Instruccin de la Madre Primario Eutrfico Desnutrido Total 201 135 336 Secundario 210 141 351 Terciario 187 126 313 598 402 1000 Total

Se debe calcular el estadstico de prueba, en este caso corresponde el 2 (CHI CUADRADO). Este estadstico de prueba se calcula sumando las diferencias de las frecuencias observadas y esperadas al cuadrado divididas en las frecuencias esperadas,

2obs=

(o e )
i i

/ ei
Mg. Silvana Torres

- 46 -

Estadstica Inferencial -Ao 2009-

a este estadstico se le calculan los grados de libertad (gl) que son igual al nmero de categoras de la variable (renglones) menos 1 por el nmero de categoras de la otra variable (columnas) menos 1, gl = (r-1)(c-1) Se debe fijar = 0,05

Luego se compara el 2obs con el 2 con (r-1)(c-1) grados de libertad ( este valor se lo busca en la tabla de distribucin del 2 ). Si el 2obs nos da un valor mayor que el 2(r-1)(c-1) la decisin es rechazar H0 y concluir que existe asociacin entre las variables; pero si 2obs es menor que el 2 no se rechaza H0 y se concluye que las variables son independientes, todo esto a un nivel de significacin . Si calculamos 2obs = 7,88 ; y si =0,05 el 20,05;2 =5,991 ; al comparar estos dos valores tomamos la decisin de rechazar H0 y se concluye que el estado nutricional del nio y el nivel de instruccin de la madre estn asociados. Al calcular la prueba a travs de un programa estadstico este nos da un p-value, P=0,0195; al comparar este valor de P con =0,05 la decisin es rechazar H0 ; pero si = 0,01 la decisin es no hay evidencia estadstica suficiente para rechazar H0.

- 47 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

ESTUDIOS ANALITICOS RELACION ENTRE DOS VARIABLES MEDIDAS EN EL MISMO INDIVIDUO Evaluar la asociacin entre dos variables MEDIDAS SUGERIDAS VARIABLES (ANALISIS SUGERIDO) DOS CONTINUAS (n grande) DOS CONTINUAS (n mediano o chico) CONTINUA vs ORDINAL CONTINUA vs NOMINAL CONTINUA vs DICOTOMICA coef. de correlacion de Pearson (r) coef. correlacion de Spearman (rs) coef. correlacion de Kendall () coef. correlacion de Kendall () (TEST DE TENDENCIA DE CUZICK) (ANOVA PARAMETRICO) (NO PARAMETRICO) (TEST T O TEST Z) (TEST MANN-WHITNEY) coef. correlacion de Kendall () DOS ORDINALES (TEST DE TENDENCIA DE CUZICK) (TEST 2 PARA TABLA cxr) (TEST 2 PARA TABLA cxr) ( 2 DE TENDENCIA LINEAL PARA TABLA 2xk) (TEST 2 PARA TABLA cxr) (2 SIN TENDENCIA EN TABLA 2xk) RIESGO RELATIVO ODDS RATIO DOS DICOTOMICAS (2 PARA TABLA 2x2 TEST EXACTO DE FISHER)

ORDINAL Vs NOMINAL ORDINAL Vs DICOTOMICA DOS NOMINALES NONINAL vs DICOTOMICA

- 48 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

COMPARACIN DE DOS GRUPOS INDEPENDIENTES Evaluar influencia de condiciones (Factores o tratamientos) en problemas de salud Ejemplo: Peso al nacer de nios de un grupo de madres con CPN comparado con aquellos de un grupo de madres sin CPN

TIPO DE DATOS CONTINUOS ORDINAL NOMINAL

ANALISIS SUGERIDO TEST DE HIPOTESIS (para grupos independientes)

2 DE TENDENCIA LINEAL EN TABLA 2xk (ms del 80% de las frec. esperadas deben ser > que 5) 2 SIN TENDENCIA PARA TABLA 2xk (ms del 80% de las frec. esperadas deben ser > que 5) 2 PARA TABLA 2x2 (ms del 80% de las frec. esperadas deben ser > que 5)
EXACTO DE FISHER

DICOTMICOS

COMPARACIN DE LA RESPUESTA DE UN GRUPO BAJO DIFERENTES CONDICIONES Evaluar la respuesta a intervenciones (PLS o Tratamientos) sobre los problemas de salud Ejemplo: Presin arterial antes y despus del tratamiento

TIPO DE DATOS CONTINUOS ORDINAL O NOMINAL DICOTMICOS

ANALISIS SUGERIDO TEST DE HIPOTESIS (para grupos pareados) TEST DE SIGNO TEST McNEMAR TEST LIDDELL

- 49 Mg. Silvana Torres

Estadstica Inferencial -Ao 2009-

BIBLIOGRAFA
1. Batellino, Luis y Susana Doronsoro. METODOLOGA DE LA INVESTIGACIN EN SALUD. Universidad Nacional de Crdoba, Facultad de Odontologa. Crdoba. 1994. 2. Dawson-Sanders and Trapp, RG. BIOESTADSTICA MDICA. Ed. Manual Moderno. 1993 3. Hernndez-vila, M; Garrido-Latore, F. y Lpez-Moreno, S. DISEO DE ESTUDIOS EPIDEMIOLGICOS. Salud Pblica de Mxico. Vol. 42, N 2. MarzoAbril 2000. 4. Norman y Striner. BIOESTADSTICA. Harcourt-Brace. Espaa. 1998. 5. Pita-Fernndez, S. TIPOS DE ESTUDIOS CLNICOS EPIDEMIOLGICOS. Madrid. 2001. 6. Kleinbaum, D.G; Kupper, L.L; Morgenstern H. EPIDEMIOLOGIC RESEARCH. PRINCIPLES AND CUANTITATIVE METHODS. Van Nostrand Reinhold Company. 1982 7. Kish, Leslie. MUESTREO DE ENCUESTAS. Editorial Trillas. Mxico. 1979 8. Santana, Mirta. APUNTES DE ESTADSTICA INFERENCIAL. Ctedra

Bioestadstica. Facultad de Medicina. U.N.T. 2000 9. Santana, M; DUrso,M y Lencina, V. BIOESTADSTICA I. Facultad Medicina. UNT. Tucumn. 2004. 10. Walpole y Myers. PROBABILIDAD Y ESTADSTICA .4 Edicin. McGrawHill/Interamericana de Mxico. Mxico. 1991.

- 50 Mg. Silvana Torres

You might also like