Mtodos no paramtricos para la comparacin de dos muestras
Investigacin 109 Mtodos no paramtricos para la comparacin de dos muestras Prtega Daz, S. Unidad de Epidemiologa Clnica y Bioestadstica. Complejo Hospitalario Universitario Juan Canalejo. Pita Fernndez, S. Unidad de Epidemiologa Clnica y Bioestadstica. Complejo Hospitalario Universitario Juan Canalejo A la hora de analizar los datos recogidos para una investigacin, la eleccin de un mtodo de anlisis adecuado es crucial para evitar lle- gar a conclusiones errneas. La seleccin de la tcnica de anlisis ms apropiada ha de hacerse tomando en cuenta distintos aspectos relativos al diseo del estudio y a la naturaleza de los datos que se quieren cuantificar. El nmero de grupos de observaciones a compa- rar, la naturaleza de las mimas (segn se trate de muestras indepen- dientes u observaciones repetidas sobre los mismos individuos), el tipo de datos (variables continuas / cualitativas) o su distribucin de probabilidad son elementos determinantes a la hora de conocer las tcnicas estadsticas que se pueden utilizar 1 . En el anlisis de datos cuantitativos, los mtodos estadsticos ms conocidos y utilizados en la prctica, como el test t de Student o el anlisis de la varianza, se basan en asunciones que no siempre son verificadas por los datos de los que se dispone. As, es frecuente tener que asumir que la variable objeto de inters sigue por ejemplo una distribucin gaussiana. Cuando la ausencia de normalidad es obvia, o no puede ser totalmente asumida por un tamao muestral reducido, suele recurrirse a una transformacin de la variable de inte- rs (por ejemplo, la transformacin logartmica) para simetrizar su distribucin o bien justificar el uso de las tcnicas habituales recu- rriendo a su robustez (esto es, su escasa sensibilidad a la ausencia de normalidad). Existen a su vez otros mtodos, usualmente llama- dos no paramtricos, que no requieren de este tipo de hiptesis sobre la distribucin de los datos, resultan fciles de implementar y pueden calcularse incluso con tamaos de muestra reducidos. En el presente trabajo se describirn algunos de los mtodos no param- tricos ms utilizados en la prctica 1-3 . Dos muestras independientes: la prueba U de Mann-Whitney y la prueba de la suma de rangos de Wilcoxon. En muchas situaciones se desea contrastar si la distribucin de una variable X es igual en dos poblaciones, o bien si dicha varia- ble tiende a ser mayor (o menor) en alguno de los dos grupos, basndose en los datos muestrales. Por ejemplo, puede resultar interesante comparar el descenso de peso en pacientes someti- dos a dos dietas alimenticias distintas, o el nivel de dolor en suje- tos con artrosis que reciben un tratamiento frente a placebo. En la teora estadstica tradicional la prueba que se aplicara para rea- lizar este tipo de comparaciones sera el test t de Student para dos muestras independientes 4 , siendo la U de Mann-Whitney o la prueba de la suma de rangos de Wilcoxon pruebas de carcter no paramtrico equivalentes que podran emplearse tambin en esta situacin. De un modo ms formal, supongamos que se dispone de observa- ciones de una misma variable X (prdida de peso, puntuacin de dolor, etc.) en dos poblaciones distintas sobre muestras de tamao n1 y n2, respectivamente: Poblacin 1: Poblacin 2: Un modo intuitivo de proceder consiste en ordenar las observaciones obtenidas, independientemente de su poblacin de origen, de menor a mayor valor y asignar rangos a los datos as ordenados. De esta forma, a la observacin con un valor ms pequeo se le asigna rango 1, a la siguiente rango 2, y as sucesivamente. En caso de empates (si dos o ms observaciones coinciden en valor) se le asig- nar a cada una de estas observaciones el promedio de los rangos que les seran asignados si no hubiese empate. Si no existiesen diferencias en la distribucin entre ambas poblacio- nes, los rangos deberan mezclarse aleatoriamente entre las dos muestras. En cambio, si la suma de los rangos asignados a las obser- vaciones de una de las poblaciones resulta mucho mayor que la suma de los rangos asignados a las observaciones de la otra pobla- cin, esto indicara una diferencia en la distribucin de la variable X entre ambas. Cad Aten Primaria Ao 2006 Volumen 13 Pg. 109-113 110 Investigacin CADERNOS CADERNOS de atencin primaria de atencin primaria Mtodos no paramtricos para la comparacin de dos muestras Denotemos por el rango asignado a cada una de las observaciones disponibles. Consideraremos como estadstico de contraste para la prueba de la suma de rangos de Wilcoxon la suma de los rangos en una de las poblaciones: La distribucin de probabilidad de los estadsticos anteriores ha sido tabulada para tamaos de muestra pequeos y en el caso de no exis- tir empates (Tabla 1). As, la Tabla 1 sirve para conocer si el resulta- do es significativo a nivel bilateral si se trabaja con una seguridad del 95% y tamaos muestrales <15. Para tamaos muestrales mayores (>15), es adecuado utilizar la aproximacin normal, obteniendo a partir de T la variable: donde m T y T son la media y desviacin estndar de T si la hipte- sis nula es cierta, y vienen dadas por las siguientes frmulas: El nmero de empates debe ser adems pequeo en relacin con el nmero total de observaciones. En el caso de empates, la varian- za del estadstico T debe modificarse, de modo que la expresin anterior quedara como sigue: Una vez obtenido el valor de z ste se debe referir a las tablas de la distribucin normal para obtener el valor de significacin asociado 5 . Para ilustrar el uso de esta prueba, consideraremos los datos de la Tabla 2, correspondiente a los valores de medicin del dolor (en una escala de 0 a 10) en dos grupos de 11 pacientes sometidos a dos tratamientos analgsicos diferentes. En este caso n 1 =n 2 =11. La suma de los rangos asignados a las observaciones del primer grupo es T=171, y su media . Puesto que la suma de rangos obtenida supera a la esperada, consi- deraremos como estadstico final T=171-126,5=44,5, y lo referire- mos a los valores en la Tabla 1. Trabajando con un planteamiento bilateral y una seguridad del 95%, la regin de rechazo corresponde a valores de T menores o iguales a 96, por lo cual se rechazara la hiptesis nula de igual nivel de dolor en ambos grupos de tratamien- to con un nivel de significacin p<0.05. En el ejemplo propuesto podemos comprobar el resultado que se obtendra al utilizar la aproximacin normal. Tal y como vimos: Con lo cual se utilizara el estadstico: que debe referirse a los valores de una distribucin normal estndar 5 . As, se obtiene p=0,002, concluyndose igualmente que el nivel de dolor es diferente segn la terapia analgsica utilizada. Por otra parte, es frecuente referirse a la prueba de la suma de ran- gos de Wilcoxon con el nombre de prueba U de Mann-Whitney. En realidad, son dos pruebas diferentes, aunque esencialmente equiva- lentes entre s. Para el clculo de la prueba U de Mann-Whitney, en lugar de la suma de rangos se calcularn los valores: U 12 : el nmero de pares para los cuales una observacin de la pri- mera poblacin es inferior a una observacin de la segunda pobla- cin, . TABLA 1 Percentiles 95 para la prueba de la suma de rangos de 2 muestras de Wilcoxon. TABLA 2 Valores de medicin del dolor (en una escala de 0 a 10) en dos grupos de pacientes sometidos a dos tratamientos analgsicos diferentes. CADERNOS CADERNOS de atencin primaria de atencin primaria Mtodos no paramtricos para la comparacin de dos muestras Investigacin 111 U 21 : el nmero de pares para los cuales una observacin de la pri- mera poblacin es superior a una observacin de la segunda pobla- cin, . En caso de empate se contabilizarn 0,5 unidades a mayores en cada una de las cantidades anteriores. De forma anloga a como ocurra con la prueba anterior, valores bajos de U 12 indicarn una diferencia hacia valores ms altos de la variable en la primera pobla- cin, mientras que valores altos indicarn que estos tienden a ser ms altos en la segunda poblacin. Los parmetros anteriores se relacionan con el estadstico T descrito anteriormente mediante la siguiente ecuacin: De forma que a partir del estadstico U puede obtenerse inmediata- mente el valor del estadstico de Wilcoxon y utilizar la metodologa anterior para obtener el valor de significacin asociado. De hecho, la mayor parte de programas estadsticos, como el SPSS, muestran en sus salidas los valores de ambos estadsticos, junto con un p-valor comn, bien calculado a partir de la aproximacin asinttica median- te una distribucin normal o a partir de las tabulaciones correspon- dientes, corrigiendo la posibilidad de empates. Otra prueba equiva- lente aunque menos conocida es la S de Kendall, calculada segn S= U 12 - U 21 . Por ltimo, decir que al igual que el anlisis de la varianza en el abor- daje estadstico tradicional extiende la prueba t de Student al caso en el que se quieran comparar ms de dos grupos, el test de Kruskall-Wallis es una extensin natural de la prueba de Mann- Whitney a esta situacin. Para su clculo se ordenarn las N observaciones obtenidas, independientemente de su poblacin de ori- gen, de menor a mayor valor y se asignarn los rangos correspondientes. El estadstico de contraste para la prueba de Kruskall-Wallis vendr dado por: donde N denota al nmero total de observa- ciones en los k grupos que se comparan, es el promedio de los rangos de las observaciones del i-simo grupo y el pro- medio de todos los rangos. As definido, el estadstico H sigue una distribucin x 2 con k- 1 grados de libertad. Dos muestras relacionadas: la prueba del signo y la prueba de la suma de rangos con signo de Wilcoxon. Otra situacin muy frecuente es aquella en la que se desea compa- rar la distribucin de una variable X en dos muestras de casos apare- ados, usualmente sobre los mismos individuos en dos momentos diferentes de tiempo. Por ejemplo, puede quererse comparar el nivel de dolor en una articulacin antes y despus de un tratamiento con infiltraciones, o el peso antes y despus de someterse a algn pro- grama de adelgazamiento. En estas situaciones, es lgico trabajar con la diferencia de las observaciones entre ambos momentos (prdida de peso, disminucin del nivel de dolor, etc.): donde aqu denotan los valores observados de la varia- ble X en n individuos en el primer instante y los valores observados en un instante posterior. Una forma sencilla de proceder consiste en contabilizar el nmero r de diferencias positivas y el nmero s de diferencias negativas (sin contar los valores 0). Bajo la hiptesis nula de que no existen diferen- cias, ser igualmente probable obtener una diferencia positiva o nega- tiva, por lo que ambos valores se distribuirn segn una distribucin TABLA 3 Tabla de la distribucin binomial acumulada Bi (n,p) con p=1/2. 112 Investigacin CADERNOS CADERNOS de atencin primaria de atencin primaria Mtodos no paramtricos para la comparacin de dos muestras binomial de parmetros Bi(r+s,1/2). Recurriendo a las tablas de la dis- tribucin binomial, podemos obtener a partir de r (o, equivalentemen- te, de s) el valor exacto de significacin asociado (Tabla 3). Como ejemplo, utilizaremos los datos de la Tabla 4 en la que se muestra la prdida de peso alcanzada por 20 sujetos sometidos a un programa de adelgazamiento. El nmero de observaciones positivas (pacientes que realmente perdieron peso) es r=14, mientras que el nmero de observaciones negativas (pacientes que ganaron peso) es s=6. Refiriendo estos valores a los de una distribucin binomial de parmetros Bi(20,1/2) se obtiene un valor de p=2x0,058=0,116, por lo que no puede concluirse que exista una prdida de peso sig- nificativa en los pacientes estudiados. Para tamaos muestrales grandes (n>20) puede utilizarse como estadstico de contraste: que seguir aproximadamente una distribucin normal estndar N(0,1). En el ejemplo anterior: Si referimos el valor obtenido a la funcin de probabilidad de una dis- tribucin N(0,1) se obtiene p=0.075, no resultando en un valor sig- nificativo tal y como ocurra con la aproximacin por la binomial. La prueba del signo, tal y como se denomina a la prueba que se acaba de describir, presenta como mayor limitacin el hecho de que no tiene en cuenta la magnitud (positiva o negativa) de las observa- ciones. As, puede ocurrir que existan muchas diferencias positivas pero de escasa magnitud (pacientes que pierden peso pero en poco volumen) y pocas diferencias negativas pero de mucha mayor impor- tancia (pacientes que ganan mucho peso). Este tipo de situaciones deberan reducir la posibilidad de encontrar diferencias significativas entre las observaciones. La prueba de la suma de rangos con signo de Wilcoxon toma en con- sideracin la deficiencia anterior. Las observaciones se ordenan de menor a mayor valor absoluto y se les asignan rangos (ignorando los valores nulos y actuando igual que en el caso de la prueba de suma de rangos ante empates). Se utilizar como estadstico de contraste la suma T + de los rangos asignados a valores positivos o bien la suma T - de los rangos asignados a valores negativos. Para valores peque- os de n, la distribucin de T + y T - est completamente tabulada, y puede utilizarse para obtener los valores crticos del test (Tabla 5). En el caso de muestras grandes (n>20), la distribucin de T + y T - puede aproximarse por la de una variable normal. As, realizando la transfor- macin: TABLA 5 Valores crticos para la prueba de la suma de rangos con signo de Wilco- xon segn el tamao de muestra y el nivel de significacin asociado TABLA 4 Valores del peso en una muestra de 20 pacientes antes y despus de someterse a un programa de adelgazamiento. CADERNOS CADERNOS de atencin primaria de atencin primaria Mtodos no paramtricos para la comparacin de dos muestras Investigacin 113 Obviamente, el tipo de procedimientos aqu expuestos permiten cubrir slo una pequea parte de las situaciones que se nos pueden plantear en la prctica. En la mayora de las ocasiones, se dispone de informacin en una gran cantidad de variables, lo cual requiere recu- rrir a otros mtodos de anlisis que no slo permitan estudiar las rela- ciones entre un par de variables, sino estudiar el efecto conjunto de todas ellas. BIBLIOGRAFA 1. Altman D.G. Practical Statistics for Medical Research. London: Chapman & Hall, 1991. 2. Armitage P., Berry G. Estadstica para la investigacin biomdica. Barcelona: Doyma, 1992. 3. Milton J.S., Tsokos J.O.. Estadstica para biologa y ciencias de la salud. Madrid: Interamericana_McGraw Hill; 1989. 4. Prtega Daz S, Pita Fernndez S. Mtodos paramtricos para la comparacin de dos medias. T de Student. Cad Aten Primaria 2001; 8. 37-41 5. Prtega Daz S, Pita Fernndez S. La distribucin normal. Cad Aten Primaria 2001; 8: 268-274. la distribucin asociada es la de una normal estndar (donde n' es el nmero de observaciones no nulas). Al igual que ocurra en la prueba de la suma de rangos para mues- tras independientes, en caso de empate la varianza del estadstico vara y debera efectuarse alguna correccin en la expresin anterior. As mismo, los valores crticos en la Tabla 5 para el caso de empates suelen resultar algo conservadores, es decir, con empates se tende- r a aceptar la hiptesis nula de no diferencias cuando en realidad sta debera ser rechazada. Volviendo al ejemplo anterior, y tras ordenar las observaciones en la Tabla 4 de menor a mayor valor absoluto, se obtiene las sumas de rangos T + =178,5 y T - =31,5 correspondientes a las observaciones con prdida o ganancia de peso, respectivamente. Refiriendo estos valores a los que se muestran en la Tabla 5 con n=20, se obtiene un valor de p<0.01. www. agamfec .com A revista Cadernos de Atencin Primaria accesible por internet (www.agamfec.com). Os autores que o desexen poden presentar material complementario na pxina web (enquisas utilizadas, anexos, aspectos metodolxicos mis detallados, fotos,...). Este tipo de material enviarase de modo diferenciado ao resto do texto. Cando algn traballo incla material adicional na pxina web, ste identificarase na revista con esta imaxe. Ma t e r i a l a d i c i o n a l e n I n t e r n e t Informacin I n f o r m a c i n I nf o r ma c i n Cadernos de Atencin Primaria