You are on page 1of 6

V IBEROLAB

TRATAMIENTOS ESTADSTICOS EN ENSAYOS DE APTITUD: APLICACIN DE LA MEDIANA PARA DETECCIN DE RESULTADOS ANMALOS J. Laso Snchez1 y A. Peris Garca-Patrn1
1

Gabinete de Servicios para la Calidad S.A.L., C/ Caridad 32, 28007 Madrid; e-mail: gscsal@gscsal.com

RESUMEN. El objetivo de este trabajo es analizar diversos sistemas de tratamientos estadsticos para la obtencin de los valores de consenso en los ensayos de aptitud. En este artculo trataremos una nueva sistemtica de tratamiento previo de los resultados de los participantes, alternativa a otros tests de eliminacin de anmalos que utiliza la eficacia de la mediana como elemento de eliminacin, sin la modificacin de los resultados de los participantes. Este test ha sido desarrollado por GSC SAL, y aplicado en mltiples esquemas de intercomparacin desde el ao 2001.

clculo de uno de los parmetros de valoracin o clasificacin de los resultados, cual es el estadstico zscore, aunque tambin son de aplicacin para la estimacin de otros estadsticos de clasificacin, como los En z.

3.- Tests de deteccin de resultados anmalos Sobre la deteccin de resultados estadsticamente anmalos, las normas que establecen sistemticas sobre la existencia de valores atpicos y su tratamiento son fundamentalmente la ISO 5725, as como la ISO 35, en algn caso. La ISO 43 tambin plantea algunas propuestas sobre este tema La orientacin del comportamiento anmalo de los datos ha tenido, hasta el presente reciente, un doble objetivo: por un lado, el descubrimiento de datos anmalos en precisin (normalmente repetibilidad), respecto a la precisin de las medidas aportadas por el conjunto de laboratorios y, por otro lado, el descubrimiento de datos (medias u observaciones individuales) de los participantes que se apartan del valor ms probable asignado por los laboratorios. La deteccin de ambos problemas, de precisin y de exactitud, ha impulsado el desarrollo de diferentes tests, muy conocidos en el campo de la intercomparacin; algunos de ellos se han publicado en Normas Internacionales, como las mencionadas anteriormente. En general, estos tests que identifican los resultados estadsticamente anmalos van encaminados, una vez detectados los mismos, a: a) corregir los datos considerados como tales b) eliminar del conjunto de resultados, aquellos que difieren estadsticamente del resto. Como sea que, generalmente el comportamiento anmalo de los resultados es atribuible a errores humanos, mala aplicacin de los mtodos o de los requisitos de ensayo (por ejemplo, unidades de expresin o clculos finales realizados), la correccin de stos puede no ser la tctica ms plausible, o, cuando menos, es discutible. Una vez detectados (y, bien eliminados, bien corregidos) estos datos, es posible asignar al ejercicio, para el analito objeto de ensayo, los parmetros del mismo, VA y . En la prctica de eliminacin, han cado en desuso los tests de discriminacin por precisin, como son los tests de Cochran. Est demostrado, o, al menos bajo sospecha que, en un

1.- Introduccin La evaluacin de la calidad de los resultados de los ensayos incluye una gran variedad de actividades entre las que se encuentra la realizacin de pruebas de precisin, en diferentes condiciones, o el uso de materiales de referencia, adems de la intercomparacin, cada una de las cuales aporta informacin diferente sobre las caractersticas del mtodo o el mantenimiento de sus propiedades. Es una herramienta absolutamente potente para conseguir otros propsitos: controlar y comprobar nuestras incertidumbres y que stas que declaramos son verdaderas, o incluso llegar a disponer de los datos necesarios para realizar una validacin formal de nuestros mtodos de ensayo. En el caso de los ensayos de intercomparacin, los datos aportados por los laboratorios participantes, a menudo, y, segn corroboran las pruebas experimentales, aparecen distribuidos segn modelos similares a distribuciones normales, a las que, con frecuencia, se aaden observaciones de carcter anmalo respecto del conjunto. El tratamiento previo de estos datos supone minimizar o eliminar el peso estadstico de estas observaciones anmalas, con un objetivo: establecer parmetros adecuados para evaluar los resultados de los laboratorios participantes.

2.- Necesidad de la aplicacin de tests de deteccin de anmalos Recordemos que, el objetivo final de la aplicacin de los tests de deteccin de anmalos es la consecucin de unos buenos y seguros parmetros del ensayo de intercomparacin o del ejercicio, que bsicamente son los que, en la mayor parte de las ocasiones, se emplean para el

J. Laso et al. Tratamientos estadsticos en ensayos de aptitud: Aplicacin de la mediana para deteccin de resultados anmalos.

ensayo de aptitud, la eliminacin por repetibilidad puede considerarse injusta, ya que, a menudo, los laboratorios realizan una interpretacin de las condiciones de ensayo diferentes a las previstas: an cuando los resultados son solicitados como ms de una observacin (duplicados, en general), no siempre el laboratorio informa de stas, o, las observaciones informadas son idnticas o, tan parecidas que, hacen sospechar que la repeticin no se haya realizado, en algn caso, a partir de la muestra inicial, sino slo de una submuestra parte del proceso (por ejemplo, de un mismo extracto el laboratorio realiza dos valoraciones, dos inyecciones, etc). Por otro lado, al tratarse de un ensayo de aptitud y, por tanto, al existir la posibilidad de que los laboratorios puedan aplicar mtodos con diferentes precisiones conocidas, pueden condicionar la eliminacin de algunos datos, respecto a otros, si stos ltimos datos son ms abundantes y proceden de mtodos ms precisos y, por tanto ms empleados. Un caso particularmente ilustrativo es la determinacin de masa volmica por mtodos areomtricos o por densimetra electrnica. As mismo, la eliminacin de un resultado anmalo por repetibilidad no tiene sobre el participante ninguna repercusin, que no sea la de la propia eliminacin del conjunto de datos que valora los parmetros de consenso, ya que, finalmente, la evaluacin del z-score se aplica sobre su resultado medio. Estos tests estn evolucionando en los ensayos de aptitud hacia la prctica desaparicin, aunque, la valoracin de esta repetibilidad puede ser, a nuestro juicio, una herramienta til que permita al laboratorio valorar si su media era o no adecuada y, por tanto, comprender la potencial causa de la obtencin de un z-score no satisfactorio. GSC tambin ha desarrollado una sistemtica de valoracin informativa de la repetibilidad de un laboratorio respecto al conjunto. Siguiendo con la estadstica de deteccin de anmalos, en esta ocasin, de aquellos que se separan ms del valor considerado como ms probable o esperado, han sido muchos los que han sido empleados, por su sencillez e incluso su publicacin didctica en las propias normas de referencia (ejemplo de ellos es el test de Grubbs, publicado con ejemplos de aplicacin en la propia ISO 5725). Entre ellos aunque, actualmente tambin en cierto desuso, por su falta de capacidad de identificacin del resultado anmalo cuando ste se encuentra enmascarado por agrupacin con otro o ms resultados potencialmente anmalos, se encuentran por ejemplo: -Test Q de Dixon, procedente de una prueba de contraste que evala el cumplimiento o no del estadstico Q, calculado, frente al establecido en tablas:

G=

Vsospechoso Vmedio s

(2)

-O su variante Grubbs doble, mediante la estimacin de varianzas de todos los resultados, y tras la eliminacin de las dos ms desfavorables:

G=

2 Sp 1,

S 02

(3)

Dixon ha sido el test empleado en algunos circuitos hasta hace poco tiempo. El problema de la aplicacin de los tests mencionados es que, en general, la eliminacin no es del todo eficaz. La eficacia de identificacin de anmalos y su eliminacin recurrente ha sido demostrada como limitada, en estos casos, ya que su aplicacin supone: a) una poblacin suficiente de datos b) que stos siguen una distribucin prxima a normal c) la no aparicin de datos anmalos mltiples o agrupados. Por ello, y, para vencer la imposibilidad de cumplir, en muchas ocasiones, las anteriores circunstancias, existe una tendencia actual a la aplicacin de procedimientos de deteccin de anmalos basados en estadstica robusta.

4.- Estadsticas robustas en la deteccin de anmalos En este caso, criterios ms modernos se apoyan en estadsticas robustas basadas en propiedades de la mediana que no se ven tan afectados por el tipo de poblacin existente. La aplicacin de la estadstica robusta parece marcar el actual panorama de la deteccin de anmalos, con los que el evaluador decide sobre su eliminacin o transformacin. La Norma ISO 13528, en lo que se refiere al tratamiento de los datos aportados por los participantes se caracteriza por: -Establecer las sistemticas posibles de asignacin de valores al valor central incluyendo la utilizacin de estadstica robusta, y al valor de variabilidad, fundamentndose generalmente en la utilizacin de la objetivo. -Establecer, as mismo, la conveniencia de la comparacin de la realmente obtenida con respecto a la objetivo considerando que no se debe superar esta en un factor crtico de 1,2. Una caracterstica fundamental de la norma es que utiliza todos los valores obtenidos por los participantes, sin descartar ninguno pero modificando aquellos que considera atpicos. El sistema del algoritmo A, establecido en la mencionada Norma, se basa en la realizacin de un proceso recursivo, hasta la convergencia de los datos obtenidos. Obtiene un valor central como media y una desviacin estndar

Q=

Vsospechoso Vms.cercano Vmximo Vmnimo

(1)

-Test de Grubbs, prueba de contraste que emplea el estadstico G, como clculo, comparndolo con tablas:

J. Laso et al. Tratamientos estadsticos en ensayos de aptitud: Aplicacin de la mediana para deteccin de resultados anmalos.

robusta. Si xi es el valor del laboratorio i de total de p laboratorios. x* = mediana (xi) s* = 1,483 mediana /xi x*/ Se calcula = 1,5 s* Se sustituyen los valores iniciales xi segn la siguiente regla: xi*= x* - si xi < x* - x* + si xi > x* + xi, en resto de casos De este modo los datos anmalos, se sustituyen para realizar los clculos por el valor extremo, con lo que: Se calculan los nuevos x* y s* como:

smx =

Medi t( 0,5; n 1)

(6)

Siento t, la t de student, de dos colas, para un =0.50 y los n-1 grados de libertad, equivalentes a los n-1 datos empleados en la estimacin de la mediana. As, hacemos depender la s, y posteriormente, el intervalo de aceptacin, del nmero de participantes n. 5. La smx, permitir establecer un intervalo:

Medi 1,96 smx

(7)

*n

x =

* i

(4)

s*n = 1,134

(x

* i

- x* n

( p - 1)

(5)

Se repite el proceso hasta convergencia.

5.- Estadstica robusta de eliminacin de anmalos Entendiendo que, la estadstica robusta y, el empleo de la mediana como elemento fundamental era el horizonte ms cercano y seguro para la deteccin de anmalos, Gabinete de Servicios para la Calidad ha desarrollado y aplicado, desde el ao 2001 una sistemtica propia. Las suposiciones que subyacen en esta sistemtica son: -La poblacin de los laboratorios sigue una distribucin gaussiana. -Existen laboratorios con resultados anmalos que modifican la distribucin. -Se deben eliminar los valores anmalos para calcular los parmetros reales de la poblacin. -Los valores anmalos se sitan en los extremos. -Los valores centrales permiten estimar los datos reales de la poblacin minimizando la influencia de los anmalos. La sistemtica se desarrolla en los siguientes pasos: 1. Obtencin de la mediana de los resultados aportados por los laboratorios participantes, en adelante Me. Me.=Mediana (xi) 2. Clculo, para cada participante i, del conjunto de participantes p, de la diferencia en valor absoluto, entre el valor obtenido VLi y la Mediana del conjunto Me: di=/VLi-Me/. 3. Obtencin de la mediana de estas diferencias, Medi.: Medi.=Mediana (di) Ese valor debera corresponder al punto donde se sita el 50% de la poblacin. 4. Clculo de la dispersin mxima admisible, estimada en funcin del nmero de laboratorios participantes, con un intervalo de probabilidad del 50 %, segn la ecuacin:

tal que, los resultados que se encuentren fuera de l, se considerarn estadsticamente anmalos, es decir, fuera de la poblacin con esperanza estadstica del 95%, y sern eliminados. Nota: se pueden utilizar otros intervalos, de 99% para mejorar convergencia. Se excluye, pues, en virtud del resultado de la diferencia encontrada entre cada uno de los valores individuales y la mediana resultante, aceptada inicialmente, como la mejor estimacin del valor central. Este test se aplicar de forma recurrente, si se estima necesario, de manera que, finalmente, despus de haber procedido a la eliminacin de anmalos, con los resultados no excluidos se proceder a: -Calcular la media de los mismos, que ser el valor considerado como Valor de Consenso o Valor asignado VA, empleado en la estimacin del z-score. -Calcular la , como desviacin estndar de los datos no excluidos, y que, en general, ser el empleado en la valoracin del z-score.

6.- Evaluacin de los parmetros del ejercicio. Estimacin de la z-score El sistema de eliminacin presentado, incorpora caractersticas particulares, entre las que destacan: -Estimacin de intervalos usando el estadstico mediana, menos sujeto al comportamiento ms o menos normal de la poblacin, especialmente conflictivo cuando los datos son reducidos en nmero. -Adecuacin de los intervalos de aceptacin, en funcin del nmero de participantes (t-student). -No manipulacin o correccin de los datos de los laboratorios a valores lmite que no han sido aportados por los participantes y que no pueden, en muchos casos asegurar. Recordemos que la correccin de datos propuesta en el Algoritmo A, implica asignar a los participantes con resultados inaceptables, los valores lmites, originando valores extremos a ambos lados de la poblacin que, afectan al clculo de una desviacin estndar robusta, ficticia. Con ello, es posible encontrar parmetros de ejercicio con las siguientes caractersticas:

J. Laso et al. Tratamientos estadsticos en ensayos de aptitud: Aplicacin de la mediana para deteccin de resultados anmalos.

-Valor asignado, calculado, siempre que es posible, a travs del valor de consenso de los laboratorios. El valor asignado ser la media de los datos no eliminados por ser estadsticamente anmalos que, de responder a un comportamiento cuasinormal de la poblacin de los datos aceptados, debe coincidir estadsticamente con la mediana. -Establecimiento del valor , que, denotar, el grado de confianza o de seguridad, en el valor asignado empleado en el clculo de la z-score. -Este valor de , calculado como la desviacin estndar experimental puede ser usado, previa valoracin, para el clculo de la z-score, aunque otros esquemas son posibles. -El evaluador debe describir el origen de cada uno de los parmetros del ejercicio, para que, en caso necesario, el participante pueda realizar su propia valoracin, si lo considera oportuno.

Los resultados del Algoritmo A y GSC son equivalentes, habiendo aplicado una nica iteracin (ms iteraciones no producen eliminacin). Por otro lado y, para valorar la adecuacin de la sistemtica presentada, se ha realizado el tratamiento de los datos presentados en los ejemplos del Anexo III del protocolo IUPAC mediante el test de GSC, para confirmar los resultados obtenidos con respecto al sistema propuesto. 7.1 Ejemplo 1 IUPAC Distribucin unimodal y simtrica (propiedad % masa). Los resultados del tratamiento realizado por el sistema GSC fueron los siguientes:
Tabla 3. Resultados del tratamiento por sistema GSC DATOS SISTEMA G.S.C.

7.- Ejemplos de tratamiento


Media

Iniciales 53,103 53,297 1,962 68 0,3805 0,561

Iteracin 1 53,307 53,31 0,5036 60 0,32 0,471

En primera instancia, compararemos el comportamiento de tres de los tests mencionados en el artculo, Test de Grubbs, Algoritmo A y Mediana Robusta de GSC. En este supuesto se obtuvieron los siguientes resultados en una intercomparacin de un metal pesado en alimento (resultados expresados en ppb,s):
Tabla 1. Resultados de intercomparacin de metal pesado en alimento Participante 1 2 3 4 5 6 7 9 10 Media 180,05 350 322,9 126,5 244,99 225 220,8 205,2 181 Participante 11 12 13 14 15 16 17 18 19 Media 198 199 224 222,95 234,65 288,25 210 222,15 241,05

Mediana S N Mediana diferencias Sterica

Se ha utilizado un intervalo 3 para la definicin de lmites de eliminacin, debido a la simetra de la distribucin. En comparacin con los resultados obtenidos al aplicar el Algoritmo A:
Tabla 4. Comparacin de resultados DATOS COMPARATIVOS Algoritmo A Media S N Mediana 53,24 0,64 68 53,30 Sistema GSC 53,306 0,5036 60 53,31

Los datos anotados en cursiva representas los eliminados por el test de GSC, segn se especifica en la tabla resumen, en la que se incluyen los resultados iniciales, y los del tratamiento estadstico de los tests mencionados: Tabla 2. Resultados RESULTADOS DE LOS TESTS Resultados Datos Algoritm Grubbs Iniciales oA sencillo/doble 228 223 51,7 18 228 223 51,7 18 217 223 20,4 18

Parmetro Media Mediana S N

Sistema GSC 215 222 20,3 14

En algoritmo A, Media y S son la media y desviacin tpica robustas. Los resultados obtenidos son equivalentes. 7.2 Ejemplo 2 IUPAC Distribucin unimodal asimtrica (propiedad en ppbs). La representacin en histograma de los datos, muestra una poblacin unimodal y asimtrica:

El problema de muchos de los tests de eliminacin se confirma con lo encontrado en este ejemplo: la imposibilidad de eliminacin de resultados claramente anmalos.

J. Laso et al. Tratamientos estadsticos en ensayos de aptitud: Aplicacin de la mediana para deteccin de resultados anmalos.

Histograma
12 10 8 6 4 2 0 y mayor... -3,71 12,03 27,78 43,53 59,27 75,02 90,77 106,51 122,26 138,00 153,75 169,50 185,24 200,99 -19,46

Anexo III, desde la primera iteracin, con S inferior a las del resto de esquemas, incluso a la terica de Horwitz, adems de una buena coincidencia de media y mediana, coincidente as mismo con la moda de los datos iniciales, mejorando los resultados del Algoritmo A. 7.3 Ejemplo 3 IUPAC
Frecuencia

Frecuencia

Distribucin bimodal (propiedad en ppm), segn se muestra en el siguiente histograma de los datos:
Histograma 2.
Histograma
9 8 7

Clase

Fig. 1. Distribucin unimodal


Frecuencia

6 5 4 3 2

Los resultados de la aplicacin de la estadstica robusta de GSC, lleva a los siguientes resultados, despus de aplicar el test hasta convergencia:
Tabla 5. Resultados de aplicacin de estadstica robusta GSC DATOS sistema G.S.C. Datos Iteracin 1 Iniciales Media Mediana S Mediana diferencias Sterica N 98,64 89 39,37 10,85 15,89 32 85,92 84,74 16,30 6,5 9,51 28 86,63 85 11,73 6 8,76 25 85,53 84,74 10,59 6 8,76 24 Iteracin 2 Iteracin 3

Frecuencia

1 0
,2 4 69 ,6 74 3 ,0 3 78 ,4 2 82 ,8 1 87 ,2 0 91 ,5 9 95 , 10 98 0, 3 10 7 4, 7 10 7 9, 16 11 3, 5 11 5 7, 94 12 2, 3 12 3 y 6,7 m 2 ay or ... 65

Clase

Fig. 2. Distribucin bimodal

Se trata de la ejecucin de un primer ejercicio tras un cambio de sistemtica, que altera la expresin de resultados. La de Horwitz es 7,71 ppm. Los datos obtenidos tras la aplicacin del Sistema de GSC hasta convergencia fueron:
Tabla 7. Datos obtenidos tras aplicacin sistema GSC DATOS SISTEMA G.S.C. Iniciales Media Mediana S 95,69 98,91 14,52 8,09 11,92 65 Serie 1 98,18 101 10,97 6 8,83 57 Serie 2 100,58 101 7,12 5 7,35 47 Serie 3 101,25 101,33 6,47 5,33 7,83 45

Se ha utilizado intervalo 3 debido al tipo de distribucin. La comparacin con los resultados obtenidos tras la aplicacin de otros tests, se muestra a continuacin:
Tabla 6. Comparacin de resultados DATOS COMPARATIVOS Algoritmo A Media S N Mediana 91,45 23,64 32 89 Sistema GSC 85,53

Mediana diferencias S terica

10,59 N 24 84,74

Se ha utilizado intervalo 2 debido a la bimodalidad.


Tabla 8. Algoritmo A/GSC

En el ejemplo del Anexo III, se indica que la estadstica robusta no funciona satisfactoriamente, por lo que se aplica la deteccin mediante utilizacin de densidad Kernel y valoracin de la moda 85,2. La prevista por Horwitz es 19,7. Puede comprobarse que, el Sistema GSC obtiene resultados excelentes de acuerdo a la decisin final del

Algoritmo A Media S N Mediana 95,78 14,63 65 98,89

GSC 101,25 6,47 45 101,33

J. Laso et al. Tratamientos estadsticos en ensayos de aptitud: Aplicacin de la mediana para deteccin de resultados anmalos.

El en Anexo III (IUPAC), se indica que se estudian mediante densidad Kernel, eliminando la moda ms baja, lo que conduce a un resultado asignado de 101,5. En este caso, una vez ms, el sistema GSC lleva a resultados equivalentes a la decisin tomada, mejorando el Algoritmo A, sin tener que llevarse a cabo consideraciones especiales.

en el ensayo, los resultados de su participacin, con sus propios criterios (que no sern otros que los de procedencia o como quiera que hayan documentado, en muchos casos, la definicin de las caractersticas de sus mtodos), como se procedera con la evaluacin del resultado obtenido del anlisis de un material con valor asignado, material de referencia o similar, que es lo que, en la prctica muchos circuitos estn aplicando.

8.- Conclusiones Referencias La estadstica de GSC, que utiliza la mediana como elemento de deteccin de los datos anmalos, se presenta en este artculo como alternativa a otras estadsticas robustas y tests de eliminacin, a los que los mejora ya que: 1. Permite detectar los datos estadsticamente diferentes, para poder eliminarlos, cuando otros tests alternativos no eran capaces, debido, principalmente a la agrupacin de datos conjuntamente anmalos. 2. No modifica los valores de los laboratorios con resultados detectados como diferentes, asignando o cambiando el dato que el laboratorio proporcion como resultado, como algunos algoritmos defienden, creando una poblacin de datos diferentes a los originales, aportados por los participantes. 3. Consigue resultados adecuados cuando la poblacin es de reducido tamao, y tiene en cuenta este tamao, para la estimacin del intervalo de exclusin. 4. La exclusin de datos en el tratamiento previo, no tiene como finalidad valorar la participacin del resultado excluido, sino la obtencin de mejores parmetros de ejercicio, VA y , con los que se valorar el estadstico de clasificacin, z-score o similar. Es posible que resultados excluidos no obtengan z no satisfactoria. 5. Es necesaria la evaluacin de la bondad de los parmetros obtenidos y su seguridad, para proporcionar a los laboratorios una puntuacin relativa al resto, adecuada y justa. 6. La intercomparacin debe proporcionar una informacin, en primera instancia, diferente a la obtenida cuando se analiza una muestra con valor conocido, como puede ser un material de referencia. La intercomparacin limita al laboratorio en : a) el momento en que se realiza el control (que es decidido por el organizador, generalmente). b) el plazo para realizarlo (que suele ser limitado en el tiempo, a pocos das). c) el coste, en muchos casos superior al de la adquisicin de materiales de referencia. d) el natural retardo en la obtencin de la valoracin, lo que conlleva una dificultad adicional en la toma inmediata de decisiones e implantacin de acciones correctivas, cuando es necesario (con un material de referencia, la evaluacin es, en general, inmediata y, la toma de medidas, por consiguiente, tambin). 7. Los laboratorios tienen la posibilidad de valorar siempre, al margen de la evaluacin del proveedor (con la mencionada normalizacin), y con la informacin obtenida
UNE 66543-1IN (ISO Guide 43-1) Ensayos de aptitud por intercomparacin de laboratorios. Parte 1: Desarrollo y aplicacin de programas de ensayos de aptitud ISO 13528:2005 Statistical methods for use in proficiency testing by interlaboratory comparisons. Protocolo IUPAC Technical Report The international harmonized protocol for the proficiency testing of analytical chemistry laboratories. Pure Appl.Chem., Vol 78, n 1, pp.145-196, 2006. M. Thompson, S. L.R. Ellison y R. Wood.

You might also like