11 Clase Método 25 de Mayo Kena

CLASE MTODO 25 DE MAYO.
Hoy da vamos a terminar de ver el anlisis estadstico y vamos a comenzar con un tema que es el tipo de anlisis estadstico no paramtrico. -Entonces el objetivo de esta clase es que ustedes conozcan, vamos a profundizar sobre todo cules son las caractersticas que tienen que tener las muestras para poder usar en ellas anlisis paramtrico. -Vamos a ver las limitaciones de los test paramtricos y ver entonces cuando las muestras no cumplen con esos requisitos, qu tipo de anlisis estadstico se pueden emplear. La idea en sentido que existen muchos test no paramtricos, la idea no es conocerlos todos, sino que, vamos a ver los ms relevantes.
Bueno, como hemos visto antes los test estadsticos se utilizan, son para cumplir distintas funciones. 1) Para describir las muestras: y nosotros habamos visto que habitualmente se utilizan un indicador central (la mediana, el modo), y uno de dispersin. 2) Y tambin lo podemos utilizar para validar la hiptesis nula (verificacin de la hiptesis nula). 3) Y para estimar los parmetros de la poblacin de manera de poder comparar dos muestras entre s. Estos son principios generales y como vamos a ver ahora, sirven para todo tipo de anlisis estadstico.
Los test estadsticos paramtricos que hemos visto hasta el momento son los siguientes: -Para comparar dos muestras se utiliza el test de t, eso lo vimos la semana pasada. El test de t hay 2 formas de calcular el valor de t y eso es lo que hace que haya que fijarse si los investigadores usaron el test de t para muestras independientes o el test de t para muestras pareadas. (porque eso tambin lo vimos la semana pasada, cuando uno analiza muestras independientes, como despus muestras pareadas, el resultado del test de t les puede dar una diferencia estadsticamente significativa, pero que no tiene ningn valor desde el punto de vista de interpretacin de los resultados porque corresponden solamente a un anlisis errado de los resultados. Yo les pido a ustedes que se fijen en esto, porque este es uno de los errores que se comete habitualmente en la metodologa. Los autores como estn tan encariados con la hiptesis alternativa y quieren demostrar que existe una diferencia, a veces entonces, utilizan un test que no es Lo que yo quiero es que sean lo suficientemente crticos como para darse cuenta si los test que se aplican en el estudio son los que corresponden o no.
-Si no se tienen 2 muestras, sino que se tienen 3 o ms muestras, ya no es lcito comprar las muestras, todas las muestras entre s usando el test de t. La razn de esto tambin se los haba dicho antes. Cuando uno tiene por ejemplo supongamos 4 muestras, y comparan n1 con n2, n1 con n3, n1 con n4, cuando uno realiza mltiples comparaciones, simplemente por azar una de stas les puede dar resultados estadsticamente significativos. Entonces eso no est permitido, en general. Ahora, hay una forma de hacerlo, pero eso significa que hay que aumentar la (no, mejor ni se los digo porque se van a confundir).
*Cuando son 2 muestras se usa test de t. *Cuando son ms de 2 muestras hay que usar ANOVA (anlisis de varianza). El ANOVA, vimos que hay ANOVA unidimensional (que es el ANOVA simple), en la cual los resultados se ponen en columnas. Pueden ser por ej. 3 variables distintas que se midan por ejemplo efecto de la temperatura, de la duracin de la luz y de la alimentacin sobre el peso de los animales por ejemplo. Eso sera un ANOVA de tipo simple o ANOVA de tipo unidimensional. Pero si yo quiero ver por ejemplo el efecto de estas 3 situaciones, de estas 3 variables en 2 tipos de animales en animales hembra y en animales macho, tengo que usar una comparacin ANOVA que ms encima es multifactorial. (Pero en ningn caso el test de t). Cuando si yo quiero hacer es ver que existe una asociacin entre las variables, no que haya una diferencia estadsticamente significativa, sino que una asociacin, lo que se usa habitualmente es el coeficiente de Pearson, el coeficiente de correlacin, que fue el que vimos, para estadsticas paramtrica.
Lo que ocurre entonces, que para poder aplicar estadstica paramtrica, existen 3 supuestos que tienen que cumplir: (Yo les he hablado de los supuestos, pero esto es lo que vamos a ver hoy da, cules son estos supuestos y cundo no se cumplen). Lo que ocurre es que para aplicar estadstica paramtrica, los matemticos han desarrollado una frmula que es vlida siempre y cuando se cumplan ciertas condiciones. Y esas son las condiciones de los test paramtricos. Por lo tanto si uno aplica un test paramtrico que no cumpla las condiciones, de poderlo aplicar se puede, el problema es que las conclusiones no son porque no se cumple con las bases.
Entonces la primera situacin que es indispensable es que la variable sea de tipo cuantitativa, no importa que sea continua o sea discreta, pero tiene que ser una variable cuantitativa (en la que se puede sacar promedio, porque todos estos test se basan justamente en diferencias entre las muestras). Si la variable no es continua, no se puede utilizar estadstica paramtrica. Otra condicin es que la variable estudiada tiene que tener una distribucin normal en la poblacin de la cual se obtienen las muestras. Qu significa esto? Supngase que ustedes toman una muestra, y que en la muestra la variable no tiene una distribucin normal (esto puede ocurrir que la muestra es muy pequea por ejemplo). Pero si la variable tiene una distribucin normal en la poblacin es lcito aplicar estadstica paramtrica. El otro supuesto del cual nosotros no hemos conversado mucho es que la variabilidad entre las dos muestras que estn comparando o las 3 o 4 que tiene una ANOVA tienen que tener una varianza similar. Yo les voy a mostrar despus cmo se puede calcular eso. Porque si las varianzas supongamos que las varianzas son muy muy muy muy dismiles esto ya queda fuera de los supuestos de los clculos matemticos que uno puede comparar. El otro supuesto que menos se cumple es que el nmero de sujetos en las muestra es grande. Idealmente ms de 30 pero en realidad se aceptan como hasta 10. Pero el ideal estamos hablando de 30. R= *La varianza es la desviacin standard elevada al cuadrado. La SD es esa que ustedes conocen, y eso elevado al cuadrado se llama la varianza. Y la varianza de la muestra 1 en relacin a la varianza de la muestra 2 tiene que tener una cierta magnitud. Si son muy muy muy diferentes no se puede aplicar, pero acepta bastante variacin, por lo tanto generalmente se cumple que las varianzas son aceptables. Yo les voy a mostrar una frmula de clculo que ustedes pueden aplicar si quieren despus para ver si los investigadores aplicaron correctamente los pesos. R=* Acurdate que el resultado se describe como promedio ms menos la SD. La SD elevada al cuadrado es la varianza. Y lo que se compara ac son las varianzas de las 2 muestras. R=*La desviacin standard es la que t usas para describir tu muestra. Ahora suponte que t tienes 2 muestras que quieres comparar, cada una tiene su promedio y su SD, y est bien, as describes la muestra.
Pero t despus quieres ver que estas 2 muestras estadsticamente son iguales o son distintas, y quieres aplicar un test de t por ej. Ahora que el test de t sea aplicable a esa muestra, la variabilidad de las muestras deben estar en un cierto rango, ambas, y eso es lo que se dice que tienen que tener ms posibilidad de varianza, osea, que tienen que estar dentro de un cierto rango. Sin embargo, eso de la posibilidad de varianza, las diferencias que se especta de las varianzas es bastante grande. Yo les voy a mostrar unos ciertos valores para que ustedes vean bien. Por eso que, esto en general se cumple, las varianzas son similares. Generalmente tambin se cumple que la variable tiene una distribucin normal en la poblacin. Y por supuesto tiene que cumplirse que las variables que uno est estudiando son cuantitativas. La que no se cumple muchas veces, es que, porque muchos investigadores aplican el test paramtrico a muestras pequeas. Entonces esto se considera pecado..., y hasta cierto punto es aceptable, no es lo deseable, pero uno dice bueno ya. Cumplindose todos los otros requisitos, este es menos grave, pero tiene un lmite : cuando la muestra es demasiado chica, ya no se pueden aplicar test paramtricos, y hay que aplicar test no paramtricos. Entonces si los supuestos en relacin a las variables que yo estoy estudiando son ciertas, uno puede decir que con estos resultados podemos concluir que lo que quiera que sea que uno concluya con el estudio. Entonces lo que ustedes tienen que fijarse es que las conclusiones de los autores, correspondan y son vlidas siempre y cuando el test que ellos hayan aplicado es un test estadstico adecuado al tipo de datos que se tienen. El error ms frecuente es que analizan con estadstica paramtrica datos que no tienen una distribucin normal. Y el otro error cometido es que las muestras no sean muy grandes.
Entonces deseable es que las muestras tengan ms de 30, n grande. Pero se acepta como hasta alrededor de un n de 10. Hasta ah uno dice bueno ya. Entonces estos son en general las caractersticas de los test paramtricos. Cules son los test paramtrico ms usados? Los que vimos antes, el test de t, la ANOVA y el anlisis de correlacin. Entonces cules son las caractersticas en general, son resistentes se dice que frente a pequeas desviaciones de la normalidad (que la variable no sea perfectamente normal, no importa). Y los supuestos que se han hecho aceptan una curva aproximadamente normal. Si la curva es totalmente asimtrica, o sea, si la variable se distribuye en la poblacin de manera absolutamente asimtrica, ah hay que usar un test no paramtrico para analizarla. En general es lo que yo les deca, se acepta, aunque el n deseable es 30, se acepta que el tamao de la muestra sea hasta alrededor de 10. La razn de esto porque la estadstica paramtrica es mucho ms potente que la no paramtrica y hay anlisis que se pueden hacer en la paramtrica que no se pueden hacer en la no paramtrica. Entonces por esto les digo que esto se considera casi como pecado de bien. Y el ANOVA el ideal es que todas las columnas tengan el mismo nmero de sujetos, pero no es indispensable. En una ANOVA simple puede que alguna de las columnas tenga menos casos que los otros, y esto se da por ejemplo cuando uno est analizando una situacin, por ejemplo yo estudi hace poco las modalidades preferentes de aprendizaje de los estudiantes, de medicina y de LICAF de la USACH, y tena 4 opciones de modalidades: visual, auditivo, lectoescritura y kinestsico .Y yo tena que medir, entonces la cantidad de las distintas variables que yo tuve es la proporcin en que se di la variable en el grupo que yo estudi, y tena muchos menos por ejemplo auditivo que lectoescritura por ejemplo. Pero como tena las 4 columnas, les pude hacer un anlisis de varianza. O sea, no es necesario que el nmero de sujetos en cada una de las columnas sea la misma para hacer un anlisis de varianza unidireccional. En el bitrimensional, ah ya es ms complicado y ah se habla de que todas las columnas tengan el mismo n.
Entonces, es robusto frente a pequeas anormalidades pero siempre y cuando las columnas tengan el mismo nmero. El ideal es que las columnas tengan el mismo nmero de datos, pero si no lo tienen, se puede aplicar ANOVA de todas maneras. Entonces, el n es importante que lo recuerden, que la variable tiene que ser aproximadamente normal es FUNDAMENTAL. El error ms frecuente que comenten, cuando yo les pongo una prueba, es que le aplican test estadsticos paramtricos a variables que no tienen distribucin normal cuando yo les doy datos que les permitan a ustedes saber si la variable es normal o no. Si la variable no tiene distribucin normal, aunque tenga 10 sujetos por muestra, hay que aplicar estadstica no paramtrica, ese es el requisito ms importante. Entonces estos son los factores limitantes para aplicar estadstica paramtrica.
Cmo evaluamos normalidad? Cmo vamos a saber nosotros si la variable que est midiendo el investigador tiene no una distribucin normal. Bueno lo ms fcil es hacer un grfico, que es lo que yo les digo siempre. Grafiquen la variable y vean qu forma les da en la muestra que tienen. Si la muestra tiene un tamao decente, o sea, son 30 sujetos, ya es suficiente como para ver si la distribucin es aproximadamente normal o absolutamente de otra manera, mirando la forma de la curva en el histograma. Y lo otro que sirve y es muy conveniente, es el grfico de cajas. El grfico de cajas es el que hemos usado nosotros para evaluar los resultados del EUNACOM en nuestros egresados. Mirando el grfico de cajas, uno ve al tiro si la mediana est al medio del intervalo intercuartil y las dos patitas de los dos extremos son de longitud parecidas, la variable tiene distribucin normal. Si el valor de la mediana est corrido hacia el Q1 o corrido hacia el Q3, la distribucin ya no es simtrica, porque recuerden que este valor es la mediana. Y si la mediana est corrida hacia uno de los extremos,
quiere decir que la distribucin ya no es central, no es simtrica. Ok, si no pueden hacer un grfico porque no tienen los datos, y les dan solamente el valor del promedio y la SD, hay una forma de saber. Si el valor de la media, les voy a hacer un dibujo para que sea ms claro. Uno normalmente pone el valor promedio ms menos la SD, cierto, y esto significa que si tenemos aqu la media, ah tenemos la SD. Y recuerden ustedes que se considera normal el dato si nosotros tenemos el valor promedio ms menos aproximadamente 2 veces el ERROR STANDARD. Entonces si la media es menor que dos veces la SD, o sea, si yo a este valor le resto 2 veces la SD y me paso para ac, se .. que la variable.. distribucin normal. Es una forma de hacer un clculo rapidito cuando a ustedes les entreguen los resultados. Lo otro, esta es la relacin entre las varianzas, esto se refiere a la varianza del promedio que tiene e.. si yo estoy comparando dos muestras, tengo un promedio 1 y tengo un promedio 2. Entonces se pone siempre en el numerador con una varianza 1 y una varianza 2. Usted pone siempre en el numerador la varianza que sea ms grande. Ya?, la varianza que es ms grande dividida por la varianza que es ms chica y se va a una tabla que es donde graficaron las varianzas y dice ah hasta cunto se acepta. Si la razn de las varianzas es muy grande, quiere decir que la diferencia de las varianzas tambin es muy grande. Si el valor de la varianza calculado en este es mayor que el aceptado en la tabla, para los grados de libertad que estudia, uno dice no se puede aplicar estadstica paramtrica. Generalmente se cumple que las varianzas son aproximadamente similares, pero esta tabla le permite a uno ser bien estricto y evaluar si las varianzas de las muestras son similares o no. La otra forma que es muy sofisticada eso no lo hace casi nadie, es calcular el indicador de simetra. Se calcula cunto es la simetra de la curva y para esto s hay que tener datos de la simetra y datos de la curtosis. Son anlisis de la forma de la curva y yo se los traigo simplemente como informacin. Yo a ninguno de ustedes nunca jams en una prueba les voy a pedir que me calculen el indicador de simetra. Es solamente para su conocimiento.
Ahora, qu es lo que ocurre. Hay veces que uno tiene una muestra que no tiene una distribucin normal en la poblacin. Sin embargo, nosotros hemos visto asociacin lineal. Qu hace el investigador cuando se le presenta esta situacin?. Lo que ocurre es que los test estadsticos estn hechos para esos tipos de distribucin y las asociaciones estn hechas para la asociacin de tipo lineal. No se han inventado muchos clculos estadsticos para relaciones de otro nombre. Entonces lo que hace el investigador, debe aplicar un test que sea adecuado con la relacin no lineal trata de transformar en lineal las variables que tiene. Si una variable tiene esta forma, esto es algo que pueden ver con frecuencia en bioqumica, crece al comienzo y despus se mantiene constante, esta cosa no es lineal. Entonces, qu se hace en la investigacin, o bien, analizan la parte lineal de la curva o transforman la curva en lineal aplicando una transformacin matemtica que ustedes .. directamente la variable ver el logaritmo de la variable. Por ejemplo el logaritmo de la variable . Y transforman una relacin que era de este tipo en una relacin de este tipo y ahora entonces ahora al log de le aplican el anlisis estadstico. Y esto es lo que se llama NORMALIZAR LOS DATOS. La forma ms frecuente que van a encontrar ustedes de normalizar los datos es que le aplican el logaritmo, no es la nica, hay otras que son ms complicadas, pero esta es la ms frecuente. Una que se utiliza pero que no le gusta mucho a los estadsticos es el log log, cuando tienen que aplicarle logaritmo a las dos escalas, los matemticos dicen sabe que ms bsquese otro sistema. Pero en la investigacin cientfica biomdica se da. Entonces lo importante es que la curva tenga una distribucin normal y que las relaciones entre las variables sean lineales. Cuando las relaciones no son lineales, se NORMALIZA la variable habitualmente aplicndole la relacin logartmica y se trabaja con el logaritmo del dato en vez de con el dato que se tiene. Esto generalmente se hace para eliminar la asimetra y como el log es un nmero que entre 1 y 100 es la misma distancia que entre 100 y 1000, entonces todas las diferencias se achican y al aplicarse las diferencias pueden utilizar estadstica paramtrica. La verdad es que es una herramienta matemtica que le permite al investigador utilizar un anlisis estadstico que de otra manera no habra sido aplicable.
Qu es lo que hacemos si la muestra que estamos estudiando tiene una variable que no cumple con estas condiciones? Se usa una estadstica que no tiene condicin que se llama estadstica no paramtrica. La diferencia ms importante entre la estadstica de tipo paramtrica y la de tipo no paramtrica es que la paramtrica establece un conjunto de limitacin, distribucin normal es la ms importante, un n aceptable, de varianza. Esta otra no pone ningn lmite, pueden tener muestras con distribucin simtrica o asimtrica. Pueden utilizar tambin estadstica no paramtrica para analizar variables que tienen distribucin normal, es posible porque la no paramtrica no pone lmites. Las conclusiones son vlidas independiente de la forma de distribucin que tenga la variable o del nmero de sujetos que tenga la muestra. Hay veces que uno trabaja con muestras chiquititas (6,7) y con eso ya no es lcito aplicar estadstica paramtrica. Aplico estadstica no paramtrica y derivo mis conclusiones. Si uso estadstica no paramtrica dnde voy a poner el punto crtico de corte para el P? Porque aqu tambin se ve cul es la probabilidad de que las dos muestras que yo estoy comparando sean iguales. La hiptesis nula es la misma. Cul sera el P crtico para muestras no paramtricas? Ms exigente o menos exigente que para la paramtrica? *Es exactamente igual. El punto crtico de corte es P inferior a 0,05. As que no tienen que aprenderse ningn otro valor. El punto crtico de corte aceptado es el mismo.
Cules son entonces las desventajas, por qu no solo usan estadstica no paramtrica y no tiene que complicarse con la varianza, con las muestras grandes, con la distribucin de la muestra? Es que la potencia del test, o sea, la capacidad de discriminar diferencias entre dos muestras es menor en los test no paramtricos que en los paramtricos. Entonces por eso de preferencia el investigador prefiere usar test paramtricos. Y lo otro, y esto es mucho ms importante, hay una ANOVA no paramtrica, pero la ANOVA no paramtrica no tiene test post hoc. No tiene, nadie los ha podido describir hasta el momento. Por lo tanto, si uno aplica estadstica no paramtrica a una ANOVA, P me va a salir P inferior a 0,05 y uno dice ok, tengo diferencia entre mis muestras. Supongamos que tenemos 3 muestras: n1, n2, n3. Pero no puedo aplicarle luego un test que me diga entre cules de las 3 muestras estn mis diferencias estadsticamente significativas. Debido a esa desventaja que es bien importante, los autores que aplican la ANOVA, aplican estadstica paramtrica casi siempre, y casi nadie aplica estadstica no paramtrica, aunque no cumpla estrictamente con las condiciones que exige el test paramtrico. Pero es importante que ustedes lo conozcan, cules son las limitaciones porque cuando uno aplica estadstica paramtrica o cuando no corresponde, las conclusiones en realidad desde el punto de vista estricto de la estadstica no son total y absolutamente vlidas.
Ok, entonces cules son las caractersticas de estos test no paramtricos: Las estadsticas no paramtricas pueden ocuparse como les deca, siempre, o sea, si yo tengo una muestra que tiene distribucin normal o estoy comparando 2 muestras, y tengo un n de 30 yo podra usar estadstica paramtrica, podra tambin usar estadstica no paramtrica. Pudiendo usar las dos, cul escojo como investigador? Escojo la paramtrica siempre que se pueda, y escojo la paramtrica cuando no me queda otra. Entonces cundo puedo usar la estadstica no paramtrica?, Cuando la distribucin de la variable sea claramente no normal o bien cuando no se conoce cul es la distribucin de la variable, y esto se ve de repente pasar. Tienen una muestra y no saben si la variable tiene distribucin normal en la poblacin. Si la variable no tuviera distribucin normal no es lcito
aplicar estadstica paramtrica, por lo tanto voy y aplico un test no paramtrico y puedo tomar mis conclusiones con toda tranquilidad. La otra causa importante es cuando la muestra es pequea. Hay veces que no es posible tener una muestra .. por distintas razones. (financieras, econmicas, dificultad en la preparacin u otros). Entonces cuando la muestra es pequea no se puede aplicar una estadstica paramtrica porque no alcanza la ecuacin que subyace al anlisis paramtrico, es incapaz de detectar la distribucin simtrica para comparar las muestras. Recuerdan que la idea es ver si una curva cunto se sobrepone con la otra. Cuando la muestra es muy pequea, el test no es capaz de discriminar por lo tanto hay que aplicar estadstica no paramtrica. Y por supuesto cuando la variable no es cuantitativa. Si ustedes tienen una variable nominal, no pueden aplicar estadstica paramtrica porque no pueden sacar promedio, qu promedio le van a sacar por ejemplo si estamos analizando como en la ltima prueba, que haba una definicin de la caracterstica de los sujetos que uno son dueos de casa, jubilados, mayores de 60, o con enfermedades neurolgicas. Ah ni siquiera pueden sacar promedio, promedio de qu van a sacar. Pero sin embargo en este estudio al investigador le interesa saber por ejemplo si la diferencia que tena entre los valores es estadsticamente significativa o no. Y esto puede hacerse, aplicando estadstica no paramtrica. Yo no les voy a ensear a hacer este tipo de estadstica no paramtrica. Pero es interesante que ustedes sepan que existe anlisis estadstico para datos que son nominales y que no tienen ser sometidos a clculo. Y tambin se puede aplicar estadstica no paramtrica a datos de tipo ordinal. Entonces ustedes se van a encontrar de repente en la literatura con investigadores que aplican estadstica a este tipo de datos y eso es correcto. Siempre y cuando apliquen estadstica no paramtrica. Para qu se usan los test no paramtricos? Para lo mismo que se usan los test de tipo paramtricos dicho en resumen. Para verificar si una muestra pertenece a una determinada poblacin, para comparar si los valores que tenemos en dos muestras son iguales, o son significativamente diferentes desde el punto de vista estadstico, para comprar varias muestras entre s (pueden ser muestras relacionadas o muestras independientes). Y para verificar si existe asociacin, correlacin entre variables. A veces se ve correlacin entre variables nominales por un lado, y cuantitativas por el otro. Entonces ah se aplica un anlisis de correlacin no paramtrico que es el anlisis de Entonces un coeficiente de correlacin pero que se basa en estadstica no paramtrica. Lo que yo les voy a mostrar ustedes ahora es un poco en qu se basa la estadstica no paramtrica y voy a terminar hoy da mostrndoles como se llaman los test no
paramtricos. De manera que ustedes los puedan reconocer cuando los encuentren en la literatura. Hay muchos tipos de estadstica no paramtrica. Paramtrica vieron ustedes que eran poquitos, pero en la no paramtrica hay muchos. Pero son muy pocos los test no paramtricos que se usan habitualmente. Entonces la recomendacin de un mdico que ha hecho medicina basada en la evidencia es que cuando el paper que ustedes lean ocupen estadstica no paramtrica muy rara, lo ms probable es que los resultados no sean muy convincentes. Ya que en esta tabla que yo les voy a entregar estn todos los tipos de estadstica no paramtrica que se utilizan ms habitualmente.
Ok, entonces qu se hace para evaluar la probabilidad de ocurrencia de la Hiptesis Nula. Qu hiptesis nula? Una hiptesis nula que se formula de la misma manera que en estadstica paramtrica. Qu dice la hiptesis nula? Si yo estoy comparando 2 muestras, dice que son iguales, que cualquier diferencia que se observa entre las muestras simplemente se debe al azar, por lo tanto no existe realmente diferencia entre las muestras porque la diferencia se debe al azar. La hiptesis nula para la estadstica no paramtrica es igual. Ahora cuando se disean experimentos, ustedes leen digamos un paper, hay que decidir qu tipo de test se va a aplicar para el anlisis estadstico de los datos y hay que describir el punto crtico de corte. El punto crtico de corte ya lo habamos visto es igual, el P inferior a 0,05. O sea, da lo mismo el tipo de test que la persona use, paramtrico o no paramtrico, cualquiera de los paramtricos, cualquiera de los no paramtricos, lo mnimo que tiene que aceptar para rechazar la hiptesis nula es que la probabilidad de que las 2 muestras sean iguales tiene que ser inferior a un 5%. Si es mayor a un 5% uno acepta la hiptesis nula. A mayor n, mientras ms grande es la muestra, ms se va a parecer a los datos de la variable en la poblacin, por lo tanto es poco probable que uno acepte como verdadera una hiptesis nula que es falsa que es el error de tipo II (beta). La potencia de un test nosotros no la hemos analizado mucho, pero qu es la potencia del test?. La potencia de un test es una forma de indicar que el nmero de sujetos de estudio permite aceptar como conclusin valedera la aceptacin de la hiptesis nula verdadera.
Cuando se rechaza la hiptesis nula, la probabilidad tiene que ser inferior a 5%. Y uno dice Ok, con eso me aseguro de no estar cometiendo un error demasiado grande. O, sea en un 5% de los casos es probable que yo cometa un error, pero en clnica, en medicina se acepta que me voy a equivocar en 5 de cada 100. Si alguien quiere ser ms estricto va a decir sabe que ms, yo quiero equivocarme solo en 1 de cada 100 o solo en 1 de cada 1000. Y en ese caso ponen el P en 1% o en 1 por 1000. El problema de hacer esto, es que para ver, detectar diferencias con una probabilidad de 1 por 1000 la diferencia entre los 2 valores, tiene que ser muy grande o el n gigantesco. Se da, de repente uno encuentra P inferiores a 1% o alrededor de 1 por 1000. Y cuando a uno le aparece el investigador queda muy contento pero nunca se pone eso como el P crtico del estudio porque si yo pongo como P crtico del estudio mo que voy a aceptar como muestras diferentes slo cuando las diferencias sean menor al 1% y me sale que es de un 2%, ya no puedo aceptar las diferencias. Entonces P crtico, el punto crtico de corte que el investigador se pone y luego se ve cul es el P que realmente le sale en el estudio. Ok, a mayor n, menor probabilidad de cometer un error de tipo 2 por qu? Porque cuando el n es muy grande, los valores se van a parecer de verdad a los de la poblacin, y si no hay diferencia entre las muestras, bueno no hay, es verdad que las muestras son iguales. El problema est que cuando un investigador encuentra que no hay diferencias entre 2 tratamientos, me da un poco de susto publicar los resultados, porque qu es lo que piensa? Que a lo mejor si agrando la muestra s va a aparecer diferencia entre los resultados. Entonces ah entra lo que se llama la potencia del estudio. Existen unas tablas que le permiten al investigador estimar cul tendra que ser el n del estudio, cuntos sujetos tengo que tener en cada una de las dos supongamos que tengo 2 situaciones: tratados y control. Cunto tengo que tener sujetos en el grupo tratado y cuntos en el grupo control para ser capaz de detectar a un P inferior a un 0,05? Una diferencia de digamos un 15%, un 20%, un 30%. Entonces el investigador qu es lo que hace. El investigador tiene una expectativa de resultado, me voy a poner bien drstica, algo que casi nunca ocurre. Mi tratamiento va a aumentar al doble el rendimiento de La diferencia entre la muestra 1 con la muestra 2 va a en un cierto %, pero al detectar una diferencia de un cierto % yo necesito un n muy grande porque la diferencia va a ser inmensa , entonces voy a esa tabla y digo yo ok, la diferencia que yo voy a detectar es de 80%, 70%, y la variabilidad de mi muestra es tanto. Esa es la SD. Cmo se calcula esa SD? O haciendo un.. o mirando la literatura. Y entonces uno va y que define cul es el n que me de una potencia del 80%, que es ms menos lo que se espera. El problema es que a uno de repente le sale un n de 2500 sujetos, cuando te sale un n mayor que el investigador puede hacer , la potencia del estudio si acepta la hiptesis nula no es suficiente para decir este estudio es definitivo. (Esto yo no se lo voy a preguntar tanto tampoco, pero quera que lo supieran).
En qu se tienen que fijar ustedes si en un estudio dice la potencia del test, que sea 0,8. Tiene que ser 80% o mayor. Y entonces si en este estudio sale que no hay diferencia entre las muestras, ustedes dicen en realidad con esta potencia del estudio el investigador debera haber sido capaz de detectar una diferencia, por lo tanto si no la detect, y el estudio es potente, yo le voy a creer al estudio.
Vamos a ver entonces ahora algunos de los test no paramtricos que son los que ms se emplean y en qu se fundamentan estos test. Este ya lo vimos el chi cuadrado. El chi cuadrado es un test no paramtrico que se utiliza muchsimo. Y lo importante es que se emplea con datos cuantificados en categoras, por lo tanto, aqu la distribucin no es normal. Ustedes pueden preguntar por ejemplo si te gusta ir al cine o no les gusta ir al cine, les puedo preguntar a todos ustedes y la respuesta es te gusta o no te gusta es dicotmica. En una variable dicotmica no puedo aplicar un test de t para comparar si a los dos grupos les gusta o no les gusta. Uso entonces un chi cuadrado. Por lo tanto se aplica en datos cuantificados en categoras. Sin embargo, a pesar de que es un test no paramtrico, este es un test no paramtrico QUE SI PONE CONDICIN. Entonces es una situacin un poco curiosa. Y estas condiciones s las tienen que conocer ustedes. Cules son? Se calcula comparando frecuencias esperadas, datos y los datos tienen que ser independientes entre s. Esto significa que no puedo aplicar chi cuadrado a datos en PORCENTAJE. Por qu los datos en porcentaje son relacionados entre s? Supongamos que tengo aqu a 20 que les gusta ir al cine y a 80 que no les gusta. Tendramos a un 20% que les gusta ir al cine y un 80% que no les gusta. Por qu no puedo usar el porcentaje para aplicar chi cuadrado? Porque al ser el porcentaje un ciento por ciento independientemente del nmero de sujetos que yo tenga, si uno es 20 y el otro 80, si uno es 30 y el otro es 70, si uno es 40 y el otro 60, por lo tanto estn asociados entre s. Para aplicar el chi cuadrado tengo que poner los valores de las frecuencias observadas, 25 sujetos contra 100, pero JAMS PORCENTAJE, OJO. Porque ese es un error grande que se comete. No se puede aplicar anlisis de chi cuadrado a los datos en porcentaje. Hay que tener las frecuencias absolutas de los datos esperados. Y lo que hace es que calcula las proporciones esperadas en relacin a las obtenidas y de esa manera se obtiene el chi cuadrado.
Cules son las limitaciones del chi cuadrado? Tienen limitacin de tamao. El n, el tamao total de la muestra tiene que ser grande, mayor que 30. -No debe haber ninguna celda vaca. Cuando hay una en ese caso no puedo aplicar chi cuadrado, y ah hay que aplicar un test que reemplace al chi cuadrado. El n total de la muestra tiene que ser mayor que 30 y no tiene que haber celdas vacas. Y tengo que poner los valores ABSOLUTOS Y NO LOS PORCENTAJES. Entonces tiene sus limitaciones. Los grupos tienen que ser independientes por esa razn, yo les dije que no se podan usar los porcentajes. (porque el porcentaje de uno va a depender del porcentaje del otro). Si esas condiciones no se cumplen, hay que usar otro test. (el test de Fisher es el ms habitual). Lo importante que tienen que reconocer ustedes es que el chi cuadrado a pesar de ser un test no paramtrico si tiene limitaciones. Y lo otro es que tienen que saber reconocer cules son las limitaciones porque una pregunta crtica en la tercera prueba es que yo les doy unos datos y les digo qu tipos de test se pueden aplicar. Y siempre cae alguno que es chi cuadrado. Entonces ustedes tienen que saber si a los datos del estudio es lcito aplicarle chi cuadrado o no es lcito aplicarle chi cuadrado, test de t, ANOVA, todos esos. SE LOS VOY A PREGUNTAR, SIEMPRE LO PREGUNTO, ESTE AO SEGURAMENTE TAMBIN. Entonces cuando no es aplicable el chi cuadrado, hay que aplicar otro test no paramtrico pero que no tengan estas limitaciones.
El test de Fisher en que el tamao total de la muestra puede ser menor que 30 y puede tener celdas vacas. Este otro es cuando las muestras estn relacionadas entre s y no se pueden separar, entonces aplico test parecido al chi cuadrado pero que no tenga las limitaciones que tiene el test de chi cuadrado.
Entonces lo que les voy a mostrar ahora es como es que se analizan, cul es la lgica matemtica que hay detrs de los test no paramtricos. Y esto vale para todos los test no paramtricos. Miren, lo que ocurre, es que los test no paramtricos..aqu tengo 2 muestras, muestra A, muestra B, y estos son los resultados que obtuve: 12, 15, 13, 24, 27, etc. Ok, lo que hace el test no paramtrico ,no compara los valores absolutos, si no que lo que hace, compara cuntas veces una variable asociada a una de las muestras ee les voy a hacer un ejemplo extremo primero. Supongamos que en A todos los valores son ms chicos que B. Lo que compara el test no paramtrico es cuntas veces A est por delante de B. El problema es que muchas veces es que las A y las B estn mezcladas, tengo AA, BB, entonces lo que se hace aqu, se ordenan los datos, se ordenan los datos de menor a mayor y se asocian con la muestra que yo tengo. Si yo tengo, lo vamos a hacer como ejemplo, entonces primero, se ordenan los A y los B y se colocan de esta forma, y despus entonces lo que se hace es que se ordenan todos los valores de menor a mayor y se ven si son de la muestra A o son de la muestra B. Y despus lo que se hace es entonces es que se les pone nmero a estos. Simplemente al ms chico se le da el valor de 1, al que le sigue el valor de 2, al que le sigue el valor de 3, al que le sigue el valor de 4, al que le sigue el valor de 5,6,7,8,9,10. Y as hasta completar todos los sujetos de la muestra que yo tengo. Entonces aqu resulta que tengo un empate. Tengo 2 valores este sera 4 y este sera 5, pero los dos son 15. En ese caso lo que hace es que le da el valor promedio entre los dos (entre el 4 y el 5 4,5). Si tengo 3, 4,5,6 todos seran 5 5 5. Ok? Entonces lo que hace, y lo que mira aqu es cuntas veces aqu B est por delante de A. Si todos los B estn por delante de A, est clarsimo. Pero suele pasar lo que pasa aqu, que tengo un B, luego tengo 3 A, luego tengo 2 B, luego tengo 2 A, luego tengo 2 B. Entonces qu? Esta distribucin me permite decir que existe una diferencia entre B y A o no?
Entonces lo que hace la estadstica no paramtrica en general es que comparan los rangos. Cuntas veces A est por delante de B? y en tablas, que uno va y simplemente mira en la tabla, uno tiene que calcular un nmero con una ecuacin que le dan ah que de nuevo es distinta para cada uno de los test no paramtricos que hay, calcula ese valor del test no paramtrico, va a la tabla y le dice mire, con ese valor del test no paramtrico la diferencia entre las dos muestras es menor a P 0,05 o mayor. Qu hace uno ahora? Habitualmente lo que hace es meter los datos, aplico una estadstica no paramtrica utilizando un software y el software le dice mire la diferencia entre sus dos muestras es P inferior a tanto, y si el P es inferior a 0,05 ustedes dicen aplicando este test de estadstica no paramtrica yo puedo decir que existe diferencia estadsticamente significativa entre mis muestras. Y lo que hace entonces en vez de analizar los datos particulares, analiza los datos y por esta razn a uno le permite de repente comparar muestras que tienen datos que no son numricos. Entonces, cuando uno lo que quiere hacer es comparar 2 muestras, utiliza un no paramtrico similar al test de t, hay similares no paramtricos al test de t pareado, hay no paramtricos similares al test de t para muestras independientes. Hay una ANOVA no paramtrica y ahora les muestro que tambin hay test de correlacin no paramtrico.
Cuando uno quiere ver si 2 variables estn asociadas entre s, y la distribucin de la variable no es normal utilizo un anlisis de correlacin no paramtrico. Hay anlisis que se utilizan cuando en una de las variables nominales y eso se llama coeficiente de contingencia que de repente se lo van a encontrar en los paper y tambin se puede aplicar cuando una de las variables es de tipo ordinal y eso probablemente en uno de los paper que ustedes estn leyendo ahora para el poster pueden haberse encontrado con esto. Y el coeficiente de correlacin y le puse por rangos porque es un coeficiente no paramtrico. Hay distintos test, hay muchos test, los ms usados son Spearman y Kendall (para el coeficiente de concordancia). Esto se usa mucho en las encuestas, en los anlisis, en la validacin de encuestas. Ustedes cuando trabajen con las encuestas de repente les va salir miren, validez de esta encuesta, miren y es vlida por esto, por esto, y por esto otro. Entonces, lo importante es que ustedes sepan que existen distintos tipos de test no paramtricos que permiten hacer anlisis de correlacin cuando las muestras no son de tipo cuantitativo sino que son de tipo cualitativo.
Si ustedes quieren comprender un paper basta con ver qu tipos de test que aplique el investigador corresponda con la naturaleza de la muestra. Si la muestra no tiene distribucin normal, o no es cuantitativa, tiene que haber usado uno de estos test para hacer el clculo. Y el P tiene que ser inferior a 0,05.
Bueno y esta es la tabla que yo les deca, pero es recomendable que la tengan impresa. Es una comparacin entre los tipos de test paramtricos que se encuentran en esta columna y en la segunda columna aparece cul es el tipo de test no paramtrico que se utiliza en reemplazo del test paramtrico. Aqu aparece cul es el propsito del test. Entonces, en un test paramtrico, para el test de t para muestras independientes se aplica este test que es muy habitual que y cundo se usa? Cuando se quieren comparar 2 muestras independientes entre s. Cuando uno tiene un test de t para muestras relacionadas, hay otro test distinto que es un test no paramtrico, que compara muestras relacionadas entre s. Compara 2 grupos de datos pareados, ejemplo, comparar peso de recin nacidos antes y despus de la alimentacin. Entonces cuando en un sistema paramtrico se habra utilizado el test de t para muestras pareadas, pero la variable no tiene distribucin normal o el n es muy chico, y no se puede aplicar el test de t para muestras pareadas, se aplica este otro test.
Lo que yo les podra preguntar a ustedes, es el tipo de test que aplic el autor, es el correcto para un conjunto de datos que es en la muestra. Cuando el n es muy grande, habitualmente da lo mismo aplicar estadstica paramtrica que no paramtrica. El chi cuadrado es un test no paramtrico, sin embargo est en la columna de los paramtricos porque tiene LIMITACIONES. Y cuando no se puede aplicar porque no se cumplen las limitaciones del chi cuadrado, se utiliza alguno de los otros test.
Entonces, este es el tipo de situacin que ustedes van a tener que decidir cuando se encuentren leyendo la literatura, qu tipo de anlisis estadstico debi haber aplicado el autor, con el tipo de datos que el autor est trabajando. Y por qu tienen que conocer esto ustedes? Porque los autores muchas veces no aplican el anlisis estadstico que es correcto. Si un autor aplica un anlisis estadstico que incorrecto entonces sus conclusiones no son vlidas y esa es una razn que ustedes pueden esgrimir para decir saben que ms, estas conclusiones de este paper, sencillamente no son vlidas. Qu hacen ustedes en este caso? Tienen varias opciones: 1) Si el autor entrega los datos de manera que ustedes los puedan ocupar, ustedes pueden aplicar el test no paramtrico correspondiente y verificar si las conclusiones del autor son correctas. Si el autor entrega solamente tablas con datos resmenes a veces uno puede hacer algn clculo. Calcular un test de t, cuando as se puede hacer algo. Entonces el anlisis que ustedes deben hacer es el siguiente. De qu tipo son los datos que el autor est analizando el autor en este paper. Si son continuos o discretos, slo aplicar estadstica paramtrica siempre y cuando la distribucin de los datos sea normal y no tenga ningn dato que sea sospechoso de generar outlier. *Si hay un outlier tengo que irme a estadstica no paramtrica.
Recuerden que los autores siempre van a tratar de usar test paramtricos porque es ms potente. Si los datos no son de tipo continuo, son nominales u ordinales, y estn comparando frecuencias, chi cuadrado, si est midiendo asociacin tienen que irse a un test no paramtrico.
Qu es un outlier? Una forma fcil de ver outlier es que yo se las recomiendo en los trabajos que ustedes tienen en fisiologa, es construir el grfico de cajas con los datos que ustedes tienen, el rango intercuartil que es este, el valor mnimo, y ste es el valor mximo, y ah est la mediana. Mirando esta distribucin, ustedes diran que la variable que estn estudiando. Tiene distribucin normal? No tiene distribucin normal, porque la mediana est ms cerca del Q3 que del Q1. Si ustedes grafican los datos que tienen as, ya saben que no pueden aplicar estadstica paramtrica. Cuando tengan eso claro qu es lo que es un outlier? Un outlier es difcil traducirlo al castellano, pero es un punto que est ms alejado del valor mnimo o del valor mximo que ustedes aceptaran como para decir que ese valor est dentro de mi muestra. Entonces, si tienen ac el valor mnimo y ac el valor mximo, si tienen un punto ac, este tipo de anlisis les permite decir si este en realidad pertenece o no a esta muestra. Lo que se hace es que simplemente por convencin, se acepta que si se tiene al Q1 se le resta 1,5 veces el rango intercuartil aqu est, el umbral mnimo y el umbral mximo son valores aceptados por un conjunto de personas. El umbral mnimo sera Q1 y ese valor menos 1,5 veces el rango intercuartil , o sea, aqu le resto 1 le sumo la mitad de esto, entonces llegaramos.. aqu est umbral mnimo..Este dato se obtiene cuando a este le resto una vez y media esta diferencia llego ac.Pero este punto est por debajo de ese, por lo tanto digo Ok, este dato no pertenece a mi muestra y lo voy a eliminar de mi estudio. Ese rango intercuartil eso si tienen que calcularlo considerando este valor dentro del clculo. Si ustedes definen que es outlier lo eliminan del estudio y rehacen el clculo intercuartil con los datos aceptados por el estudio. Se define como outlier cualquier dato que est por encima del umbral mximo o por debajo del umbral mnimo. Esto es un acuerdo, y si la muestra es muy chica, la verdad es que es posible que este dato s pertenezca a la poblacin. Sean cautelosos en el uso de la eliminacin de datos. Es lcito pero es peligroso. (cuando la muestra es chica sobretodo). Cuando la muestra es muy grande, es ms probable que la eliminacin de esto corresponda efectivamente para eliminar al sujeto que no pertenezca a la poblacin.

11 Clase Método 25 de Mayo Kena

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

11 Clase Método 25 de Mayo Kena

Uploaded by

Copyright:

Available Formats

CLASE MTODO 25 DE MAYO.

You might also like