You are on page 1of 5

Estadstica Aplicada

Ingeniera En Industrias Alimentarias IAM-0511 5 Anlisis de Varianza


5.1 Introduccin al Anlisis de Varianza 5.2 Procedimiento para el Anlisis de Varianza 5.3 Comparacin de mas de dos Medias: Diseo Completamente Aleatorizado y su Tabla 5.4 Estimacin en el Diseo Completamente Aleatorizado 5.5 Anlisis de Varianza Para un Diseo en Bloques al Azar y su respectiva Estimacin 5.6 Anlisis de Varianza Mediante Modelos Lineales

5.6 Anlisis de Varianza Mediante Modelos Lineales


Estadstica multivariada Teniendo como escenario la compleja y dinmica realidad social, la poltica pblica debe ser capaz de sistematizar los conocimientos derivados de la experiencia y de concebir herramientas para el anlisis de los fenmenos en los que interviene. La realidad que requiere ser analizada es compleja: se trata de un entramado de relaciones mltiples. En trminos de mtodos estadsticos, esta multiplicidad es reflejada en una multidimensionalidad de los fenmenos estudiados, y modelizada a partir de modelos estadsticos multivariados o multivariables. Por ejemplo, se pueden estudiar las condiciones de insercin y permanencia en el mercado laboral (IPML) de los habitantes de la Ciudad de Buenos Aires, en relacin a diferentes variables. Si se estudia este fenmeno en trminos regionales, se puede observar el alto nivel de precariedad que afecta a quienes viven en la regin Sur-Suroeste de la ciudad.

Analizado en relacin al gnero, se observa la desventaja relativa de las mujeres. Y comparado por nivel de estudio, los universitarios aparecen favorecidos. Ahora bien, si se piensa en disear una poltica para mitigar las malas condiciones de IPML, apuntando a mejorar las condiciones de los grupos ms desfavorecidos, en principio se puede pensar en medidas destinadas a una poblacin objetivo compuesta por las mujeres sin estudios universitarios que habitan en la regin Sur-Suroeste. Sin embargo, este recorte puede resultar demasiado restrictivo, innecesariamente. El estudio para el diagnstico debe considerar que los 3 factores educacin, gnero y regin actan conjuntamente. Por lo que los datos observados pueden ser el resultado de la relacin entre cada uno de estos factores y la IPML; o de la asociacin entre slo algn factor y la distribucin de los individuos al interior de las 3 variables. El modelo lineal El uso de modelos estadsticos debe permitir indagar a este respecto. Fennessey (1968. pp.2) escribe que Cada vez que se piensa una solucin al problema de expresar la contribucin de una o ms influencias al comportamiento de una variable, alguna forma del modelo lineal general es aplicable. El modelo lineal constituye una familia de tcnicas especficas, como el anlisis de regresin lineal y el anlisis de varianza factorial. De manera genrica, puede formularse como yi = 0 + xi11 + xi22+ .... + xipp + i, donde yi es la i-sima observacin de una variable aleatoria que operacionaliza el fenmeno estudiado y representa la variable dependiente. En el caso de Buenos Aires arriba comentado, podra ser un ndice de IPML de cada individuo considerado en el estudio. xip es el valor conocido de la p-sima variable independiente o explicativa, en la observacin i. En el caso mencionado, las distintas x indicarn la regin, el sexo y el nivel de estudio de cada individuo. Puede tratarse de una variable mtrica con un amplio rango de valores posibles, o de variables indicadores que toman valores 1 o 0. Esto ltimo ocurre cuando se trata de variables nominales: cada x indica la pertenencia (1) o no (0) a una categora de

determinada variable. En este caso, tendremos ms de una variable X por cada variable explicativa o factor. p es el coeficiente a estimar por el modelo. Este coeficiente es una medida de la sensibilidad: cunto se espera que vare yi cuando xp vara en una unidad. i es una variable aleatoria que representa el componente de error. Se calcula como la diferencia entre los valores observados y los valores estimados por el modelo. As, analizando el ajuste global y las de cada modelo estimado, resulta posible identificar aquellos factores ms asociados al fenmeno. En el caso mencionado, un resultado del 0+ 1FEM + 2 Norte-Noreste + anlisis estadstico podra ser estimar el modelo <yi =
3

Sur-Suroeste > Concluir que este es el mejor modelo estimado indica lo siguiente: La IPML es independiente del nivel de estudio. Est asociada al gnero y la regin. 1 es negativo, la FEM toma valor 1 si es femenino y 0 si es masculino. Por lo tanto, si IPML es peor en las mujeres.

Norte-Noreste y Sur-Suroeste toman valor 1 si el individuo habita en la respectiva regin y 0 en caso contrario. Si el individuo habita en el Centro, ambas variables sern 2 es positiva, la IPML ser mejor para los habitantes del Norte0. Por lo tanto, si 2 y 3 se puede comprobar Noreste que para los del Centro. Asimismo, comparando cul de las 2 regiones presenta mayor riesgo de una mala IPML.

Con el desarrollo de los paquetes informticos de estadstica, la aplicacin de estos modelos puede realizarse de manera relativamente sencilla. El problema al trabajar con modelos como anlisis de varianza factorial, o anlisis de regresin lineal, radica en los supuestos involucrados respecto a los datos analizados. Para que las estimaciones cuenten con las propiedades estadsticas apropiadas, y para que sea posible realizar las inferencias y los test estadsticos adecuados, es necesario que se cumplan ciertos supuestos. Estos pueden resumirse diciendo que se asume que la variable sigue una distribucin Normal y su varianza es constante para todas las observaciones.

Si bien estudios realizados dan cuenta de la robustez de los diferentes mtodos frente al incumplimiento de algn supuesto1, lo cierto es que estos supuestos suelen resultar ajenos a la naturaleza de los datos de los fenmenos sociales analizados.

El modelo lineal generalizado No hay motivo para aceptar a priori que los datos referidos a la realidad social se condicen con los supuestos asumidos en el modelo lineal. Nelder & Wedderburn (1972), presentan formalmente la familia de modelos lineales generalizdos, glm. Los glm consideran la variable dependiente, Y, como un componente aleatorio que sigue alguna distribucin de la familia exponencial. El valor que se incluir en el modelo no es Y, sino su esperanza matemtica, denominada . De esta manera, el componente de error queda comprendido aqu y no es necesaria su formulacin explcita. Del lado de las variables explicativas, se denomina al predictor lineal, que resulta de la combinacin lineal entre las variables explicativas X y los coeficientes : = X. Los glm introducen una funcin de enlace o link, denominada g. As, en lugar del modelo Y = X + , los glm se formulan como g() = . Los glm son una extensin del modelo lineal. Entre otras ventajas, permiten modelizar variables asimtricas y variables discretas. Asimismo, es posible analizar estadsticamente relaciones no lineales entre variables dependientes e independientes. Por otro lado, no es necesario el supuesto de varianza constante. Los glm asumen que la varianza de Y es funcin de su valor esperado, exigiendo slo que sea conocido el modo en que la varianza depende de aquel. A partir del concepto de sobre-dispersin (SD) - el que hace referencia a que la varianza de Y excede a la varianza nominal de la variable 2 - es

Por ejemplo, se acepta que si los tamaos de muestra son grandes, los test estadsticos son vlidos aunque no se cumpla el supuesto de distribucin Normal (Gujarati 1996; Hair et al 1995; Stevens 1996; Winer et al 1991); y en el anlisis de varianza, cuando el tamao de las muestras es el mismo, que la varianza no sea constante tiene un bajo impacto (Hair et al 1995; Stevens 1996; Winer et al 1991). 2 La SD puede originarse de muchas maneras. Uno de los mecanismos ms comunes, es el agrupamiento (clustering) en la poblacin: hogares y barrios son instancias comunes de agrupamientos naturales.

posible incluir en los modelos y test de hiptesis una medida ms acertada de la dispersin de las estimaciones. En un caso como el mencionado de la IPML en Buenos Aires, lo ms probable es que la cantidad de individuos en cada grupo que se compara, sea diferente. Asimismo, nada permite suponer que los desvos respecto del promedio, al interior de cada grupo, sern iguales. Bajo estas condiciones, los resultados de las pruebas estadsticas realizadas en el marco de un Anlisis de varianza factorial, no seran exactos. En cambio, los glm permiten realizar un Anlisis de devianza, el cual permite estudiar los ajustes producidos por series de modelos anidados, con tamaos de muestra y varianzas diferentes. Conclusin El modelo lineal es una herramienta de gran utilidad. La utilizacin de modelos estadsticos implica formular patrones de comportamiento capaces de describir sucintamente las variaciones de los datos. Un modelo bien estimado brindar la informacin necesaria para realizar las evaluaciones empricas. A travs de las extensiones introducidas en los glm, resulta posible ajustar los modelos con medidas de dispersin y confianza correctamente mensurables. Existe un amplio consenso del papel crucial que juega el anlisis de la evidencia emprica a la hora de tomar decisiones y disear y adoptar polticas. En la actual sociedad de informacin en la que el uso de bases de datos y de paquetes estadsticos han transformado profundamente la forma de entender y evaluar las polticas, los modelos estadsticos multivariados, y en especial modelos como los glm, permiten una produccin y aplicacin de conocimientos cientficos que representan un factor estratgico para el policy maker.

You might also like