You are on page 1of 18

INSTITUTO TECNOLGICO DE CAMPECHE.

INGENIERA INDUSTRIAL. ESTADSTICA INFERENCIAL 2. Bocos Patrn Ramn Agustn.


.

UNIDAD 1: Conceptos de la Regresin Lineal Mltiple.

ALUMNO: May Cahuich Candelario Emanuel.

GRUPO: VI4.

4 SEMESTRE.

San Francisco de Campeche, Campeche a 25 de abril del 2012

Estadstica Inferencial II

Pgina 1

NDICE. Introduccin.4 La regresion lineal mltiple..5 Introduccin.5 Desarrollo del modelo6 Determinacin de la ecuacin de R.L.M....7 Determinacin de los coeficientes bi...7 Mtodo de mnimos cuadrados.....7 El mtodo matricial (ms conveniente en modelos de R.L.M)7 Interpretacin de los coeficientes bi del modelo...8 Inferencias en la R.L.M.9 Error estndar de la estimacin9 P. de h. (de significacin) para los coeficientes 1, 2,9 Prueba t de independencia entre las variables10 Enfoque del ANDEVA para la prueba de significacin de la regresion.10 Estimacin de los intervalos de confianza para 1, 2,..10 Prediccin de la variable dependiente Y...10 Intervalo de confianza para la media y, x1, x2,.11 Intervalo de prediccin para una observacin futura Yi....11 El coeficiente de determinacin mltiple.....11 Introduccin12 Medidas de variacin {SCT (SST), SCR (SSR), SCE (SSE)}13 Calculo del coeficiente e interpretacin13 El coeficiente de determinacin ajustado...13 Evaluacin de la adecuacin del modelo de regresion.14

Estadstica Inferencial II

Pgina 2

Anlisis residual14 La matriz de correlacin..14 Qu propsito tiene?......................................................................................15 La multicolinealidad o colinealidad mltiple15 Qu es?..........................................................................................................15 Cmo se detecta su presencia?.....................................................................15 Qu medidas correctivas se pueden utilizar para resolver este problema?.16 Conclusin17 Bibliografa.18

Estadstica Inferencial II

Pgina 3

INTRODUCCIN. Como la Estadstica Inferencial nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin de la otra variable llamndose Regresin Lineal y una variable en relacin a otras variables llamndose Regresin mltiple. Casi constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre s, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables. En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente, realizar estimaciones ms precisas. Al tener ms de una variable explicativa (no se debe de emplear el trmino independiente) surgirn algunas diferencias con el modelo de regresin lineal simple. Esperando que se de gran utilizacin este trabajo el cual tiene varios conceptos sobre regresion lineal mltiple para poder notar las caractersticas sobre este temas y clasificar las diferencias referente a la regresion lineal simple.

Estadstica Inferencial II

Pgina 4

LA REGRESIN LINEAL MLTIPLE. El anlisis de regresin mltiple es el estudio de la forma en que una variable dependiente, y, se relaciona con dos o ms variables independientes. En el caso general emplearemos p para representar la cantidad de variables independientes. y =0 + 1x1 + 2x2 +. . . +pxp + En muchas situaciones prcticas existen varias variables independientes que se cree que influyen o estn relacionadas con una variable de respuesta Y, y por lo tanto ser necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de Y. Por ejemplo, para explicar o predecir el consumo de electricidad en una casa habitacin tal vez sea necesario considerar el tipo de residencia, el nmero de personas que la habitan, la temperatura promedio de la zona, etctera. Introduccin. Muchas aplicaciones del anlisis de regresion incluyen situaciones en las que hay ms de una variable regresora se le llama modelo de regresion mltiple. Esta regresin es donde tenemos una variable dependiente Y y dos independientes X2 y X3, as en vez de obtener una funcin lineal en dos variables (lnea recta), tendremos una funcin lineal en tres variables (ecuacin del plano en el espacio tridimensional X2X3Y). = a + b X2 + c X3 Obviamente, si tuviramos ms de dos variables independientes, tendramos una ecuacin lineal con ms de tres variables; en otras palabras, nuestro modelo trivariable se puede generalizar a ms variables con los consecuentes problemas de clculo, que seran fciles de resolver con la ayuda de una computadora. Si una variable Y est relacionada linealmente con dos variables independientes X 2 y X3, su funcin lineal poblacional puede describirse por: Yi = (A + B Xi2 + C X i3) + i .. Donde (A + B Xi2 + C X i3) es la parte de la variacin total de Y que es explicada y i es la parte de la variacin total no explicada o debida a errores aleatorios. En general, el modelo clsico de regresin lineal mltiple definido por la formula anterior debe cumplir con las siguientes suposiciones: 1) Las variables independientes X2 y X3 son fijas o no aleatorias.

Estadstica Inferencial II

Pgina 5

2) Pueden existir relaciones significativas de dependencia lineal entre dos cualesquiera de las variables independientes, pero su correlacin no debe ser perfecta. 3) Los errores i tienen distribuciones normales con . 4) La varianza de la regresin es constante e igual a la varianza de los i. 5) Los errores son estadsticamente independientes; es decir, los i no estn correlacionados (Cov (i, j) = 0, i j). 6) El nmero de observaciones de la muestra de la muestra debe superar al nmero de coeficientes de regresin que han de estimarse para garantizar que el nmero de grados de libertad sea diferente de cero.

DESARROLLO DEL MODELO. Muchas aplicaciones del anlisis de regresion incluyen situaciones en las que hay ms de una variable regresora se le llama modelo de regresion mltiple. Como un ejemplo, suponga que la vida efectiva de una herramienta de corte depende de la velocidad de corte y del ngulo de la herramienta. Un modelo de regresin mltiple que podra describir esta relacin es:

Donde Y representa la vida de la herramienta, representa la velocidad de corte, representa el ngulo de la herramienta, y es un trmino del aleatorio. Se trata de un modelo de regresion lineal mltiple con dos regresores o variables independientes. Se usa el termino lineal porque la ecuacin anteriores una funcin lineal de los parmetros desconocidos , , . El parmetro es la ordenada al origen del plano. En ocasiones a , se les llama los coeficientes de regresion parciales, debido a que mide el cambio esperado en Y por un cambio unitario de cuando se mantiene constante. En general, la variable de respuesta o dependiente y, puede relacionarse con k variables regresoras o independientes. Al modelo:

Se le llama modelo de regresin lineal mltiple con k variables regresoras.

Estadstica Inferencial II

Pgina 6

DETERMINACIN DE LA ECUACIN DE REGRESIN LINEAL MLTIPLE. Determinacin de los coeficientes bi B1 es el cambio neto en Y por cada cambio unitario en x1, manteniendo x2 constante. Se denomina coeficiente de regresin parcial, coeficiente de regresin neta o bien coeficiente de regresin.

El mtodo de mnimos cuadrados. Para hacer la estimacin de los coeficientes de regresion b0, b1, b2 y usando el mtodo de mnimos cuadrados, segn los datos mustrales y as podemos tener la suma de los errores cuadrticos: La cual se considera con mnima varianza.

Si usamos el mtodo de mnimos cuadrados, derivando de la suma de los errores cuadrticos con respecto a cada coeficiente b1 e igualamos a cero estas ecuaciones se optimizara el modelo de regresion lineal mltiple.

El mtodo matricial (ms conveniente en modelos de R.L.M) Al ajustar un modelo de regresion mltiple, es mucho ms conveniente expresar las operaciones matemticas utilizando la notacin matricial. Suponga que hay k variables regresoras y n observaciones (xi1, xi2,, xik, yi), i= 1, 2,, n, y que el modelo que relaciona las variables regresoras con la variable de respuesta es: yi = 0 + 1xi1 + 2xi2 + + kxik + i i=1, 2, , n Este modelo es un sistema de n ecuaciones que en notacin matricial puede expresarse como:

Dnde:

x=

Estadstica Inferencial II

Pgina 7

y [ ] [ ]

En general, y es un vector (n x 1) de las observaciones, x es una matriz (n x p) de los niveles de las variables independientes, es un vector (px1) de los coeficientes de regresion, y es un vector (n x 1) de los errores aleatorios.

INTERPRETACIN DE LOS COEFICIENTES BI DEL MODELO. El coeficiente mide el efecto parcial del regresor x1 manteniendo los otros regresores fijos. Vamos a ver el significado de esta expresin. El modelo estimado para la observacin i- esima viene dado por:

Consideremos ahora el modelo estimado para la observacin h-esima, en el que los valores de las variables explicativas y, en consecuencia, y habrn cambiado con respecto a la ecuacin anterior:

La expresin anterior capta la variacin de y debida a cambios en todos los regresores. Si slo cambia xj, tendremos que: Si xk se incrementa en una unidad, tenemos:

En consecuencia, el coeficiente mide el cambio en y cuando xj aumenta en 1 unidad, manteniendo fijos los regresores x1, x2,,xj-1, xj+1,,xk. es muy importante en la interpretacin de los coeficientes tener en cuenta, esta interpretacin no es vlida, por supuesto, para el termino independiente.

Estadstica Inferencial II

Pgina 8

INFERENCIAS EN LA R.L.M. Error estndar de la estimacin. Al igual que en regresin lineal simple, el error estndar de estimacin proporciona la medida del error de ajuste de un modelo, stas tienen una interpretacin similar a la que se dio para el caso de regresin lineal simple. En cuanto al clculo en el caso mltiple, el error estndar de estimacin:

P. de H. (de significacin) p/los coeficientes 1, 2, Las hiptesis sobre los parmetros del modelo son equivalentes a las realizadas para regresin lineal simple, pero ahora son ms necesarias porque en regresin mltiple tenemos ms parmetros en el modelo; sin embargo, por lo general es necesario evaluar su verdadera contribucin a la explicacin de la respuesta. Tambin requerimos de la suposicin de que los errores se distribuyen en forma normal, independientes, con media cero y varianza . La hiptesis global ms importante sobre un modelo de regresin mltiple consiste en ver si la regresin es significativa. Esto se logra probando la siguiente hiptesis:

Aceptar significa que ningn trmino o variable en el modelo tiene una contribucin significativa al explicar la variable de respuesta, Y. Mientras que rechazar implica que por lo menos un trmino en el modelo contribuye de manera significativa a explicar Y. El procedimiento para probar esta hiptesis es una generalizacin del procedimiento utilizado para probar la hiptesis equivalente en regresin lineal simple. El estadstico de prueba para la significancia del modelo de regresin lineal mltiple est dado por:

Que bajo tiene una distribucin tambin si valor p = P (F > ) < .

. As, se rechaza

si

>

Estadstica Inferencial II

Pgina 9

Prueba de t de independencia entre las variables.

Se rechaza

si | | >

; o alternativamente, si p-valor de tc es menor que .

Enfoque del ANDEVA p/la prueba de significacin de la regresin. La divisin de la suma total de cuadrados en sus componentes, la regresion y suma de cuadrados del error juega un papel importante. Se puede llevar a cabo un anlisis de varianza para aclarar la calidad de la ecuacin de regresion. Los resultados se acomodan en una tabla ANOVA. Fuente de Suma de variacin. cuadrados . Regresor. SCR. Error. SCE. Total. SCT. Grados de libertad. P n-p-1 n-1 Cuadrados medios. F. P- valor o sig.

CMR=(SCR/p) Fc=CMR/CME CME=(SCE/(n-p-1)

Estimacin de los intervalos de confianza para 1, 2, En los modelos de regresion mltiple con frecuencia es conveniente construir estimaciones de intervalos de confianza para los coeficientes de regresion {B j}. El desarrollo de un procedimiento para obtener estos intervalos requiere que los errores {i} tenga una distribucin normal e independiente con media cero y varianza . Se trata del mismo supuesto requerido en la prueba de hiptesis. Prediccin de la variable dependiente Y Es posible usar un modelo de regresion para predecir observaciones futuras de la variable de respuesta Y correspondientes a valores particulares de las variables independientes, por ejemplo, x01, x02,, x0k. Si = {x01, x02, , x0k}, entonces una estimacin puntual de la observacin futura Y0 en el punto x01, x02, , x0k es:
Estadstica Inferencial II

Pgina 10

I. de C. para la media y, x1, x2, Tambin puede obtenerse un intervalo de confianza para la respuesta media en un punto particular, por ejemplo, x01, x02,, x0k. Para estimar la respuesta media en un punto, se define el vector.

Para el modelo de regresion lineal mltiple, un intervalo de confianza del 100 (1) por ciento para la respuesta media en el punto x01, x02,, x0k es:

I. de prediccin para una observacin futura Yi Es posible usar un modelo de regresion para predecir observaciones futuras de la variable de respuesta Y correspondiente a valores particulares de las variables independientes. Un intervalo de prediccin para esta observacin futura del 100 (1-) por ciento es:

EL COEFICIENTE DE DETERMINACIN MLTIPLE. El coeficiente de determinacin mltiple R2 se define como: R2 = R2 es una medida de la cantidad de reduccin en la variabilidad de y obtenida utilizando las variables regresoras . Como en el caso de la regresin lineal simple, debe tenerse 0 Sin embargo, un valor grande de R2 no necesariamente significa que el modelo de regresin es bueno. Agregar una variable al modelo siempre aumentar a R2, sin importar si la variable adicional es

Estadstica Inferencial II

Pgina 11

estadsticamente significativa o no. Entonces, es posible que los modelos que tienen grandes valores de R2 proporcionen malas predicciones de nuevas observaciones o estimaciones de la respuesta media. La raz cuadrada positiva de R2 es el coeficiente de correlacin mltiple entre y y el conjunto de variables regresoras . Esto es, R es una medida de la asociacin lineal entre y y . Cuando K = 1, esto se vuelve la correlacin simple entre y y x.

Introduccin. A fin de poder determinar que tan bien predice la variable independiente a la variable dependiente en el modelo estadstico, se necesita desarrollar varias medidas de variacin. La primera medida, la variacin total, es una medida de la variacin de los valores de Y en torno a su media, Y. como ya se vio, la variacin total se puede dividir en dos componentes. En un problema de regresin, la variacin total en Y, la variable dependiente, se puede subdividir en variacin explicada, o sea, la que es atribuible a la relacin entre X y Y y la variacin no explicada, atribuible a factores que no sean la relacin entre X y Y. La variacin explicada representa la diferencia entre (el valor promedio de Y) y (el valor de Y que se predecira con la relacin de regresin). La variacin no explicada representa la parte de la variacin en Y que no se explica con la regresin y est basada en la diferencia entre Yi (el valor real de Y) y (el valor predicho de Y para una X dada). Estas medidas de variacin se pueden representar como sigue: Variacin total = variacin explicada + variacin no explicada. Variacin total = = ( ) ( )

Variacin no explicada = Variacin explicada = (

) =

bo

b1

= variacin total variacin no explicada. = bo b1 ( )

Estadstica Inferencial II

Pgina 12

Medidas de variacin SCT (SST), SCR (SSR), SCE (SSE). Suma de Cuadrados Totales, SCT, tambin denotado por SST: Suma de Cuadrados Explicada, SCE, tambin denotado por SSE:

Suma de Cuadrados de los Residuos, SCR, tambin denotado por SSR:

Calculo del coeficiente e interpretacin. Definiendo el coeficiente de determinacin R2 como la medida de la cantidad de reduccin en la variabilidad de (y) obtenida a partir de las variables regresoras x 1, x2, x3, xk tal que R2 puede tener valores entre 0 aunque un valor 2 grande de R no significa que el modelo de regresion es bueno. La raz cuadrada positiva de R2 en el coeficiente de correlacin mltiple entre (y) y las variables regresoras x1, x2, x3, xk es una medida de la asociacin lineal entre (y) y x1, x2, x3, xk El coeficiente de determinacin ajustado Para superar una de las limitaciones del R2, este coeficiente se puede "ajustar" de manera que tenga en cuenta el nmero de variables incluidas en un modelo dado. Para ver cmo el R2 usual podra ajustarse, es til expresarlo como:

Donde, en el segundo trmino del segundo miembro, aparece la varianza residual dividida por la varianza del regresando. En su lugar, vamos a utilizar estimaciones insesgadas de estas varianzas:

Esta medida se denomina R cuadrado ajustado, o . El principal atractivo del es que impone una penalizacin al aadir otros regresores a un modelo. Si se aade un regresor al modelo la SCR decrece o, en el peor de los casos queda
Estadstica Inferencial II Pgina 13

igual. Por otra parte, los grados de libertad de la regresion (n-1-k) siempre disminuyen. Por ello, el puede crecer o decrecer cuando se aade un nuevo regresor al modelo. Es decir: Un resultado algebraico interesante es el hecho de que si aadimos un nuevo regresor a un modelo, el se incrementa si, y solo si, el estadstico t del nuevo regresor es mayor que uno en valor absoluto. As, vemos inmediatamente que podra ser utilizado para decidir si un determinado regresor adicional debe ser incluido en el modelo. El tiene una cota superior que es igual a 1, pero estrictamente no tiene una cota inferior, ya que puede tomar un valor negativo, aunque muy cerca de 0.

EVALUACIN DE LA ADECUACIN DEL M|ODELO DE REGRESIN. Anlisis residual. Los residuales a partir del modelo estimado de regresin mltiple, definidos por , desempean un papel importante en la evaluacin de la adecuacin del modelo al igual que lo hacen en la regresin lineal simple, existen varias graficas residuales que a menudo resultan tiles. Tambin resulta til graficar los residuales en relacin con variables que no se encuentren presentes en el modelo, pero que sean posibles candidatas para su inclusin. Los patrones en estas graficas indican que el modelo puede mejorarse agregando la variable candidata.

LA MATRIZ DE CORRELACIN. Una matriz de correlacin es una tabla de doble entrada para A B y C, que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlacin llamado r. El anlisis factorial se puede utilizar para estudiar series numricas o de valores cuantitativos para un determinado nmero de variables cuantitativas y mayor de dos. Por ejemplo, tres caractersticas o ms para series numricas con igual nmero de datos. Estas variables independientes o explicativas estn dispuestas ya en una matriz de correlacin, que es una tabla de doble entrada para A B y C, que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlacin llamado r o la relacin entre cada pareja en cada celda, expresada con un nmero que va desde 0 a 1. El modelo

Estadstica Inferencial II

Pgina 14

mide y muestra la interdependencia en relaciones asociadas o entre cada pareja de variables y todas al mismo tiempo.

Qu propsito tiene? Una matriz de correlacin es una tabla de doble entrada para A B y C, que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlacin llamado r.

LA MULTICOLINEALIDAD O COLINEALIDAD MLTIPLE. Qu es? En los problemas de regresion mltiple se espera encontrar dependencias entre la variable de respuesta Y y las variables regresoras xj. Sin embargo, en la mayora de los problemas de regresion se encuentra que tambin hay dependencias entre las variables regresoras xj. Cuando estas dependencias son fuertes, se dice que existe colinealidad mltiple. La colinealidad mltiple puede tener efectos de consecuencia sobre las estimaciones de los coeficientes de regresion y sobre la aplicabilidad general del modelo estimado. Los efectos de colinealidad mltiple pueden demostrarse con facilidad. Los elementos de la diagonal de la matriz C= (XX)-1 pueden escribirse como: j=1, 2,, k Donde es el coeficiente de determinacin mltiple que resulta de hacer la regresion de xj sobre las k-1 variables regresoras. Cmo se detecta su presencia? Hay varias formas de detectar la presencia de la colinealidad mltiple. 1. Los factores de inflacin de loa varianza, son medidas de colinealidad mltiple muy tiles. Entre mayor sea el factor de inflacin de la varianza, ms marcada ser la colinealidad mltiple. Algunos autores han sugerido que si cualquiera de los factores de inflacin de la varianza excede 10, entonces la colinealidad mltiple constituye un problema. Otros autores consideran este valor muy dadivoso y sugieren que los factores de inflacin de la varianza no debern exceder 4 o 5.

Estadstica Inferencial II

Pgina 15

2. Si la prueba F de la significacin de la regresion es significativa, pero las pruebas de los coeficientes de regresion individuales son no significativas, entonces puede estar presente la colinealidad mltiple. Qu medidas correctivas se pueden utilizar para resolver este problema? Se han propuesto varias medidas correctivas para resolver el problema de la colinealidad mltiple. Se sugiere con frecuencia aumentar los datos con nuevas observaciones diseadas especficamente para romper las dependencias lineales aproximadas que existen normalmente. Sin embargo, en ocasiones esto es imposible debido a razones econmicas o por las restricciones fsicas que relacionan las xj. Otra probabilidad es eliminar ciertas variables del modelo, pero este enfoque tiene la desventaja de descartar la informacin contenida en las variables eliminadas. Puesto que la colinealidad mltiple afecta principalmente la estabilidad de los coeficientes de regresion, al parecer estimar estos parmetros con algn mtodo que sea menos sensitivo a la colinealidad mltiple que los mnimos cuadrados ordinarios, seria de ayuda. Se han sugerido varios mtodos. Una alternativa de los mnimos cuadrados ordinarios, la regresion sobre ascensos (cordilleras), puede ser til para combatir la colinealidad mltiple.

Estadstica Inferencial II

Pgina 16

CONCLUSIN. Como veremos la regresion lineal mltiple es de gran importancia para obtener la relacin de informacin obtenida que favorezca en la situacin aplicada, ya sea para tomar decisiones ajustadas con respecto al problema. Es conveniente usar este tipo de regresion ya que se emplea o se realiza para saber si existe relacin entre las variables y el tipo de relacin donde existe una variable dependiente en funcin de dos o ms variables independientes. Por ejemplo la regresin lineal mltiple tiene muchas aplicaciones en las cuales podemos aplicarlas segn sea el problema: 1.- El costo del consumo de gasolina de los vehculos de transporte segn sus tiempos de viaje y el mantenimiento proporcionado. 2.- La cantidad de ventas de la compaa (y), segn el nmero de vendedores (x1), los aos de experiencia (x2), y la poca del ao, etc. 3.- En ergonoma para conocer el peso de un muchacho y relacionarlo con su estatura, edad, etc. 4.- El rendimiento de un proceso qumico donde se desea conocer la relacin que guarda la temperatura con la concentracin y el PH de una mezcla. Entre otras aplicaciones donde se puede realizar o llevar a cabo la regresin lineal mltiple. Esperando que la informacin presentada haiga sido de gran utilidad y sea de gran ayuda para comprender ciertos concepto

Estadstica Inferencial II

Pgina 17

BIBLIOGRAFA. Probabilidad y Estadstica Aplicadas a la Ing. 2a edicin; Montgomery Runger; limusa.

Probabilidad y Estadstica, 4a edicin; Walpole Myers; McGraw Hill.

Probabilidad y Estadstica para ciencias Quimicas Biologicas; Mara Mrquez de Cant McGraw Hill. Diseo y Anlisis de Experimentos; Douglas C. Montgomery; Iberoamericana.

Estadstica Inferencial II

Pgina 18

You might also like