Professional Documents
Culture Documents
Introduccin
El anlisis de regresin es una tcnica para investigar y modelar la relacin entre variables. Aplicaciones de regresin
son numerosas y ocurren en casi todos los campos, incluyendo ingeniera, la fsica, ciencias econmicas, ciencias
biolgicas y de la salud, como tambin ciencias sociales.
Utilidad
1. Descripcin de datos Ingenieros y cientficos frecuentemente utilizan ecuaciones para resumir un conjunto de datos.
El anlisis de regresin es til para describir los datos.
2. Estimacin de parmetros. Uno de los casos en los cuales se utiliza el anlisis de regresin para estimar parmetros
es el siguiente:
Suponga que un circuito elctrico contiene una resistencia conocida de ohms. Diferentes corrientes pasan a travs del
circuito y el correspondiente voltaje es medido.
El diagrama de dispersin podra indicar que el voltaje y la corriente estan relacionados por una lnea recta que pasa por el
orgen con pendiente (debido a que el voltaje y la corriente estan relacionados por la ley de Ohm ). El
anlisis de regresin podra ser utilizado para ajustar este modelo a los datos, produciendo un estimado de la resistencia
desconocida.
3. Para prediccin y estimacin. Algunos casos de esta utilidad del anlisis de regresin son:
La respuesta de un cultivo al variar la cantidad de los fertilizantes; el objetivo puede ser establecer la forma de
la relacin, o predecir la combinacin optima de fertilizantes.
La relacin entre varias medidas meterolgicas y la produccin del cultivo; el ms obvio objetivo podra ser
tratar de entender los efectos meterolgicos sobre el crecimiento del cultivo.
En el anlisis de regresin se pueden distinguir dos tipos de variables: variables predictoras y variables respuestas. La
diferencia entre variable predictora y respuesta es no siempre completamente clara y depende algunas veces de nuestros
objetivos. Algunos nombres conocidos para las variables predictoras y respuestas son:
Modelo Lineal
La ms simple relacin entre dos variables es una lnea recta. En donde se tiene pares de observaciones de y
En el modelo existe una sola variable independiente y los parmetros tienen exponente uno. Los modelos y
tiene una sola variable independiente pero con exponentes diferentes de uno, por lo cual se llamamodelo de segundo
orden y tercer orden respectivamente con una sola variable indepeniente; es de observar, que los parmetros tienen slo
exponente uno y por tanto sigue siendo un modelo lineal. El modelo es un modelo lineal de primer orden pero con dos
(c)
Modelo Lineal
Cuando los parmetros no se encuentran de manera lineal el modelo se llama modelo no lineal, por ejemplo el modelo
es un modelo no lineal.
Los modelos no lineales de manera general se agrupan en tres tipos. El primero involucra terminos exponenciales dados
por:
El segundo tipo de modelo no lineal que es comunmente usado es basado sobre la relacin recproca, tipicamente la
hiprbola rectangular. Simplemente la relacin entre la enzima y la quimica cinetica puede frecuentemente ser expresada
en la forma
Un tercer tipo de modelo no lineal es la curva logistica, extrensivamente utilizada para representar elcrecimiento de
organismos desde un pequeo estado inicial, durante el cual el crecimiento es proporcional al tamao, hasta la ltima
etapa cuando el tamao se aproxima a una asintota. La idea subyacente es que la taza de cambio esta relacionada con el
tamao por una ecuacin diferencial
Paso 1. Estimar los parmetros del modelo de regresin. Este proceso es llamado ajuste del modelo a los datos.
Paso 2. El siguiente paso de un anlisis de regresin es chequear que tan bueno es el modelo ajustado. El resultado de
este chequeo puede indicar si el modelo es razonable o si el ajuste original debe ser modificado.
Leccin 1: Estimacin de parmetros por mnimos cuadrados
En esta seccin se tratar la estimacin de parmetros para el modelo de regresin lineal simple; esto es
, un modelo con un solo regresor que tiene una relacin con una respuesta y que es una linea recta.
El modelo lineal es dado por
Donde
La no correlacin de los errores significa que el valor de un error no depende del valor de cualquier otro
error.
2. La variable respuesta es aleatoria. Esto es, existe una distribucin de probabilidad para en cada
posible valor de . La media de la distribucin es
y la varianza es
Ejemplo 1
Lecturas de la
efectividad, 38, 43, 29 32, 26, 33 19, 27, 23 14, 19, 21
Temperatura,
Ejemplo 2
Los experimentos diseados para medir valores LC50 en la investigacin de los efectos de cierto producto
txico en peces se efectuan con dos mtodos diferentes:
A fin de establecer los criterios para sustancias txicas, la Agencia para la proteccin ambiental (APA)
pretende ajustar todos los resultados a la condicin dinmica. Por lo que se requiere de un modelo para
relacionar los dos tipos de observaciones. Las observaciones acerca de ciertos productos txicos en
ambas condiciones, estticas y dinmica, dieron los siguientes resultados (las mediciones estan en
partes por milln, ppm).
recta se debe proponer un modelo de regresin lineal simple como el dado en la ecuacin .
Se le llama modelo de regresin ajustado o ecuacin de regresin que relaciona a la variable con
la variable obtenida a partir de los datos de la muestra. Para obtener la ecuacin de regresin o
modelo ajustado se debe obtener los estimadores de los parmetros del modelo: y . Estos se
puede obtener mediante algunos mtodos de estimacin como
Mnimos cuadrados
Mxima verosimilitud
El mtodo de mnimos cuadrados, encuentra los estimadores de los parmetros y tal que la
suma de cuadrados de los residuales (diferencias entre el valor observado de y el valor estimado )
sea mnima. Para la aplicacin del mtodo de mnimos cuadrados se debe:
2. Obtener la derivada de la suma de cuadrados del error con respecto a cada parmetro del modelo; es
decir y .
3. Igualar las derivadas a cero y simplificar (se debe sustituir y por sus respectivos
estimadores y ).
simplificando
Ejemplo
En una curva de calibracin, la densidad ptica vara dependiendo de la concentracin de biomasa, como
se muestra en la tabla 1.
Tabla 1. Anlisis de regresin lineal para la densidad ptica como una funcin de la
concentracin de biomasa.
Densidad
Concentracin
ptica ( )
( )
(%Trasmitanci
(mM)
a)
1 4
2 9
4 18
5 20
8 35
10 41
12 47
15 60
Para determinar de manera inicial la relacin lineal entre las dos variables se debe elaborar un diagrama
de dispersin, como el que aparece en la figura 4.
Figura 1. Grfico de dispersin para los valores observados y pronosticados.
De acuerdo al grfico de dispersin se puede asumir que existe una relacin lineal y se requiere la lnea
recta que mejor se ajuste a los datos experimentales.
3. Determinar el modelo estadstico: Como la densidad ptica parece aumentar a medida que
aumenta la concentracin entonces se debe sugerir un modelo lineal dado por:
donde es el valor observado en este caso la densidad ptica para un valor de concentracin ,
corresponde al intercepto de con la lnea de regresin y representa el valor medio de densidad
ptica para un valor determinado de concentracin llamada pendiente de la lnea de regresin o
coeficiente de regresin, es el valor de la concentracin, que se asume, es medida sin error.y es la
variable aleatoria error.
Para poder utilizar este modelo , se asume que las variables error cumplen los suguientes supuestos:
Son independientes
Estos supuesto deben cumplirse para que el anlisis de los datos sea vlido.
4. Determinar la ecuacin de regresin o modelo ajustado: El modelo predicho o ecuacin de
regresin ajustada es una expresin como la siguiente
Para obtenerla usted debe encontrar los valores estimados de los parmetros: y . stos se
obtienen aplicando el mtodo de mnimos cuadrados.
El mtodo de mmos cuadrado trata de buscar cual es la recta que ms se acerca a los puntos; es decir
busca la recta que haga que la distancia entre el valor real y el valor obtenido por la recta ajustada
sea la ms pequea y as, la suma de todas estas distancias simbolizadas como:
sea la ms pequea. Como la mejor recta est determinada por y entonces matemticamente, se
desea escoger los valores para y que minimicen la suma de cuadrados del error. Para el ejemplo
los valores estimados son:
Rango Y de entrada: seleccione la columna que contiene los datos de la variable dependiente
Rango X de entrada: seleccione la (s) columna (s) que contiene (n) los datos de la (s) variable (s) independiente
(s)
Rtulos: active rtulos si al seleccionar los valores de las variables tom los nombres de estas.
Constante igual a cero: active sta si desea que la lnea de regresin o superficie ajustada tenga intercepto cero
con el eje
Nivel de confianza: ingrese el nivel de confianza deseado. Si desea realizar pruebas de hiptesis con probabilidad
de error tipo I del 5%, ingrese 95%.
Opciones de salida: elija el lugar donde desea que aparezcan sus resultados.
Introduccin
Ahora se tratar de conocer cuanta de la variacin en los datos ha sido explicada por la regresin.
Inicialmente se definir el trmino residual como la diferencia entre el valor observado y el valor
estimado (o ajustado) ; esto es,
Donde . Entonces
Donde la cantidad
Lo anterior muestra que, de la variacin total en alrededor de su media, una parte de esta variacin
puede ser atribuida a la lnea de regresin y la otra al error.
Regresin
CM
Residual
CM
Causa de Grados de Suma de Cuadrados F
total
Grados de libertad
Cualquier suma de cuadrados est asociada con nmero llamado grados de libertad. Este nmero
indica cuantas trminos independientes de informacin involucradas en los nmeros
independientes se necesitan para obtener la suma de cuadrados. Por ejemplo la suma de
cuadrados total o alrededor de la media necesita trminos independientes (de los
nmeros , slamente son independientes ya que todos los nmeros suman
cero por definicin). Tambien la suma de cuadrados de la regrsin puede ser calcualda de una sola
Debido a que las son variables aleatorias, cualquier funcin de ellas es tambi; existen dos
sigue una distribucin con (aqui) y grados de libertad para probar la hiptesis nula .
Si se cumple o no se rechaza y significa que la variable predictora no influye en la variabilidad de . El
Valor calculado para la estadsitica , denotado por , a partir de los datos de la muestra, se compara
con el valor terico de la distribucin , denotado por , con un grado de libertad en el numerador
(grados de libertad de la regresin) y grados de libertad en el denominador (grados de libertad del
error). Si El valor de se rechaza la hiptesis nula. Tambin es posible tomar la decisin con
el valor P. Esto es, si el valor P es menor que , entonces se rechaza la hiptesis nula.
Ejemplo
Para este caso, podemos decir que la variabilidad total de es , la cual se descompone en la
variabilidad de atribuible a la asociacin lineal entre y que es igual a , y la variacin
aleatoria que es igual a . Como puede observarse, la mayor parte de la variabilidad de se
explica por la regresin ms que por efecto aleatorio, por lo tanto el supuesto de regresin lineal es
razonable. El valor del estadstico , es significativo puesto que es un valor grande para que
sea debido solo al azar. La tabla de anlisis de varianza (ANOVA) tiene la siguiente forma.
Para evaluar el ajuste del modelo se puede utilizar la estadstica o coeficiente de determinacin
expresada por
que mide la proporcin de la variabilidad total explicada por el modelo de regresin planteado, o la la
proporcin del total que es debida a la regresin. Se espera que esta proporcin sea alta y cerca del
y solo una pequea parte sea debido al error. La interpretacin de depende del nmero de datos:
Por lo anterior se debe tener mucho cuidado cuando el nmero de datos sea poco porque el coeficiente
de determinacin puede ser muy alto y no ser necesariamente as.
puede tomar valores muy cecanos a cundo todos los valores de son diferentes, per
cuando existen observaciones repetidas para un mismo , el valor de no puede lograr ser aun
cuando el modelo se ajuste bien a los datos o no impotando cuantos trminos use el modelo (excepto
cuando , lo cual es raro en estos casos).
Ejemplo
Se debe tener en cuenta que tanto como son estadisticas de muestra, y que no debemos depender
nicamente de sus valores para decidir si un modelo es til o no para predecir . Utilice la prueba
para hacer inferencia sobre la idoneidad global del modelo de regresin En el ejemplo el valor es
0.99597.
Leccin 4: Inferencia sobre los parmetros
Inferencia sobre 1
Adems de obtener estimados de los parmetros , y , se puede tambin obtener intervalos de
confianza estimados para estos parmetros. Estos intervalos se quiere que sean:
Lo anterior depende de la calidad del ajuste de la lnea recta. Si la hiptesis nula se rechaza,
se debe seguir con la inferencia sobre los parmetros y . La inferencia se puede realizar por:
Intervalos de confianza
donde
El anterior intervalo puede ser utilizado para probar la hiptesis nula , observando si en el
Si se cumplen los supuestos del modelo respecto a la variable aleatoria , entonces la distribucin de
Ejemplo
el cual se interpreta como: con una probabilidad del , cada vez que se aumente en una unidad la
Prueba de hiptesis
La hiptesis estadstica para es Versus . Donde es el valor que se
supone para . La estadstica de prueba utilizada para probar la hiptesis nula de que (valor
Propiedades de 1
y como donde ,
entonces
Esperanza de 1
Como , entonces,
pero
Entonces
Varianza de 1
es
, entonces
El valor absoluto de , obtenido al calcular la estadstica de prueba con los datos se compara
Ejemplo
Para el ejemplo
Luego el valor de la estadstica de prueba es
En regresin lineal simple, la anterior hiptesis nula puede probarse utilizando tambin la
estadstica , ya que se tiene tericamente que donde tiene un grado de libertad en el
numerador y en el denominador los grados de libertad del error (residual).
NOTA: Si ocurre que el valor observado es ms pequeo que el valor crtico, nosotros
tenemos que decir que no pudimos rechazar la hiptesis. Note que no se debe utilizar la
palabra "aceptar", ya que normalmente no podemos aceptar una hiptesis. Lo ms que
nosotros podemos decir es que sobre la base de los datos observados no podemos rechazar la
hiptesis. Puede ser posible que ocurra que con otro conjunto de datos se pueda encontar
evidencia contraria a nustra hiptesis y as rechzar esta.
donde
ser una cantidad pivotal apropiada para la estimacin de un intervalo de confianza para el
intercepto. La cual se distribuye con grados de libertad si los errores estan
normalmente distribuidos y son independientes. Observe que tiene la forma
. Entonces
como entonces
La desviacin estndar de es la raz cuadrada de la varianza, esto es
Ejemplo
Para los datos del Ejemplo el intervalo de confianza para el intercepto es dado por
Prueba de hiptesis para Versus
El valor absoluto de , obtenido al calcular la estadstica de prueba con los datos se compara
Ejemplo
Para el ejemplo
Luego el valor de la estadstica de prueba es
En regresin lineal simple, la anterior hiptesis nula puede probarse utilizando tambin la
estadstica , ya que se tiene tericamente que donde tiene un grado de libertad en el
numerador y en el denominador los grados de libertad del error (residual).
Otra forma de probar la hiptesis nula es comparando el valor P con , se rechaza la hiptesis
nula si . En el ejemplo, la hiptesis es rechazada. Su valor es
menor que .
NOTA
Si ocurre que el valor observado es ms pequeo que el valor crtico, nosotros tenemos que
decir que no pudimos rechazar la hiptesis. Note que no se debe utilizar la palabra
``aceptar'', ya que normalmente no podemos aceptar una hiptesis. Lo ms que nosotros
podemos decir es que sobre la base de los datos observados no podemos rechazar la hiptesis.
Puede ser posible que ocurra que con otro conjunto de datos se pueda encontar evidencia
contraria a nuestra hiptesis y as rechazarla.
Inferencia sobre
Si los errores se encuentran distribuidos normal e independientemente, la distribucin de
es Chi-cuadrado con grados de libertad. Esta es una cantidad pivotal adecuada para
donde
Ejemplo
Leccin 5: Correlacin
Correlacin entre X y Y
Una manera descriptiva de determinar la bondad de ajuste del modelo, es a travs del
coeficiente de correlacin. o coeficiente de correlacin momento-producto de Pearson. Este es
una medida que actua como indicadora de la intensidad, o fuerza, de la relacin lineal entre dos
variables y que no depende de sus respectivas escalas de medicin. Los valores de
oscilan entre y . Entre ms cercano sea el valor a o mejor es el ajuste de la recta de
regresin. Un valor de indica que no existe relacin lineal entre las dos variables
pero puede existir otro tipo de relacin (curvilnea figura 1). Un valor positivo de
indica que la recta sube hacia la derecha; un valor negativo, que la recta baja hacia la
derecha (Figura 1).
Ejemplo
En el ejemplo tratado, se calcula con el fin de medir la fuerza de asociacin lineal existente
entre la concentracin de biomasa ( ) y la densidad ptica ( ). En este caso , un valor
positivo cercano a , por lo cual puede decirse que el modelo parece ser correcto y existe una
correlacin positiva fuerte. Este valor positivo coincide con el tipo de pendiente obtenida
(positiva), lo que indica que a medida que se incrementa la concentracin de biomasa aumenta
la densidad ptica.
el cual se distribuye con grados de libertad (se resta 2 porque en este caso se
estn estimando dos parmetros).
Ejemplo
En este ejemplo la prueba se realiz con un nivel de significacin de 5%. Al reemplazar en la
estadstica de prueba los valores , y se tiene que el estadstico
con y grados de libertad (prueba de dos colas) dado por , para una
prueba de dos colas, se puede concluir que la hiptesis nula se debe rechazar; es decir existe
una asociacin lineal entre la densidad ptica y la concentracin.
Donde
suma de cuadrados de .
Observe que el nmerador es exactamente igual al numerdor del estimador para , y como
donde
con
es dado por
cuyo valor calculado se debe comparar con los valores apropiados de la distribucin normal
estndar.
Ejercicio
1. Sea X con funcin de densidad
Correlacin entre X y Y
Una manera descriptiva de determinar la bondad de ajuste del modelo, es a travs del
coeficiente de correlacin. o coeficiente de correlacin momento-producto de Pearson. Este es
una medida que actua como indicadora de la intensidad, o fuerza, de la relacin lineal entre dos
variables y que no depende de sus respectivas escalas de medicin. Los valores de
oscilan entre y . Entre ms cercano sea el valor a o mejor es el ajuste de la recta de
regresin. Un valor de indica que no existe relacin lineal entre las dos variables
pero puede existir otro tipo de relacin (curvilnea figura 1). Un valor positivo de
indica que la recta sube hacia la derecha; un valor negativo, que la recta baja hacia la
derecha (Figura 1).
el cual se distribuye con grados de libertad (se resta 2 porque en este caso se
estn estimando dos parmetros).
Ejemplo
En este ejemplo la prueba se realiz con un nivel de significacin de 5%. Al reemplazar en la
estadstica de prueba los valores , y se tiene que el estadstico
con y grados de libertad (prueba de dos colas) dado por , para una
prueba de dos colas, se puede concluir que la hiptesis nula se debe rechazar; es decir existe
una asociacin lineal entre la densidad ptica y la concentracin.
Donde
suma de cuadrados de .
suma de cuadrados de .
Observe que el nmerador es exactamente igual al numerdor del estimador para , y como
donde
Demostrar que
es dado por
cuyo valor calculado se debe comparar con los valores apropiados de la distribucin normal
estndar.
Ejercicio
1. Sea X con funcin de densidad
Es decir una disribucin uniforme sobre . sea para