You are on page 1of 37

Mtodos de Regresin.

Introduccin

El anlisis de regresin es una tcnica para investigar y modelar la relacin entre variables. Aplicaciones de regresin
son numerosas y ocurren en casi todos los campos, incluyendo ingeniera, la fsica, ciencias econmicas, ciencias
biolgicas y de la salud, como tambin ciencias sociales.

Utilidad

Utilizados para varios propsitos, incluyendo los siguientes:

1. Descripcin de datos Ingenieros y cientficos frecuentemente utilizan ecuaciones para resumir un conjunto de datos.
El anlisis de regresin es til para describir los datos.

2. Estimacin de parmetros. Uno de los casos en los cuales se utiliza el anlisis de regresin para estimar parmetros
es el siguiente:

Suponga que un circuito elctrico contiene una resistencia conocida de ohms. Diferentes corrientes pasan a travs del
circuito y el correspondiente voltaje es medido.

El diagrama de dispersin podra indicar que el voltaje y la corriente estan relacionados por una lnea recta que pasa por el

orgen con pendiente (debido a que el voltaje y la corriente estan relacionados por la ley de Ohm ). El
anlisis de regresin podra ser utilizado para ajustar este modelo a los datos, produciendo un estimado de la resistencia
desconocida.

3. Para prediccin y estimacin. Algunos casos de esta utilidad del anlisis de regresin son:

La respuesta de un cultivo al variar la cantidad de los fertilizantes; el objetivo puede ser establecer la forma de
la relacin, o predecir la combinacin optima de fertilizantes.

La relacin entre varias medidas meterolgicas y la produccin del cultivo; el ms obvio objetivo podra ser
tratar de entender los efectos meterolgicos sobre el crecimiento del cultivo.

En el anlisis de regresin se pueden distinguir dos tipos de variables: variables predictoras y variables respuestas. La
diferencia entre variable predictora y respuesta es no siempre completamente clara y depende algunas veces de nuestros
objetivos. Algunos nombres conocidos para las variables predictoras y respuestas son:

Modelo Lineal
La ms simple relacin entre dos variables es una lnea recta. En donde se tiene pares de observaciones de y

donde , la variable dependiente, se asume dependiente sobre , la variable independiente. Se considera


un modelo lineal cuando los parmetros ocurren de manera lineal, as por ejemplo

Modelo lineal o de primer orden

Modelo cuadrtico o de segundo orden en una variable

Modelo de tercer orden en una variable

Modelo lineal o de primer orden con dos variables

En el modelo existe una sola variable independiente y los parmetros tienen exponente uno. Los modelos y
tiene una sola variable independiente pero con exponentes diferentes de uno, por lo cual se llamamodelo de segundo
orden y tercer orden respectivamente con una sola variable indepeniente; es de observar, que los parmetros tienen slo

exponente uno y por tanto sigue siendo un modelo lineal. El modelo es un modelo lineal de primer orden pero con dos

variables independientes. Los tres primeros modelos de se muestran en la figura 1.

Figura 1. Modelos polinomiales; (a) , (b) ,

(c)

Modelo Lineal

Cuando los parmetros no se encuentran de manera lineal el modelo se llama modelo no lineal, por ejemplo el modelo
es un modelo no lineal.

Los modelos no lineales de manera general se agrupan en tres tipos. El primero involucra terminos exponenciales dados
por:

El segundo tipo de modelo no lineal que es comunmente usado es basado sobre la relacin recproca, tipicamente la
hiprbola rectangular. Simplemente la relacin entre la enzima y la quimica cinetica puede frecuentemente ser expresada
en la forma

donde seria la constante de Michaelis-Menten, o

utilizada para relacionar la fotosintesis y la intensidad de luz.

Un tercer tipo de modelo no lineal es la curva logistica, extrensivamente utilizada para representar elcrecimiento de
organismos desde un pequeo estado inicial, durante el cual el crecimiento es proporcional al tamao, hasta la ltima
etapa cuando el tamao se aproxima a una asintota. La idea subyacente es que la taza de cambio esta relacionada con el
tamao por una ecuacin diferencial

y en terminos del tamao a diferentes tiempos, se obtiene el modelo no lineal

Cmo se analiza un modelo de regresin?

Para analizar un modelo de regresin se pueden establecer bsicamente dos pasos.

Paso 1. Estimar los parmetros del modelo de regresin. Este proceso es llamado ajuste del modelo a los datos.

Paso 2. El siguiente paso de un anlisis de regresin es chequear que tan bueno es el modelo ajustado. El resultado de
este chequeo puede indicar si el modelo es razonable o si el ajuste original debe ser modificado.
Leccin 1: Estimacin de parmetros por mnimos cuadrados

En esta seccin se tratar la estimacin de parmetros para el modelo de regresin lineal simple; esto es
, un modelo con un solo regresor que tiene una relacin con una respuesta y que es una linea recta.
El modelo lineal es dado por

Donde

la observacion de la variable aleatoria dependiente .


es la observacion de la variable fja dependiente
es el intercepto y es una constante (parmetro)
es llamado la pendiente y es una constante (parmetro)
es la componente aleatoria error

Para se hacen los siguientes supuestos:

Los errores tienen media cero


Los errores tienen varianza igual pero desconocida .
Los errores no son correlacionados.

La no correlacin de los errores significa que el valor de un error no depende del valor de cualquier otro
error.

Es de tener en cuenta que:

1. La variable regresor es es controlada por el investigador y medida con un error despreciable.

2. La variable respuesta es aleatoria. Esto es, existe una distribucin de probabilidad para en cada
posible valor de . La media de la distribucin es

y la varianza es

Cmo obtener los datos?


Lo primero que se debe hacer antes de colectar los datos es identificar la variable dependiente y la
variable independiente. seguido esto se registran los pares de datos ya
sea por medio de:

Experimentos controlados diseado especficamente para obtener los datos o


Registros histricos existentes.
Ejemplo de experimentos controlados y NO controlados

Ejemplo 1

Se realiz un experimento el efecto de incremento de la temperatura en la efectividad de un antibitico.


Se almacenaron tres porciones de una onza del antibitico durante el mismo lapso a cada una de las
siguientes temperaturas: , , y Las lecturas de la efectividad observadas a la temperatura
del perido experimental fueron:

Lecturas de la
efectividad, 38, 43, 29 32, 26, 33 19, 27, 23 14, 19, 21

Temperatura,

Ejemplo 2

Los experimentos diseados para medir valores LC50 en la investigacin de los efectos de cierto producto
txico en peces se efectuan con dos mtodos diferentes:

Mtodo 1: el agua fluye continuamnete a travs de los tanques de laboratorio dinmico.

Mtodo 2: condiciones de agua en reposo.

A fin de establecer los criterios para sustancias txicas, la Agencia para la proteccin ambiental (APA)
pretende ajustar todos los resultados a la condicin dinmica. Por lo que se requiere de un modelo para
relacionar los dos tipos de observaciones. Las observaciones acerca de ciertos productos txicos en
ambas condiciones, estticas y dinmica, dieron los siguientes resultados (las mediciones estan en
partes por milln, ppm).

Produc CL50 CL50


to dinmico, esttico,
txico
1 23.00 39.00
2 22.30 37.50
3 9.40 22.20
4 9.70 17.50
5 0.15 0.64
6 0.28 0.45
7 0.75 2.62
8 0.51 2.36
9 28.00 32.00
10 0.39 0.77

Cmo determinar si se debe aplicar un modelo de regresin simple?


Una vez se han colectado los datos se debe ubicar los puntos en un plano cartesiano donde en el eje

se este la variable independiente y en el eje la variable dependiente. Este grfico es llamado


el diagrama de dispersin. Si en el diagrama de dispersin los datos parecen ajustarse a una linea

recta se debe proponer un modelo de regresin lineal simple como el dado en la ecuacin .

Cmo obtener la ecuacin de regresin o modelo ajustado?

Se le llama modelo de regresin ajustado o ecuacin de regresin que relaciona a la variable con
la variable obtenida a partir de los datos de la muestra. Para obtener la ecuacin de regresin o
modelo ajustado se debe obtener los estimadores de los parmetros del modelo: y . Estos se
puede obtener mediante algunos mtodos de estimacin como

Mnimos cuadrados

Mxima verosimilitud

El mtodo de mnimos cuadrados, encuentra los estimadores de los parmetros y tal que la
suma de cuadrados de los residuales (diferencias entre el valor observado de y el valor estimado )
sea mnima. Para la aplicacin del mtodo de mnimos cuadrados se debe:

1. Escribir la suma de cuadrados del error

2. Obtener la derivada de la suma de cuadrados del error con respecto a cada parmetro del modelo; es

decir y .

3. Igualar las derivadas a cero y simplificar (se debe sustituir y por sus respectivos
estimadores y ).
simplificando

La anteriores ecuaciones son llamadas Ecuaciones normales.

4. Solucionar el sistema de ecuaciones o ecuaciones normales.

Despejando el valor de en la ecuacin normal y reemplazando en la se obtiene la solucin de


las ecuaciones normales para , llamado la pendiente de la recta ajustada.

de las ecuaciones anteriores se

tiene las cuales son llamadas ecuaciones normales. la solucin de las


ecuaciones normales para , la pendiente de la recta ajustada, es

Reemplazando el valor de en la ecuacin normal se obtiene la solucin para


Luego la ecuacin de regresin o modelo ajustado es

Ejemplo

En una curva de calibracin, la densidad ptica vara dependiendo de la concentracin de biomasa, como
se muestra en la tabla 1.

Tabla 1. Anlisis de regresin lineal para la densidad ptica como una funcin de la
concentracin de biomasa.

Densidad
Concentracin
ptica ( )
( )
(%Trasmitanci
(mM)
a)
1 4
2 9
4 18
5 20
8 35
10 41
12 47
15 60

Para el anlisis de una situacin de relacin entre dos variables se debe:

1. Identificar la variable independendiente y la variable dependiente: En este caso la variable


dependiente es la densidad ptica ( ) y la variable independiente es concentracin ( ).

2. Determinar si existe una relacin de dependencia razonable. En la situacin presentada puede


observarse que en la realidad estas dos caractersticas (concentracin de biomasa y densidad ptica)
presentan una relacin lgica. Se ha encontrado que la densidad ptica depende de la concentracin de
biomasa.

Para determinar de manera inicial la relacin lineal entre las dos variables se debe elaborar un diagrama
de dispersin, como el que aparece en la figura 4.
Figura 1. Grfico de dispersin para los valores observados y pronosticados.

De acuerdo al grfico de dispersin se puede asumir que existe una relacin lineal y se requiere la lnea
recta que mejor se ajuste a los datos experimentales.

3. Determinar el modelo estadstico: Como la densidad ptica parece aumentar a medida que
aumenta la concentracin entonces se debe sugerir un modelo lineal dado por:

donde es el valor observado en este caso la densidad ptica para un valor de concentracin ,
corresponde al intercepto de con la lnea de regresin y representa el valor medio de densidad
ptica para un valor determinado de concentracin llamada pendiente de la lnea de regresin o
coeficiente de regresin, es el valor de la concentracin, que se asume, es medida sin error.y es la
variable aleatoria error.

Para poder utilizar este modelo , se asume que las variables error cumplen los suguientes supuestos:

Son normales con media cero

Son independientes

Tienen igual varianza .

Estos supuesto deben cumplirse para que el anlisis de los datos sea vlido.
4. Determinar la ecuacin de regresin o modelo ajustado: El modelo predicho o ecuacin de
regresin ajustada es una expresin como la siguiente

Para obtenerla usted debe encontrar los valores estimados de los parmetros: y . stos se
obtienen aplicando el mtodo de mnimos cuadrados.

El mtodo de mmos cuadrado trata de buscar cual es la recta que ms se acerca a los puntos; es decir
busca la recta que haga que la distancia entre el valor real y el valor obtenido por la recta ajustada
sea la ms pequea y as, la suma de todas estas distancias simbolizadas como:

sea la ms pequea. Como la mejor recta est determinada por y entonces matemticamente, se
desea escoger los valores para y que minimicen la suma de cuadrados del error. Para el ejemplo
los valores estimados son:

, corresponde al punto de interseccin en el eje o punto en el que la recta corta al eje y


se interpreta como la respuesta mnima que se espera tener para la variable , es decir el mnimo valor
de densidad ptica.

, corresponde a la pendiente de la recta o coeficiente de regresin. Como puede observarse


en la grfica la recta tuvo una inclinacin ascendente de izquierda a derecha, lo que es consistente con el
valor obtenido de que fu positivo, por esto se concluye que tiene pendiente POSITIVA y puede
decirse que existe una relacin lineal positiva entre la densidad ptica y la concentracin (lo cual se
haba detectado grficamente). El valor de la pendiente significa que a medida que aumente en una
unidad la concentracin de biomasa, la densidad ptica promedio incrementar en unidades.

Al reemplazar en la ecuacin de regresin los valores de los parmetros estimados se tiene:

El analisis de los datos


Ejemplo 1
Para obtener el anlisis de los datos usted debe hacer lo siguiente:

1. Ingrese los datos en dos columnas.

2. Seleccione en herramientas la opcin anlisis de datos y luego regresin.

3. En la ventana de regresin se debe ingresar la siguiente informacin:

Rango Y de entrada: seleccione la columna que contiene los datos de la variable dependiente

Rango X de entrada: seleccione la (s) columna (s) que contiene (n) los datos de la (s) variable (s) independiente

(s)

Rtulos: active rtulos si al seleccionar los valores de las variables tom los nombres de estas.

Constante igual a cero: active sta si desea que la lnea de regresin o superficie ajustada tenga intercepto cero

con el eje

Nivel de confianza: ingrese el nivel de confianza deseado. Si desea realizar pruebas de hiptesis con probabilidad
de error tipo I del 5%, ingrese 95%.

Opciones de salida: elija el lugar donde desea que aparezcan sus resultados.

Residuales: active las opciones de residuales deseadas.

Probabilidad normal: actvelo si desea obtener el grfico de probabilidad normal.

Leccin 2: Anlisis de varianza

Introduccin
Ahora se tratar de conocer cuanta de la variacin en los datos ha sido explicada por la regresin.
Inicialmente se definir el trmino residual como la diferencia entre el valor observado y el valor
estimado (o ajustado) ; esto es,

donde . Es de notar que el residual es diferente de la variable aleatoria error .


Es posible mostrar que la suma de todos los residuales es cero. Esto es,

El residual puede expresarse segn la siguiente identidad


Se observa que el residual es la diferencia entre dos cantidades: la desviacin del valor
observado de la gran media y la desviacin del valor ajustado de la gran media Tambin la
anterior expresin se puede reescribir como

Si se eleva al cuadrado a ambos lados y se suma sobre todo , se obtiene

Donde . Entonces

Donde la cantidad

Lo anterior muestra que, de la variacin total en alrededor de su media, una parte de esta variacin
puede ser atribuida a la lnea de regresin y la otra al error.

Luego la tabla de anlisis de varianza es dada por

Causa de Grados de Suma de Cuadrados F

variacin libertad cuadrados medios Calcualdo

Regresin
CM

Residual
CM
Causa de Grados de Suma de Cuadrados F

variacin libertad cuadrados medios Calcualdo

total

Grados de libertad

Cualquier suma de cuadrados est asociada con nmero llamado grados de libertad. Este nmero
indica cuantas trminos independientes de informacin involucradas en los nmeros
independientes se necesitan para obtener la suma de cuadrados. Por ejemplo la suma de
cuadrados total o alrededor de la media necesita trminos independientes (de los
nmeros , slamente son independientes ya que todos los nmeros suman
cero por definicin). Tambien la suma de cuadrados de la regrsin puede ser calcualda de una sola

funcin de , llamada (ya que

Debido a que las son variables aleatorias, cualquier funcin de ellas es tambi; existen dos

particulares funciones: CM y CM . Estas funciones tiene su propia distribucin, media varianza, y


momentos. Se puede mostrar que

Si , la variable CM multiplicada por sus grados de libertad (aqui


uno) y dividida por por sigue una distribucin Chi-cuadrado con el mismo grado de libertad (uno).
Tambin, sigue una distribucin Chi-cuadrado con grados de libertad. Adems las dos
variables son independientes, un resultado estadsitico dice que la razn

sigue una distribucin con (aqui) y grados de libertad para probar la hiptesis nula .
Si se cumple o no se rechaza y significa que la variable predictora no influye en la variabilidad de . El
Valor calculado para la estadsitica , denotado por , a partir de los datos de la muestra, se compara
con el valor terico de la distribucin , denotado por , con un grado de libertad en el numerador
(grados de libertad de la regresin) y grados de libertad en el denominador (grados de libertad del
error). Si El valor de se rechaza la hiptesis nula. Tambin es posible tomar la decisin con
el valor P. Esto es, si el valor P es menor que , entonces se rechaza la hiptesis nula.

Ejemplo

En el ejemplo tratado, las causas de variacin en la densidad ptica son:


\La variabilidad debida a la concentracin

\La variabilidad resultante del error experimental.

Para este caso, podemos decir que la variabilidad total de es , la cual se descompone en la
variabilidad de atribuible a la asociacin lineal entre y que es igual a , y la variacin
aleatoria que es igual a . Como puede observarse, la mayor parte de la variabilidad de se
explica por la regresin ms que por efecto aleatorio, por lo tanto el supuesto de regresin lineal es
razonable. El valor del estadstico , es significativo puesto que es un valor grande para que
sea debido solo al azar. La tabla de anlisis de varianza (ANOVA) tiene la siguiente forma.

Leccin 3: Bondad del ajuste del modelo

Para evaluar el ajuste del modelo se puede utilizar la estadstica o coeficiente de determinacin
expresada por

que mide la proporcin de la variabilidad total explicada por el modelo de regresin planteado, o la la
proporcin del total que es debida a la regresin. Se espera que esta proporcin sea alta y cerca del
y solo una pequea parte sea debido al error. La interpretacin de depende del nmero de datos:

-Si el nmero de datos es elevado, el coeficiente se disminuye

- Si el nmero de datos es poco, el coeficiente se aumenta.

Por lo anterior se debe tener mucho cuidado cuando el nmero de datos sea poco porque el coeficiente
de determinacin puede ser muy alto y no ser necesariamente as.

puede tomar valores muy cecanos a cundo todos los valores de son diferentes, per
cuando existen observaciones repetidas para un mismo , el valor de no puede lograr ser aun
cuando el modelo se ajuste bien a los datos o no impotando cuantos trminos use el modelo (excepto
cuando , lo cual es raro en estos casos).

Ejemplo

Para el ejemplo tratado, el valor de es de , cuyo respectivo porcentaje es , lo que significa


que el de la variacin en la densidad ptica ( ), se atribuye a su asociacin lineal con la
concentracin de biomasa ( ). Por lo anterior, el porcentaje de variacin en es explicado por su
asociacin lineal con en ms de 99.6%. En Excel se pueden obtener la medidas anteriores en la salida

Tabla 1. resumen de estadsticas para el anlisis de regresin de la concentracin vs la


biomasa

El coeficiente de determinacin ajustado

El coeficiente de determinacin ajustado, ,es una correccin o ajuste del coeficiente de


determinacin por el tamao de muestra como el nmero de parmetros del modelo . siempre es
menor que y, lo que es ms importante, no se pude ``forzarse'' a 1 con slo agregar ms y ms
variables independientes al modelo El coeficiente de determinacin ajustado es obtenido mediante la
expresin

Se debe tener en cuenta que tanto como son estadisticas de muestra, y que no debemos depender
nicamente de sus valores para decidir si un modelo es til o no para predecir . Utilice la prueba
para hacer inferencia sobre la idoneidad global del modelo de regresin En el ejemplo el valor es
0.99597.
Leccin 4: Inferencia sobre los parmetros

Inferencia sobre 1
Adems de obtener estimados de los parmetros , y , se puede tambin obtener intervalos de
confianza estimados para estos parmetros. Estos intervalos se quiere que sean:

Precisos alto grado de confianza

(longitud pequea) grande

Lo anterior depende de la calidad del ajuste de la lnea recta. Si la hiptesis nula se rechaza,

se debe seguir con la inferencia sobre los parmetros y . La inferencia se puede realizar por:

intervalos de confianza pruebas de hiptesis

Intervalos de confianza

El intervalo de confianza del para est dado por

donde

valor estimado del parmetro

Valor terico de la distribucin T con grados de libertad


Suma de cuadrados de

El anterior intervalo puede ser utilizado para probar la hiptesis nula , observando si en el

intervalo estimado se encuentra el valor . Si esto ocurre no se rechaza la hiptesis nula.

Obtencin terica del intervalo de confianza para

Si se cumplen los supuestos del modelo respecto a la variable aleatoria , entonces la distribucin de

muestreo de , el estimador de mnimos cuadrados de la pendiente, ser normal con media


.

Ejemplo

Para los datos del

Obtencin terica del Ejemplo

Luego, el intervalo de confianza para la pendiente es dado por

el cual se interpreta como: con una probabilidad del , cada vez que se aumente en una unidad la

concentacin, la densidad en promedio aumentar entre y .

Prueba de hiptesis
La hiptesis estadstica para es Versus . Donde es el valor que se

supone para . La estadstica de prueba utilizada para probar la hiptesis nula de que (valor

que se supone para ) es

pero se conoce que el El error standar de es

Propiedades de 1

Se conoce que el Estimador de de

y como donde ,
entonces

vemos que es una combinacin lineal de las observaciones .

Esperanza de 1

Como , entonces,
pero

Entonces

lo cual quiere decir que es un estimador insegado del parmetro

Varianza de 1

La varianza de una funcin

es

si los son pares no correlacionados y las son constantes, adems si ,

La desviacin estndar de (o error estndar) es la raz cuadrada de la varianza, esto es


o si es deconocida y se utiliza el estimado en su lugar, asumiendo que el modelo es correcto, el
estimado de la desviacin estndar de es dado por

, entonces

El valor absoluto de , obtenido al calcular la estadstica de prueba con los datos se compara

con el valor terico , obtenido de una tabla con grados de libertad al


nivel de significancia.

Ejemplo

La primera inferencia que se desea hacer al estudiar la relacin entre y se refiere la


existencia de la relacin misma. Aporta informacin para predecir ?. Es decir, presentan
los datos informacin suficiente que indique que (densidad optica) aumenta (o disminuye)
linealmente cuando (concentracin) crece en la regin de observacin?. La pregunta prctica
para este ejemplo se refiere al valor de , que es el cambio medio en por unidad de cambio
en . Afirmar que no aumenta (o disminuye) linealmente cuando aumenta equivale a decir
que . Entonces se desea probar la hiptesis

Para el ejemplo
Luego el valor de la estadstica de prueba es

como (percentil 97.5 de la distribucin T), entonces se rechaza la


hiptesis nula y se llega a la conclusin de que la pendiente es diferente de cero; es
decir, existe un cambio promedio significativo en la densidad cuando se incrementa en una
unidad la concentracin.

En regresin lineal simple, la anterior hiptesis nula puede probarse utilizando tambin la
estadstica , ya que se tiene tericamente que donde tiene un grado de libertad en el
numerador y en el denominador los grados de libertad del error (residual).

Otra forma de probar la hiptesis nula es: comparando el valor P con .

se rechaza la hiptesis nula si valor P .

En el ejemplo, la hiptesis es rechazada. Su valor es menor que .

NOTA: Si ocurre que el valor observado es ms pequeo que el valor crtico, nosotros
tenemos que decir que no pudimos rechazar la hiptesis. Note que no se debe utilizar la
palabra "aceptar", ya que normalmente no podemos aceptar una hiptesis. Lo ms que
nosotros podemos decir es que sobre la base de los datos observados no podemos rechazar la
hiptesis. Puede ser posible que ocurra que con otro conjunto de datos se pueda encontar
evidencia contraria a nustra hiptesis y as rechzar esta.

Relacin entre la prueba de hiptesis y el intervalo de confianza

Si el valor supuesto para la pendiente en no se encuentra en el intervalo de confianza,


entonces la hiptesis es rechazada. En nuestro ejemplo observamos que como el valor cero no
se encuentra en el intervalo de confianza del para la pendiente , entonces se rechaza la
hiptesis nula.

Inferencia para el intercepto 0


Intervalos de confianza

El intervalo de confianza del para est dado por

donde

valor estimado del parmetro

Valor terico de la distribucin T con grados de libertad

Obtencin terica del Intervalo de confianza para

Si se cumplen los supuestos del modelo respecto a la variable aleatoria , entonces la


distribucin de muestreo de , el estimador de mnimos cuadrados del intercepto, ser normal
con media y varianza

y as el error estndar estimado es


Luego

ser una cantidad pivotal apropiada para la estimacin de un intervalo de confianza para el
intercepto. La cual se distribuye con grados de libertad si los errores estan
normalmente distribuidos y son independientes. Observe que tiene la forma

Asumiendo un grado de confianza del y aplicando el mtodo de la cantidad pivotal


se tiene que

y por lo tanto el intervalo de confianza del para est dado por

y los lmites son

Propiedades del intercepto

Se conoce que el estimador de es


Esperanza de

Luego es un estimador insesgado de

pero de las propiedades de covarianza se tiene que , pero

. Entonces

Se puede obtener otra expresin equivalente haciendo algunas manipulaciones algebricas en la


ltima expresin.

como entonces
La desviacin estndar de es la raz cuadrada de la varianza, esto es

Si es deconocida y se utiliza el estimador en su lugar, asumiendo que el modelo


es correcto, el estimado de la desviacin estndar de es dado por

Ejemplo

Para los datos del Ejemplo el intervalo de confianza para el intercepto es dado por
Prueba de hiptesis para Versus

La estadstica de prueba utilizada para probar la hiptesis nula de que es

El valor absoluto de , obtenido al calcular la estadstica de prueba con los datos se compara

con obtenido de una tabal con grados de libertad al .

Ejemplo

La primera inferencia que se desea hacer al estudiar la relacin entre y se refiere la


existencia de la relacin misma. Aporta informacin para predecir ?. Es decir, presentan
los datos informacin suficiente que indique que (densidad optica) aumenta (o disminuye)
linealmente cuando (concentracin) crece en la regin de observacin?. La pregunta prctica
para este ejemplo se refiere al valor de , que es el cambio medio en por unidad de cambio
en . Afirmar que no aumenta (o disminuye) linealmente cuando aumenta equivale a decir
que . Entonces se desea probar la hiptesis

Para el ejemplo
Luego el valor de la estadstica de prueba es

como entonces se rechaza la hiptesis nula y se llega a la conclusin de


que la pendiente es diferente de cero; es decir, si existe un cambio promedio significativo en
la densidad cuando se incrementa en una unidad la concentracin.

En regresin lineal simple, la anterior hiptesis nula puede probarse utilizando tambin la
estadstica , ya que se tiene tericamente que donde tiene un grado de libertad en el
numerador y en el denominador los grados de libertad del error (residual).

Otra forma de probar la hiptesis nula es comparando el valor P con , se rechaza la hiptesis
nula si . En el ejemplo, la hiptesis es rechazada. Su valor es
menor que .

NOTA

Si ocurre que el valor observado es ms pequeo que el valor crtico, nosotros tenemos que
decir que no pudimos rechazar la hiptesis. Note que no se debe utilizar la palabra
``aceptar'', ya que normalmente no podemos aceptar una hiptesis. Lo ms que nosotros
podemos decir es que sobre la base de los datos observados no podemos rechazar la hiptesis.
Puede ser posible que ocurra que con otro conjunto de datos se pueda encontar evidencia
contraria a nuestra hiptesis y as rechazarla.

Inferencia sobre
Si los errores se encuentran distribuidos normal e independientemente, la distribucin de

es Chi-cuadrado con grados de libertad. Esta es una cantidad pivotal adecuada para

estimar a . El valor . Entonces con un grado de confianza del , y


utilizando el mtodo de cantidad pivotal se obtiene:
y reescribiendo la expresin entre llaves se tiene que el intervalo de confianza para es:

donde

percentil de la distribucin Chi-cuadrado con grados de libertad

percentil de la distribucin Chi-cuadrado con grados de libertad

Ejemplo

Para los datos del ejemplo se tiene:

de la tablas de la distribucin Chi-cuadrado se tiene que el percentil 97.5, y el

percentil 2.5, . Luego el intervalo de confianza estimado es

Leccin 5: Correlacin
Correlacin entre X y Y
Una manera descriptiva de determinar la bondad de ajuste del modelo, es a travs del
coeficiente de correlacin. o coeficiente de correlacin momento-producto de Pearson. Este es
una medida que actua como indicadora de la intensidad, o fuerza, de la relacin lineal entre dos
variables y que no depende de sus respectivas escalas de medicin. Los valores de
oscilan entre y . Entre ms cercano sea el valor a o mejor es el ajuste de la recta de
regresin. Un valor de indica que no existe relacin lineal entre las dos variables
pero puede existir otro tipo de relacin (curvilnea figura 1). Un valor positivo de
indica que la recta sube hacia la derecha; un valor negativo, que la recta baja hacia la
derecha (Figura 1).

Figura 1. Algunos diagramas de dispersin tpicos con valores aproximados de

Ejemplo
En el ejemplo tratado, se calcula con el fin de medir la fuerza de asociacin lineal existente
entre la concentracin de biomasa ( ) y la densidad ptica ( ). En este caso , un valor
positivo cercano a , por lo cual puede decirse que el modelo parece ser correcto y existe una
correlacin positiva fuerte. Este valor positivo coincide con el tipo de pendiente obtenida
(positiva), lo que indica que a medida que se incrementa la concentracin de biomasa aumenta
la densidad ptica.

Prueba del coeficiente de correlacin.igual a cero


Esta prueba es equivalente a la prueba de hiptesis sobre el coeficiente de regresin
, debido a que si los datos proporcionan evidencia suficiente para indicar que , entonces
tambin indican que . Similarmente, un apoyo para la hiptesis alternativa es
equivalente a apoyar la hipteSis alternativa . Para deteminar si el coeficiente de
correlacin poblacional es diferente de cero se deben plantear las siguientes hiptesis:

El estadstico de prueba utilizado para esta hiptesis es:

el cual se distribuye con grados de libertad (se resta 2 porque en este caso se
estn estimando dos parmetros).

Ejemplo
En este ejemplo la prueba se realiz con un nivel de significacin de 5%. Al reemplazar en la
estadstica de prueba los valores , y se tiene que el estadstico

calculado es . Al comparar este valor calculado con el obtenido de la tabla

con y grados de libertad (prueba de dos colas) dado por , para una
prueba de dos colas, se puede concluir que la hiptesis nula se debe rechazar; es decir existe
una asociacin lineal entre la densidad ptica y la concentracin.

Sea una muestra aleatoria de una distribucin normal bivariable. el


estimador de mxima verosimilitud de est dado por el coeficiente de correlacin muestral

Donde

suma de productos cruzados


suma de cuadrados de .

suma de cuadrados de .

El coeficiente de correlacin se puede escribir de manera equivalente como

Observe que el nmerador es exactamente igual al numerdor del estimador para , y como

ambos denominadores de y son positivos, entonces tienen el mismo signo.

El coeficiente de correlacin poblacional es dado por

donde

covarianza entre y , la cual es calculada como

varianza poblacional de . calculada como

con

Coeficiente de correlacin y el coeficiente de regresin


Entre el coeficiente de correlacin y el coeficiente de regresin existe la siguiente equivalencia
Demostrar que

Prueba del coeficiente de correlacin.igual a un valor diferente de cero

Para muestras moderamente grandes el estadstico de prueba de la hiptesis


nula versus las alternativas

es dado por

cuyo valor calculado se debe comparar con los valores apropiados de la distribucin normal
estndar.

Ejercicio
1. Sea X con funcin de densidad

Es decir una disribucin uniforme sobre . sea para

Calcule el coeficiente de correlacin determinado por


Leccin 5: Correlacin

Correlacin entre X y Y
Una manera descriptiva de determinar la bondad de ajuste del modelo, es a travs del
coeficiente de correlacin. o coeficiente de correlacin momento-producto de Pearson. Este es
una medida que actua como indicadora de la intensidad, o fuerza, de la relacin lineal entre dos
variables y que no depende de sus respectivas escalas de medicin. Los valores de
oscilan entre y . Entre ms cercano sea el valor a o mejor es el ajuste de la recta de
regresin. Un valor de indica que no existe relacin lineal entre las dos variables
pero puede existir otro tipo de relacin (curvilnea figura 1). Un valor positivo de
indica que la recta sube hacia la derecha; un valor negativo, que la recta baja hacia la
derecha (Figura 1).

Figura 1. Algunos diagramas de dispersin tpicos con valores aproximados de


Ejemplo
En el ejemplo tratado, se calcula con el fin de medir la fuerza de asociacin lineal existente
entre la concentracin de biomasa ( ) y la densidad ptica ( ). En este caso , un valor
positivo cercano a , por lo cual puede decirse que el modelo parece ser correcto y existe una
correlacin positiva fuerte. Este valor positivo coincide con el tipo de pendiente obtenida
(positiva), lo que indica que a medida que se incrementa la concentracin de biomasa aumenta
la densidad ptica.

Prueba del coeficiente de correlacin.igual a cero

Esta prueba es equivalente a la prueba de hiptesis sobre el coeficiente de regresin


, debido a que si los datos proporcionan evidencia suficiente para indicar que , entonces
tambin indican que . Similarmente, un apoyo para la hiptesis alternativa es
equivalente a apoyar la hipteSis alternativa . Para deteminar si el coeficiente de
correlacin poblacional es diferente de cero se deben plantear las siguientes hiptesis:

El estadstico de prueba utilizado para esta hiptesis es:

el cual se distribuye con grados de libertad (se resta 2 porque en este caso se
estn estimando dos parmetros).

Ejemplo
En este ejemplo la prueba se realiz con un nivel de significacin de 5%. Al reemplazar en la
estadstica de prueba los valores , y se tiene que el estadstico

calculado es . Al comparar este valor calculado con el obtenido de la tabla

con y grados de libertad (prueba de dos colas) dado por , para una
prueba de dos colas, se puede concluir que la hiptesis nula se debe rechazar; es decir existe
una asociacin lineal entre la densidad ptica y la concentracin.

Sea una muestra aleatoria de una distribucin normal bivariable. el


estimador de mxima verosimilitud de est dado por el coeficiente de correlacin muestral

Donde

suma de productos cruzados

suma de cuadrados de .

suma de cuadrados de .

El coeficiente de correlacin se puede escribir de manera equivalente como

Observe que el nmerador es exactamente igual al numerdor del estimador para , y como

ambos denominadores de y son positivos, entonces tienen el mismo signo.

El coeficiente de correlacin poblacional es dado por

donde

covarianza entre y , la cual es calculada como

varianza poblacional de . calculada como


con

Coeficiente de correlacin y el coeficiente de regresin


Entre el coeficiente de correlacin y el coeficiente de regresin existe la siguiente equivalencia

Demostrar que

Prueba del coeficiente de correlacin.igual a un valor diferente de cero

Para muestras moderamente grandes el estadstico de prueba de la hiptesis


nula versus las alternativas

es dado por

cuyo valor calculado se debe comparar con los valores apropiados de la distribucin normal
estndar.

Ejercicio
1. Sea X con funcin de densidad
Es decir una disribucin uniforme sobre . sea para

Calcule el coeficiente de correlacin determinado por

You might also like