You are on page 1of 40

Mtodos lineales y estimacin por

mnimos cuadrados
Enviado por victor_j_mata

1. Introduccin
2. Mtodos de los mnimos cuadrados
3. Error estndar en la estimacin
4. Coeficiente de determinacin
5. Coeficiente de correlacin
6. Regresin lineal mltiple
7. Estimacin de los coeficientes
8. Inferencias en la regresin lineal mltiple
9. Prediccin
10.Correlacin
11. Bibliografa

INTRODUCCIN
El presente trabajo forma parte de los objetivos y contenidos de aprendizaje de
la ctedra ESTADSTICA, que pretende desarrollar las habilidades para la
utilizacin de los mtodos lineales y estimacin de mnimos cuadrados.
Para lograr este fin, se realizo la consulta de una bibliografa bsica la cual
permiti desarrollar los conceptos y ejemplos, como base para realizar
una exposicin adecuada en el saln de clases.

En este trabajo bsicamente se habla de cmo desarrollar la aplicacin de los


mtodos lineales y estimacin por mnimos cuadrados, adems de inferencia,
prediccin y correlacin.
Se desarrollaron una serie de ejemplos mediante los cuales se trata de
presentar manera mas sencilla usar estos mtodos.
El Equipo # 4

Mtodos de mnimos cuadrados.


El procedimiento mas objetivo para ajustar una recta a un conjunto
de datos presentados en
un diagrama de dispersin se conoce como "el mtodo de los mnimos
cuadrados". La recta
resultante presenta dos caractersticas importantes:
1. Es nula la suma de las desviaciones verticales de los puntos a partir de la
recta de ajuste
(Y - Y) = 0.
2. Es mnima la suma de los cuadrados de dichas desviaciones. Ninguna otra
recta dara
una suma menor de las desviaciones elevadas al cuadrado (Y - Y) 0
(mnima).
El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci

La obtencin de los valores de a y b que minimizan esta funcin es un


problema que se puede resolver recurriendo a la derivacin parcial de la
funcin en trminos de a y b: llamemos G a la funcin que se va a minimizar:

Tomemos las derivadas parciales de G respecto de a y b que son las incgnitas


y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas
ecuaciones normales del modelo que pueden ser resueltas por cualquier
mtodo ya sea igualacin o matrices para obtener los valores de a y b.

Derivamos parcialmente la ecuacin respecto de a

Primera ecuacin normal

Derivamos parcialmente la ecuacin respecto de b

Segunda ecuacin normal

Los valores de a y b se obtienen resolviendo el sistema de ecuaciones


resultante. Veamos el siguiente ejemplo:
En un estudio econmico se desea saber la relacin entre el nivel de
instruccin de las personas y el ingreso.
EJEMPLO 1
Se toma una muestra aleatoria de 8 ciudades de una regin geogrfica de 13
departamentos y se determina por los datos del censo el porcentaje de
graduados en educacin superior y la mediana del ingreso de cada ciudad, los
resultados son los siguientes:
CIUDAD : 1 2 3 4 5 6 7 8
% de (X)
Graduados : 7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2
Ingreso (Y)
Mediana : 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 (0000)

Tenemos las ecuaciones normales

y = na + bx

xy = ax + bx

Debemos encontrar los trminos de las ecuaciones


y, x, xy, x Por tanto procedemos de la siguiente forma:

4.2

4.9

7.0

6.2

3.8

7.6

4.4

5.4

43.5

Sustituyendo en las ecuaciones los resultados obtenidos tenemos: 43.50 = 8a +


89.8b
546.63 = 89.8a + 1292.92b
multiplicamos la primera ecuacin por (-89.8) y la segunda por (8) as:
43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8)
-3906.30 = -718.4a - 8064.04b 4373.04 = 718.4a + 10343.36b
466.74 = -0- 2279.32b

Este valor de b lo reemplazamos en cualquiera de las ecuaciones para obtener


a as:

Reemplazando b = 0.20477 en la primera ecuacin normal

43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 - 18.3880 = 8a 25.1120 =


8a

Tenemos entonces que los coeficientes de regresin son : a = 3.139 y b =


0.20477. Por tanto la ecuacin de regresin nos queda:

Significa entonces que por cada incremento en una unidad en X el valor de


se aumenta en 0.20477

Esta ecuacin permite estimar el valor de para cualquier valor de X, por


ejemplo: Una ciudad que tiene un porcentaje de graduados a nivel superior del
28% la mediana de ingreso para la ciudad ser:

Los valores a y b tambin se pueden obtener de la siguiente forma: partiendo


de las ecuaciones normales tenemos:

Si dividimos todos los trminos de la ecuacin (1) entre n nos queda:

Tenemos entonces que el primer termino es

el segundo termino es la

incgnita a y el tercer termino es la incgnita b multiplicada por


nos queda:

entonces

por tanto

Reemplazando a en la ecuacin (2) tenemos

a = 5.4375 0.20477 (11.2250) = 5.4375 2.2985 = 3.139


Se debe tener presente la diferencia entre el valor de

obtenido con la

ecuacin de regresin y el valor de Y observado. Mientras es una estimacin


y su bondad en la estimacin depende de lo estrecha que sea la relacin entre
las dos variables que se estudian; Y es el valor efectivo, verdadero obtenido

mediante la observacin del investigador. En el ejemplo Y es el valor


mediano del ingreso que obtuvo el investigador
utilizando todos los ingresos observados en cada ciudad y es el valor
estimado con base en el modelo lineal utilizado para obtener la ecuacin de
regresin
Los valores estimados y observados pueden no ser iguales por ejemplo la
primera ciudad tiene un ingreso mediano observado de Y = 4.2 al
reemplazar en la ecuacin el porcentaje
de graduados obtenemos un

estimado de

Grficamente lo anterior se puede mostrar as:

Claramente se observa en la grfica que hay una diferencia entre el valor


efectivo de Y y el valor estimado; esta diferencia se conoce como error en la
estimacin, este error se puede medir. A continuacin se ver el
procedimiento.
Error estndar en la estimacin
El error estndar de la estimacin designado por sYX mide la disparidad
"promedio" entre

los valores observados y los valores estimados de


formula.

. Se utiliza la siguiente

Debemos entonces calcular los valores de para cada ciudad sustituyendo en


la ecuacin los valores de los porcentajes de graduados de cada ciudad
estudiada.

4.2

4.9

7.0

6.2

3.8

7.6

4.4

5.4

Syx = 0.46 (decenas de miles $)

Como esta medida trata de resumir la disparidad entre lo observado y lo


estimado, es decir, trata de medir la diferencia promedio entre lo observado y
lo estimado esperado de acuerdo al modelo, puede considerarse como un
indicador del grado de precisin con que la ecuacin de regresin, describe la
relacin entre las dos variables. Este error estndar se ve afectado por las
unidades y sus cambios ya que es una medida absoluta, pues, se da en la
misma unidad de medida que esta dada la variable Y; en el ejemplo 0.46 sern
decenas de miles de pesos, razn por la cual no es posible comparar con las
relaciones de variables dadas en distinta unidad de medida. Es necesario
entonces calcular una medida que interprete o mida mejor el grado de relacin
entre las variables.

Coeficiente de determinacin.
El cambio de la variable Y generalmente depende de muchos factores, en
ocasiones, difciles de identificar; con el modelo lineal simple, slo tenemos
presente uno. Por ejemplo, en nuestro caso la mediana del ingreso depende no
slo del porcentaje de graduados en el nivel superior, que es, el factor que
tenemos presente, pueden entrar a jugar factores tales como, ladistribucin de
la edad en la poblacin, la distribucin por sexo en la poblacin, la
industrializacin de la ciudad, el numero de universidades y muchos otros.

El coeficiente de determinacin mide o interpreta la cantidad relativa de la


variacin que ha sido explicada por la recta de regresin, es decir, la
proporcin de cambio en Y explicado por un cambio en la variable X ( X es el
factor que se utiliza para calcular la recta de ajuste o ecuacin de regresin, en
el ejemplo es el porcentaje de graduados en el nivel superior en cada ciudad).
Para el ejemplo el Coeficiente de determinacin va a medir la proporcin del
cambio en el ingreso mediano de cada ciudad, debido o explicado por un
cambio en el porcentaje de graduados en el nivel superior.
Veamos algunos componentes de la variabilidad en el anlisis de regresin:
La diferencia entre cada valor de Y observado y
variacin de Y.

media se denomina

La diferencia entre estimado y media , es la variacin tenida en cuenta


por la ecuacin de regresin, razn por la cual se denomina variacin
explicada de Y.

La diferencia entre Y observado y estimado, son variaciones consideradas


debidas a factores diferentes al tenido presente por la ecuacin de regresin
por eso se llama: variacin no explicada de Y.

La diferencia entre Y observado y estimado, son variaciones consideradas


debidas a factores diferentes al tenido presente por la ecuacin de regresin
por eso se llama: variacin no explicada de Y.

La sumatoria de las diferencias en cada una de las formas de variacin la


podemos representar as:

Grficamente esta relacin se puede representar as:

Se dijo anteriormente, que el coeficiente de determinacin es la proporcin de


cambio explicado en Y, por cambio en X, es decir, la proporcin que
representa la variacin explicada de la variacin total. Recuerde una

proporcin es la relacin de una parte con el total, por tanto, el coeficiente de


determinacin ser:

En otras palabras el coeficiente de determinacin es la relacin entre la


variacin explicada y la variacin total. Su valor siempre estar
Para su calculo se procede as:

4.2

4.9

7.0

6.2

3.8

7.6

4.4

5.4

43.5

Generalmente esta proporcin se expresa como porcentaje por tanto podemos


decir que

r = 88.76%

como conclusin podemos decir que el 88.76% de la variacin en el ingreso


mediano de las ciudades de la muestra esta relacionada o explicada por la
variacin en el porcentaje de graduados en educacin Superior en cada ciudad.

Coeficiente de correlacin
Este Coeficiente como ya se dijo mide la fuerza de la relacin entre las
variables. El coeficiente tiene el signo que tiene b y su valor
estar
El signo menos en el ndice significa una relacin negativa
y un signo ms una correlacin positiva. El coeficiente se obtiene sacando la
raz cuadrada al coeficiente de determinacin y se simboliza con "r".

En este caso el coeficiente r tiene signo positivo ya que toma el valor de b


obtenido con las ecuaciones normales toma valor positivo.
A continuacin se da, a modo de orientacin , como podran interpretarse los
valores de r (positivo o negativo)

0.0

0.2

0.4

0.7

0.9

La correlacin entre los valores de dos variables es un hecho. El que lo


consideremos satisfactorio o no, depende de la interpretacin. Otro problema
que representa la correlacin es cuando se pregunta si una variable, de algn
modo causa o determina a la otra. La correlacin no implica causalidad. Si las
variables X e Y estn correlacionadas, esto puede ser por que X causa a Y, o
porque Y causa a X o porque alguna otra variable afecta tanto a X como Y, o
por una combinacin de todas estas razones; o puede ser que la relacin sea
una coincidencia.

Modelo de regresin lineal con el uso de matrices.


Al ajustar un modelo de regresin lineal mltiple, en particular cuando el
nmero de variables pasa de dos, el conocimiento de la teora matricial puede
facilitar las manipulaciones matemticas de forma considerable. Suponga que
el experimentador tiene k variables independientes x1, x2,....,xk, y n
observaciones y1, y2,...., yn, cada una de las cuales se pueden expresar por la
ecuacin
yi = b 0 + b 1x1i +b 2x2i +.+ b kxki +e i
Este modelo en esencia representa n ecuaciones que describen cmo se
generan los valores de respuesta en el proceso cientfico. Con el uso de la
notacin matricial, podemos escribir la ecuacin
y=Xb + e

donde

Entonces la solucin de mnimos cuadrados para la estimacin de b que se


ilustra en la seccin Estimacin de coeficientes, "Regresin lineal mltiple"
implica encontrar b para la que
SSE = (y - Xb)'(y - Xb)
se minimiza. Este proceso de minimizacin implica resolver para b en la
ecuacin

No presentaremos los detalles relacionados con las soluciones de las


ecuaciones anteriores. El resultado se reduce a la solucin de b en

(X'X)b = X'y

Ntese la naturaleza de la matriz X. Aparte del elemento inicial, el i-simo


rengln representa los valores x que dan lugar a la respuesta yi. Al escribir

y
las ecuaciones normales se pueden escribir en la forma matricial
AB=g
Si la matriz A es no singular, podemos escribir la solucin para el coeficiente
de regresin como
b = A-1g =(XX)-1Xy
De esta forma se puede obtener la ecuacin de prediccin o la ecuacin de
regresin al resolver un conjunto de k + 1 ecuaciones con un nmero igual de
incgnitas. Esto implica la inversin de la matriz X'X de k + 1 por k + 1.
Las tcnicas para invertir esta matriz se explican en la mayora de
los libros de texto sobre determinantes y matrices elementales. Por supuesto,
se dispone de muchos paquetes de computadora de
alta velocidad para problemas de regresin mltiple, paquetes que no slo
imprimen estimaciones de los coeficientes de regresin, sino que tambin
proporcionan otra informacin relevante para hacer inferencias respecto a la
ecuacin de regresin.
Ejemplo 1
Se midi el porcentaje de sobrevivencia de cierto tipo de semen animal,
despus del almacenamiento, en varias combinaciones de concentraciones de

tres materiales que se utilizan para aumentar su oportunidad de sobrevivencia.


Los datos son los siguientes:

Estime el modelo de regresin lineal mltiple para los datos dados.


SOLUCIN:
Las ecuaciones de estimacin de mnimos cuadrados, (X'X)b = X'y, son

=
De los resultados de una computadora obtenemos los elementos de la matriz
inversa

y despus, con el uso de la relacin b = (XX)-1 Xy, los coeficientes


estimados de regresin son
b0= 39.1574, b1 = 1.0161, b2 = -1.8616, b3 = -0.3433.
De aqu nuestra ecuacin de regresin estimada es

Para el caso de una sola variable independiente, el grado del polinomio de


mejor ajuste a menudo se puede determinar al graficar un diagrama de

dispersin de los datos que se obtienen de un experimento que da n pares de


observaciones de la forma {(xi, yi); i = 1, 2, .... n}.

=
Al resolver estas r + 1 ecuaciones, obtenemos las estimaciones b0, b1,....., br y
por ello generamos la ecuacin de prediccin de regresin polinomial

El procedimiento para ajustar un modelo de regresin polinomial se puede


generalizar al caso de ms de una variable independiente. De hecho, el
estudiante de anlisis de regresin debe, en esta etapa, tener la facilidad para
ajustar cualquier modelo lineal en, digamos, k variables independientes.
Suponga, por ejemplo, que tenemos una respuesta Y con k = 2 variables
independientes y se postula un modelo cuadrtico del tipo
yi = b 0 + b 1x1i + b 2x2i +b 11x21i+ b 22x22i+b 12x1i x2i+e I
donde yi, i = 1, 2, ..., n, es la respuesta para la combinacin (x1i, x2i) de las
variables independientes en el experimento. En esta situacin n debe ser al
menos 6, pues hay seis parmetros a estimar mediante el procedimiento de
mnimos cuadrados.
Adems, como el modelo contiene trminos cuadrticos en ambas variables,
se deben usar al menos tres niveles de cada variable. El lector debe verificar
con facilidad que las ecuaciones normales de mnimos cuadrados (X'X)b =
X'y estn dadas por:

Ejemplo 2
Los siguientes datos representan el porcentaje de impurezas que ocurren a
varias temperaturas y tiempos de esterilizacin durante una reaccin asociada
con la fabricacin de cierta bebida.

Estimar los coeficientes de regresin en el modelo


m Y|x = b 0 + b 1 x1 +b 2 x2+b 11 x12+b 22 x22+ ..+ b 12 x1 x2
SOLUCIN:
b0 = 56,4668

b1 = -0,36235

b2 = -2,75299

y nuestra ecuacin de regresin estimada es

Muchos de los principios y procedimientos asociados con la estimacin


de funciones de regresin polinomial caen en la categora de
la metodologa de respuesta superficial, un conjunto de tcnicas que los
cientficos e ingenieros han utilizado con bastante xito en muchos campos.
Problemas como la seleccin de un diseo experimental apropiado, en
particular para casos donde hay un nmero grande de variables en el modelo,
y la eleccin de las condiciones "ptimas" de operacin sobre x1,x2,.....,xk a

menudo se aproximan a travs del uso de estos mtodos. Para una exposicin
ms amplia se remite al lector a Response Surface Methodology: Process and
Product Optimization Using Designed Experiments de Myers y Montgomery.
Regresin lineal mltiple.
En la mayor parte de los problemas de investigacin donde se aplica el
anlisis de regresin se necesita ms de una variable independiente en el
modelo de regresin. La complejidad de la mayor parte de los mecanismos
cientficos es tal que para ser capaces de predecir una respuesta importante se
necesita un modelo de regresin mltiple. Cuando este modelo es lineal en los
coeficientes se denomina modelo de regresin lineal mltiple. Para el caso de
k variables independientes X1, X2,....,Xk, la media de Y| X1, X2,....,XK est
dada por el modelo de regresin lineal mltiple
m Y|x1, x2 ,, xk = b 0 + b 1 x1 +..+ b k xk

y la respuesta estimada se obtiene de la ecuacin de regresin de la muestra

donde cada coeficiente de regresin b i se estima por bi de los datos de la


muestra con el uso del mtodo de mnimos cuadrados. Como en el caso de una
sola variable independiente, el modelo de regresin lineal mltiple a menudo
puede ser una representacin adecuada de una estructura ms complicada
dentro de ciertos rangos de las variables independientes.
Tcnicas de mnimos cuadrados similares tambin se pueden aplicar al estimar
los coeficientes cuando el modelo lineal involucra, digamos, potencias
y productos de las variables independientes. Por ejemplo, cuando k = 1, el
experimentador puede pensar que las medias m Y|x1 no caen en una lnea
recta pero que se describen de forma ms apropiada con el modelo de
regresin polinomial

m Y|x = b 0 + b 1 x +b 2 x2+ ..+ b r xr

y la respuesta estimada se obtiene de la ecuacin de regresin polinomial

En ocasiones surge confusin cuando hablamos de un modelo polinomial


como de un modelo lineal. Sin embargo, los estadsticos por lo general se
refieren a un modelo lineal como uno en el cual los parmetros ocurren
linealmente, sin importar cmo entran las variables independientes al modelo.
Un ejemplo de un modelo no lineal es la relacin exponencial
m Y|x = a b x,
que se estima con la ecuacin de regresin

Existen muchos fenmenos en la ciencia y en la ingeniera que son


inherentemente no lineales por naturaleza y, cuando se conoce la estructura
real, desde luego se debe hacer un intento para ajustar el modelo presente.
La literatura sobre estimacin por mnimos cuadrados de modelos no lineales
es voluminosa. El estudiante que quiera una buena explicacin de algunos
aspectos de este tema debe consultar Classical and Modern Regression with
Applications de Myers.

Estimacin de los coeficientes.


En esta seccin obtenemos los estimadores de mnimos cuadrados de los
parmetros b 0 + b 0, b 1,...., b k mediante el ajuste del modelo de regresin
lineal mltiple

m Y|x1 , x2,......, xk = b 0 + b 1x1+ b 2x2+ b kxk


a los puntos de datos
i= 1,2,....,n y n >k },
donde yi es la respuesta observada para los valores x1i, x2i,........., xki, de las k
variables independientes x1 , x2,......, xk .Cada observacin (x1i, x2i,......,xki,
yi) satisface la ecuacin

yi = b 0 + b 1x1i +b 2x2i +.+ b kxki +e i


o

yi = b0 + b1x1i +b2x2i +.+ bkxki +ei,


donde e i y ei son el error aleatorio y residual, respectivamente, asociados con
la respuesta yi . Al utilizar el concepto de mnimos cuadrados para llegar a las
estimaciones b0, b1,..., bk, minimizamos la expresin

Al diferenciar SSE a su vez con respecto a b0,b1, b2,......,bk, e igualar a cero,


generamos un conjunto de k + 1 ecuaciones normales

Estas ecuaciones se pueden resolver para b0, b1,b2, ..., bk mediante cualquier
mtodo apropiado para resolver sistemas de ecuaciones lineales.
Ejemplo 1
Se realiz un estudio sobre un camin de reparto ligero a diesel para ver si la
humedad, temperatura del aire y presin baromtrica influyen en la emisin
de xido nitroso (en ppm). Las mediciones de las emisiones se tomaron en
diferentes momentos, con condiciones experimentales variantes. Los datos son
los siguientes:

xido

Hum
x

nitroso,
y

0,90

0,91

41

0,96

34

0,89

35

1,00

10

1,10

12

1,15

8,

1,03

20

0,77

72

1,07

24

El modelo es:
m Y|x1, x2, x3 = b 0 + b 1 x1 + b 2 x2 +..+ b 3 x3

Ajuste este modelo de regresin lineal mltiple a los datos dados y despus
estime la cantidad de xido nitroso para las condiciones donde la humedad es
50%, la temperatura 76F y la presin baromtrica 29,30.

SOLUCIN
Para las ecuaciones normales encontramos que

La solucin de este conjunto de ecuaciones da las estimaciones nicas


b0 = -3.507778, b1= -0.002625, b2= 0.000799, b3= 0.154155.
Por tanto, la ecuacin de regresin es

Para 50% de humedad, una temperatura de 76 F y una presin baromtrica


29,30, la cantidad estimada de xido nitroso es

Regresin polinomial.
Suponga ahora que deseamos ajustar la ecuacin polinomial
m Y|x = b 0 + b 1 x +b 2 x2+ ..+ b r xr
a los n pares de observaciones {(xi, yi); i = 1,2,..., n}. Cada observacin, yi
satisface la ecuacin

yi = b 0 + b 1xi +b 2xi2+ ..+ b r xi2+e i


o
yi = b0 + b1xi +b2xi2+ ..+ br xir+ei
donde r es el grado del polinomio, y e i, y ei son de nuevo el error aleatorio y
residual asociados con la respuesta yi. Aqu, el nmero de pares, n, debe ser al
menos tan grande como r + 1, el nmero de parmetros a estimar. Ntese que
el modelo polinomial se puede considerar como un caso especial del modelo
de regresin lineal mltiple ms general, donde hacemos x1 = x, x2 = x2, ...,
xr. = xr. Las ecuaciones normales toman la forma:

que se resuelve como antes para b0, b1,.........., br

Ejemplo 2 Dados los datos


x

9,1

Ajustar una curva de regresin de la forma


m Y|x = b 0 + b 1 x +b 2 x2 y despus estime m Y|x

SOLUCIN:

De los datos dados, encontramos que

Al resolver las ecuaciones normales obtenemos


b0=8,697 , b1=-2,341, b2= 0,288
Por tanto:

Inferencias en la regresin lineal mltiple.


Una de las inferencias ms tiles que se pueden hacer con respecto a
la calidad de la respuesta pronosticada y0 que corresponde a los valores x10,
x20,...., xk0, es el intervalo de confianza sobre la respuesta media m | x10,
x20,...., xk0 . Nos interesa construir un intervalo de confianza sobre la
respuesta media para el conjunto de condiciones dado por
X0 = [x10, x20,...., xk0]

Aumentamos las condiciones sobre las x por el nmero 1 a fin de facilitar el


uso de la notacin matricial. Como en el caso k = 1 si hacemos la suposicin
adicional de que los errores son independientes y se distribuyen de forma
normal, entonces las Bj son normales, con media, varianzas y convarianzas.

tambin est normalmente distribuida y es, de hecho, un estimador insesgado


para la respuesta media sobre el que intentamos unir los intervalos de
confianza. La varianza de escrita en notacin matricial simplemente como
funcin de , (X'X)1, y el vector de condicin x0, es

Si esta expresin se expande para un caso dado, digamos k = 2, se ve


fcilmente que explica de manera apropiada las varianzas y covarianzas de las
Bi. Despus de reemplazar por s2, el intervalo de confianza de 100(1 )
% sobre m | x10, x20,...., xk0 . se puede construir a partir de la estadstica:

que tiene una distribucin t con n k 1 grados de libertad.

Intervalo de confianza para:

Un intervalo de confianza

m | x10, x20,...., xk0

donde ta /2 es un valor de

La cantidad
a menudo se llama error estndar de prediccin y
por lo general aparece en el impreso de muchos paquetes de regresin para
computadora.

Ejemplo 1
Con el uso de los datos del ejemplo 1 correspondiente al "Modelo de regresin
lineal con el uso de matrices", construya un intervalo de confianza de 95%
para la respuesta media cuando x1 = 3%, x2 = 8%, y x3 = 9%.
SOLUCIN
De la ecuacin de regresin del ejemplo 1 correspondiente al "Modelo de
regresin lineal con el uso de matrices", el porcentaje estimado de
sobrevivencia cuando x1 = 3%, x2 = 8%, y x3 = 9% es

A continuacin encontramos que:

Con el uso del cuadrado medio del error, s2 = 4.298 o s = 2.073, y de la tabla
A.4, vemos que t0.025 = 2.262 para 9 grados de libertad. Por tanto, un
intervalo de confianza de 95% para el porcentaje medio de sobrevivencia para
x1 = 3%, x2 = 8%, y x3= 9% est dado por

o simplemente
.
Como en el caso de la regresin lineal simple, necesitamos hacer una clara
distincin entre el intervalo de confianza de la respuesta media y el intervalo
de prediccin sobre una respuesta observada. Esta ltima proporciona un
lmite dentro del cual podemos decir con un grado de certeza preestablecido
que caer una nueva respuesta observada.

Un intervalo de prediccin para una sola respuesta pronosticada


establece de nuevo al considerar las diferencias
aleatoria

se

de la variable

Se puede mostrar que la distribucin muestral es normal con media

y varianza

De esta manera el intervalo de prediccin de (1 )100% para un solo valor


de prediccin y0 se puede construir a partir de la estadstica

que tiene una distribucin t con n k 1 grados de libertad.

Intervalo de prediccin para y0

Ejemplo 2
Con el uso de los datos del ejemplo 1 correspondiente a el tema "Modelo de
regresin lineal con el uso de matrices" construya un intervalo de prediccin
de 95% para una respuesta individual del porcentaje de sobrevivencia cuando
x1 = 3%, x2 = 8%, y x3 = 9%.
SOLUCIN:

Con referencia a los resultados del ejemplo 1 de esta seccin, encontramos


que el intervalo de prediccin de 95% para la respuesta y0 cuando x1= 3%, x2
= 8%, y x3 = 9% es

que se reduce a
. Ntese, como se espera, que el intervalo
de prediccin es considerablemente menos estrecho que el intervalo de
confianza para el porcentaje de sobrevivencia media en el ejemplo 1.
Un conocimiento de las distribuciones de los estimadores de los coeficientes
individuales permite al experimentador construir intervalos de confianza para
los coeficientes y probar hiptesis acerca de ellos.
De esta manera podemos utilizar la estadstica

con n k 1 grados de libertad para probar las hiptesis y construir


intervalos de confianza sobre j. Por ejemplo, si deseamos probar:

calculamos la estadstica:

y no rechazamos H0 si
libertad.

donde

tiene n k 1 grados de

Ejemplo 3
Para el modelo del ejemplo 1 correspondiente al "Modelo de regresin lineal
con el uso de matrices", pruebe la hiptesis de que 2 = -2,5 en el nivel de
significancia 0.05 contra la alternativa de que 2> -2,5.

SOLUCIN:
Clculos:

Decisin : rechazar H0 y concluir que 2> -2,5

PREDICCION.
Existen varias razones para construir una regresin lineal. Una, por supuesto,
es predecir valores de respuesta a uno o mas valores de la variable
independiente. En este aparte nos enfocamos en los errores asociados con la
prediccin.
La ecuacin = a +bx se puede usar para predecir o estimar la respuesta media
y x en x = xo no es necesariamente uno de los valores preseleccionados, o
se puede utilizar para predecir un solo valor o de la variable Yo cuando x =
xo. Esperaramos que el error de prediccin fuese mas alto en el caso de un
solo valor predicho en el caso donde se predice una media. Esto, entonces,
afectara el ancho de nuestros intervalos para valores que se predicen.
Suponga que el experimentador desea construir un intervalo de confianza para
y x . Utilizaremos el estimador puntual o = A + Bxo para estimar y x .
= a + b c o se puede mostrar que la distribucin muestral de o es normal con
media:

Y varianza:
La ultima se sigue del hecho que Cov(, B) = 0. De esta forma el intervalo de
confianza de (1 - a )100% sobre la respuesta media y x . Se puede construir
a partir de la estadstica :

Que tiene una distribucin t con n 2 grados de libertad

Intervalo de confianza para y x .:

CORRELACION.
Hasta este punto hemos supuesto que la variable de regresin independiente x
es una variable fsica o cientfica pero no una variable aleatoria. De hecho, en
este contexto , x a menudo se llama variable matemtica, que, en el proceso
de muestreo, se mide con un error insignificante. En muchas aplicaciones de
las tcnicas de regresin es mas realista suponer que X y Y son variables
aleatorias y que las mediciones {(Xi, Yi) ; i= 1, 2, ..., n} son observaciones de
una poblacin que tiene la funcin de densidad conjunta f(x, y). Consideremos
el problema de medir la relacin entre las dos variables X y Y. Por ejemplo, si
X y Y representan la longitud y circunferencia de una clase particular de hueso
en el cuerpo de un adulto, podemos realizar un estudio antropolgico para
determinar si los valores grandes de X se asocian con valores grandes de Y, y
viceversa. El anlisis de correlacin intenta medir la fuerza de tales relaciones
entre dos variables por medio de un solo numero llamado coeficiente de
correlacin.

En teora a menudo se supone que la distribucin condicional f(y x) de Y,


para valores fijos de X, es normal con una media y x = a + b c o y varianza s

y x = s y X tambin se distribuye con normalmente con x y varianza s x.


La densidad conjunta de X y Y es entonces:
Donde X es ahora una variable aleatoria independiente del error aleatorio E.
Como la media del error aleatorio E es cero, se sigue que:

Al sustituir para a y s en la expresin anterior para f( x, y), obtenemos la


distribucin normal bivariada:

La constante r (rho) se llama coeficiente de correlacin poblacional y juega un


papel importante en muchos problemas de anlisis de datos de dos variables.
El valor de r es 0 cuando b = 0 , que resulta cuando en esencia no hay una
regresin lineal; es decir, la lnea de regresin es horizontal y cualquier
conocimiento de X no es de utilidad para predecir Y. Como debemos tener s y
s , y r 1 por ello -1 r 1. Los valores de r = 1 solo ocurren cuando s
= 0, en cuyo caso tenemos una relacin lineal perfecta entre las dos variables.
de esta manera un valor de r igual a +1 implica una relacin lineal perfecta
con una pendiente positiva, mientras que un valor de r igual a 1 resulta de
una relacin lineal perfecta con pendiente negativa. Se puede decir entonces
que las estimaciones mustrales de r cercanas a la unidad en magnitud
implican una buena correlacin o una asociacin lineal entre X y Y, mientras
que valores cercanos a cero indican poca o ninguna correlacin.

Se debe sealar que en estudios de correlacin, como


en problemas de regresin lineal, los resultados que se obtienen solo son tan
buenos como el modelo que se supone. En las tcnicas de correlacin que aqu
se estudian se supone una densidad normal bivariada para las variables X y Y,
con el valor medio de Y en cada valor x linealmente relacionado con x. Para
observar la conveniencia de la suposicin de linealidad, a menudo es til una
graficacin preliminar de los datos experimentales. Un valor del coeficiente
de correlacin muestral cercano a cero resultara de datos que muestren un
efecto estrictamente aleatorio como se indica en la figura a :

en donde se puede observar poca o ninguna relacin causal. Es importante


recordar que el coeficiente de correlacin entre dos variables es una media de
su relacin lineal, y que un valor de r* = 0 implica una falta de linealidad y no
una falta de asociacin. Por ello, si existe una fuerte relacin cuadrtica entre
X y Y como se indica en la figura b, podemos aun obtener una correlacin
cero que indique una relacin no lineal.
* formula del calculo de r

BIBLIOGRAFA

Casuso, Rafael L. "Clculo de probabilidades e inferencia estadstica",


UCAB. Caracas. 1996.
Mendenhall, Schaeffer y Wackely. "Estadstica matemtica con aplicaciones",
Edit. Iberoamrica. Mxico. 1986.
Mendelhall, William y Sincich. "Probabilidad y estadstica para ingeniera
y ciencias", Edit. Prentice may. Mxico. 1997.
Miller, Irwin y otros. "Probabilidad y estadsticas para ingenieros", Edit.
Prentice may. 4ta edicin. Mxico. 1992.
Ross, Sheldon. "Probabilidad y estadsticas para ingeniera y ciencias", Edit.
Mc Graw Hill. Mxico. 2001.
Universidad Simn Bolvar , Por: Hernando Snchez Santibez
http://www.usb.edu.co/facultades/administracion/publicaciones/regresion_corr
elacion.pdf
WALPOLE, Myers y Myers (1998), "Probabilidad y Estadstica para
Ingenieros", Edit. Prentice Hall, Mxico.

Vctor Jos Mata.


Alexander Snchez.
Caracas 27 de Mayo de 2004

Comentarios

Sbado, 27 de Abril de 2013 a las 03:56 | 0


Rosa Aguirre
Estoy resolviendo unos problemas contables, yo he trabajado
muy bien con problemas quimiomtricos, me ayudan mucho sus
ejemplos, aunque me resulta dificel entender lo de realizar un

diagrama de dispersin para mis datos


Como hallo el intervalo de confianza sin usar la t de student?

Jueves, 3 de Abril de 2008 a las 15:09 | 0


Jenny Liliana Martinez
Bueno, la verdad soy nueva en esto, pero lo que sucede es que
estoy viendo econometra en la universidad y no entiendo muy
bien como comprobar la hiptesis nula en una matriz, ya que me
dan una matriz de varianza y covarianza. jennyli87@gmail.com
Mostrando 1-2 de un total de 2 comentarios.
Pginas: 1

Leer ms: http://www.monografias.com/trabajos16/metodos-lineales/metodoslineales.shtml#ixzz3tY1wyEB1

You might also like