You are on page 1of 0

Claudia Jimnez R Universidad Nacional de Colombia 1

Anlisis de Regresin Lineal Mltiple



El Anlisis de Regresin es una tcnica estadstica para la deteccin y el modelado de relaciones
entre dos o ms variables. Incluye un conjunto de tcnicas univariantes y multivariantes que
permiten encontrar modelos descriptivos o predictivos, a partir de las relaciones observadas en una
coleccin de datos que suele denominarse la muestra de aprendizaje o de entrenamiento. Una gran
ventaja del anlisis de regresin multivariante lo constituye que las variables sobre las cuales se
deseen establecer relaciones pueden ser cuantitativas, categricas o simultneamente de ambos tipos
(Prez, 2004). Para el manejo de variables categricas, nominales u ordinales, se requiere el uso de
variables indicadoras o de diseo (dummy, en ingls) y, en algunos casos, de algunas
transformaciones para realizar el anlisis.
En la Regresin Lineal Mltiple, se admite que un atributo o variable Y cualquiera puede ser o
explicada por una combinacin lineal de otras variables X. La forma general del modelo, es:

1 1 2 2 1 1 0
...
p p
X X X Y (1)
En (1), cada variable j X , para j desde 1 hasta p-1, representa una variable independiente o
explicativa de Y, la variable respuesta o dependiente. Los j son los parmetros del modelo
llamados coeficientes parciales de regresin. Cada j , significa el cambio en el valor esperado de
la variable dependiente o explicada E(Y), por una unidad de incremento en j X , cuando las dems
variables independientes incluidas en el modelo, permanecen constantes. Si el alcance del modelo
admite que el valor para todas las variables independientes pueda ser cero, el parmetro
0
indica
el valor esperado de Y cuando todas las j X toman ese valor. En caso contrario, no tiene significado
como trmino separado en el modelo de regresin. En la ecuacin, el trmino , est representando
una componente aleatoria que representada la variabilidad en Y que no es explicada por las
variables independientes consideradas y que puede ser debida a la naturaleza misma de la variable
bajo estudio, por los errores cometidos en las mediciones o por cualquier otra fuente de
imperfeccin en los datos observados.
El Modelo de Regresin Mltiple, por su mtodo de ajuste, est restringido al cumplimiento de
los siguientes supuestos (Neter y otros, 2001):
a) Las variables explicativas o predictivas del modelo deben ser linealmente independientes.
Es decir, no debe ser posible que una variable independiente sea explicada por una
combinacin lineal de las otras.
b) Los trminos de error o las perturbaciones del modelo deben distribuirse con media cero,
varianza constante y ser independientes entre s.
Es claro que el supuesto a) no es difcil de cumplir, por la minimalidad deseable en cualquier
modelo. Tampoco lo es admitir que los errores se distribuyan de la manera especificada en el literal
b). Si as no ocurriera, podra ser sntoma de que faltan variables independientes por incluir o que
las incluidas no son muy apropiadas para explicar la variable respuesta. Por esto, siempre es
Claudia Jimnez R Universidad Nacional de Colombia 2
recomendable verificar el cumplimiento de los supuestos del Modelo de Regresin Mltiple,
mediante el anlisis de los residuales y la deteccin de valores atpicos en ellos (outliers, en ingls)
o mediante pruebas de independencia. Cuando los supuestos no se cumplen es posible aplicar
medidas remediales, en la mayora de los casos.
El problema central del Anlisis de Regresin Mltiple, como es de suponerse, consiste en
encontrar la frmula algebraica del modelo de regresin de un caso particular. Esto es, hallar las
mejores estimaciones de los parmetros o coeficientes de regresin parcial, utilizando los datos
observados (la muestra de entrenamiento). La frmula matemtica derivada en la minera de estos
datos, es un modelo descriptivo que informa cmo pesan o influyen las variables independientes
consideradas en la variable de respuesta, de manera cuantitativa. Tambin, sirve para inferir o
predecir cul sera el valor esperado de la variable de respuesta, E(Y), para nuevos ejemplares o con
distintos valores en las variables independientes.
En el proceso de optimizacin para determinar los estimadores de los parmetros, se utiliza una
funcin de prdida como una medida de ajuste del modelo matemtico a los datos reales. Se puede
elegir entre estimadores de los parmetros que minimicen lo malo del ajuste o que maximicen la
bondad del ajuste. Gauss propuso estimar los parmetros minimizando la suma de los cuadrados de
las desviaciones o las diferencias entre los valores observados y los ajustados con el modelo de
regresin, tcnica que se conoce como el Mtodo de Mnimos Cuadrados (Hair y otros, 1999).
Tambin podra maximizarse la suma de cuadrados debida a la regresin. Pero un modelo de
regresin, donde los errores se distribuyan normalmente, estos dos mtodos coinciden, por el
teorema de Gauss-Markov, y los estimadores de los parmetros tienen las propiedades de ser
insesgados (la media de las estimaciones para diferentes muestras tender hacia el parmetro
desconocido), consistentes (conforme crece el tamao muestral, la estimacin se aproxima al
parmetro desconocido) y suficientes (aprovechan toda la informacin que proporciona la muestra)
(Placket, 1950).
Para presentar los estimadores de los coeficientes de regresin parcial, por Mnimos Cuadrados,
sea:

1 2 1 0
,... , ,

p
un vector de dimensin px1 que representa los coeficientes de
regresin o parmetros.

1 3 2 1
,... , , ,

p
X X X X 1 X una matriz de dimensin np con las constantes o valores de las
p variables independientes en los objetos observados o medidos. Las filas de la matriz
representan las n- tuplas o ejemplares en la muestra de aprendizaje.

n
Y Y Y Y Y ,... , ,
3 2 1
un vector de dimensin n1 con los valores de la variable respuesta o
dependiente, para cada tupla u observacin.
=
, 1
(
2

n
) un vector de dimensin n1 con los valores de las componentes o
perturbaciones aleatorias de cada observacin.
Con esa notacin matricial, la ecuacin (1) se puede escribir, en forma resumida, as:
Claudia Jimnez R Universidad Nacional de Colombia 3
Y = X + (2)
Como en el modelo de Regresin Lineal Mltiple se supone que el valor esperado de la
distribucin de los errores o residuales E( ) = 0, y tanto las variables X como los coeficientes de
regresin son constantes conocidas, luego:
E(Y) = X
Por lo tanto, es natural estimar la funcin Y=f(x) como:
X Y


Donde

Y (ledo Y gorro) es el valor de la funcin de regresin estimada considerando los valores


o niveles de X en la coleccin de datos y dadas los estimaciones de los coeficientes

1 2 1 0

,...

'

p
. Los estimadores, por mnimos cuadrados, se calculan as:
Y X X X ' ) ' ( '

1

Despus de derivar un modelo de regresin mltiple particular, se debe validar la bondad del
ajuste con el fin de poderlo utilizar para describir o predecir valores no slo futuros, sino para otros
valores en las variables independientes no observados o medidos. Cuando hay suficientes datos, se
utiliza un subconjunto de ellos, no considerados en el ajuste, para evaluar la capacidad predictiva
del modelo. En otros casos, slo es posible verificar el grado de cumplimiento de los supuestos
impuestos al modelo de Regresin Lineal Mltiple para luego determinar la significacin estadstica
de las variables explicativas, de manera global y parcial. Para determinar la significacin estadstica
de manera global de todas las variables se utiliza como estadstico de la prueba a Fc que se
distribuye tericamente como una F con n-1 y p-1 grados de libertad. Para las pruebas de
significacin de variables independientes de manera marginal se utiliza como estadstico el
estadstico Zc.
Debe sealarse que un modelo de regresin mltiple es lineal, no por una restriccin impuesta
sobre las variables que pueden explicar a Y, sino por la linealidad en los parmetros o coeficientes
del modelo de regresin; por eso stos deben aparecer en su primera potencia. Los paquetes
estadsticos ofrecen, varias alternativas de transformacin de las variables independientes, como x
2
, e x o
x
para ser aplicables antes de realizar un anlisis de regresin, si es el caso.


Anlisis de Regresin Simple en Matlab
En el siguiente ejemplo, para hacer el anlisis de regresin simple, se carga el archivo de datos llamado
carsmall que contiene algunas caractersticas de 100 autos. Al cargar el archivo, el sistema crea la variable
de tipo matriz X con las variables Horsepower (potencia o caballos de fuerza) y Cylinders (el nmero de
Claudia Jimnez R Universidad Nacional de Colombia 4
cilindros). Se trata entonces de explicar el rendimiento del vehiculo (MPG) por medio del potencia del
vehculo.
Primero queremos visualizar grficamente la relacin entre estas variables:
load carsmall
X= Horsepower
Y = MPG
plot(X,Y, 'o') -- la o entre comillas simples sirve para que el diagrama no muestre lneas entre los puntos
Cuando damos el ltimo comando se abre la interfaz de la Figura 1. En ella vemos que existe una relacin
inversa entre la potencia con el rendimiento de los autos. Esto significa que a medida que aumenta la
potencia, disminuye el renidimiento o las millas por galn. Para el ajuste de los datos a un modelo particular,
del men Tools se escoge la opcin Basic fitting.

Figura 1. Resultado del comando plot
En la Figura 2, vemos dos modelos ajustados a los datos: el modelo lineal y el cuadrtico o de segundo orden
en la variable X. Alli se observa que se ha chuleado la opcin de mostrar las ecuaciones en la grfica. En el
men tools de la grfica tambin es posible editar la figura para agregar las leyendas y ttulos apropiados.
En la interfaz del ajuste bsico, es posible continuar con la presentacin de ms informacin, incluida la
norma de los residuales, un indicador de la calidad del ajuste. En nuestro ejemplo, de acuerdo con este
indicador, el modelo que mejor se ajusta es el cuadrtico, como se muestra en la Figura 3.

Claudia Jimnez R Universidad Nacional de Colombia 5

Figura 2. Ajuste bsico de modelos

Figura 3. Ajuste bsico de modelos

Anlisis de Regresin Mltiple en Matlab
En el siguiente ejemplo, para hacer el anlisis de regresin, se carga el archivo de datos llamado carsmall
que contiene algunas caractersticas de 100 autos. Al cargar el archivo, el sistema crea la variable de tipo
matriz X con las variables Horsepower (potencia o caballos de fuerza) y Cylinders (el nmero de cilindros).
Claudia Jimnez R Universidad Nacional de Colombia 6
Se trata entonces de explicar el rendimiento del vehiculo (MPG) por medio del cilindraje y la potencia con el
mtodo regress:
load carsmall
X = [ones(size(Horsepower)) Horsepower Cylinders];
--la primera componente es para
--agregar una columna de unos
betagorro = regress(MPG,X) - devuelve los coeficientes estimados

betagorro =

44.2562 (Intercepto o Beta cero
-0.0572
-2.5836

La funcin regstats tambin permite realizar un anlisis de regresin lineal mltiple y calcula ms
estadsticas de regresin. De forma predeterminada, regstats agrega automticamente una primera columna de
unos a la matriz de diseo (necesaria para calcular la estadstica F y el valor-p de la prueba), por lo que no se
debe incluir de forma explcita un trmino constante como en la funcin regress. Por ejemplo:

X1 = [Horsepower Cylinders];
stats = regstats(MPG,X1);

Crea una variable de tipo estructura, con las estadsticas de regresin. Por tanto, en el rea de trabajo se
encontrarn los siguientes tems calculados:



Un argumento de entrada opcional a la funcin regstats permite especificar cules estadsticas se deben
calcular, en lugar de todas las anteriores. Para especificar de forma interactiva las estadsticas calculadas, se
invoca a regstats sin argumentos de salida, como aparece a continuacin.
regstats(MPG,X1)
Abre la interfaz siguiente:
Claudia Jimnez R Universidad Nacional de Colombia 7

En esta interfaz, se seleccionan las casillas correspondientes a las estadsticas que desean calcular. Las
estadsticas seleccionadas se retornan mediante variables al rea de trabajo (Workspace) de MATLAB. Los
nombres de las variables para las estadsticas que aparecen en la parte derecha de la interfaz, se puede cambiar
a cualquier nombre de variable vlida en MATLAB.
El mensaje despus de dar el anterior comando es: Variables have been created in the current workspace.
Por lo tanto, ya podemos consultar los valores de esas variables, por ejemplo:
>> beta

beta =
44.2562
-0.0572
-2.5836



Tabulacin de estadsticas de diagnstico en el anlisis de regresin

La funcin regstats calcula las estadsticas que se utilizan normalmente en el diagnstico de la regresin. Las
estadsticas pueden presentarse en formato tabular, de una gran variedad de maneras. Por ejemplo, el campo
tstat de la estructura de regstats es en s mismo una estructura que contiene las estadsticas relacionadas con
Claudia Jimnez R Universidad Nacional de Colombia 8
los coeficientes estimados de la regresin. El tipo de datos conocido como arreglos de conjuntos de datos
(Dataset Arrays) proporcionan un formato tabular natural para la informacin:

>> TablaCoef = dataset({tstat.beta,'Coef'},{ tstat.se,'ErrStd'},{ tstat.t,'tStat'},{tstat.pval,'Valor_p'})

TablaCoef =

Coef ErrStd tStat Valor_p
44.256 1.4917 29.667 3.0014e-048
-0.057171 0.019148 -2.9858 0.0036427
-2.5836 0.49499 -5.2194 1.1437e-006

Interpretando estos resultados podemos decir que por el valor p de las pruebas marginales que se basan en la
estadstica t calculada (y que se distribuye como un t de Student con 97= 100-3 grados de libertad) se puede
rechazar la hiptesis nula. Esto es, todos los coeficientes son estadsticamente significativos y por lo tanto, las
millas por galn si pueden ser explicadas por el modelos de regresin.

Cul es la estimacin del coeficiente de determinacin mltiple?

>> rsquare

rsquare =

0.7271

Este ltimo resultado significa que aproximadamente un 72% de la variabilidad en las millas por galn
(MPG) es explicada por la inclusin del cilindraje y la potencia en el modelo de regresin.

La funcin fprintf de MATLAB, similar a la del lenguaje C, permite cambiar al formato de tabla. Por
ejemplo, el campo fstat de la estructura de regstats es una estructura con las estadsticas relacionadas con el
anlisis de varianza (ANOVA) de la regresin. Los siguientes comandos producen la tabla ANOVA de una
regresin estndar:

fprintf('Tabla de Anlisis de la Varianza (ANOVA)');
fprintf('\n\n')

fprintf('%6s','Fuente');
fprintf('%10s','gdl','SC','CM','F','Valor P');
fprintf('\n')

fprintf('%6s','Regr');
fprintf('%10.4f',fstat.dfr,fstat.ssr,fstat.ssr/fstat.dfr,fstat.f,fstat.pval);
fprintf('\n')

fprintf('%6s','Error');
fprintf('%10.4f', fstat.dfe, fstat.sse, fstat.sse/ fstat.dfe);
fprintf('\n')

fprintf('%6s','Total');
fprintf('%10.4f', fstat.dfe+ fstat.dfr, fstat.sse+ fstat.ssr);
fprintf('\n')

Para mostrar los datos, as:

Tabla de Anlisis de la Varianza (ANOVA)

Claudia Jimnez R Universidad Nacional de Colombia 9
Fuente gdl SC CM F Valor P
Regr 2.0000 4366.0455 2183.0227 119.8941 0.0000
Error 90.0000 1638.7126 18.2079
Total 92.0000 6004.7581


Anlisis de Correlacin en Rattle
El anlisis de correlacin indica si dos variables estn relacionadas en forma lineal. Este anlisis
slo es para variables numricas. Hay tres mtodos disponibles para hallar la correlacin: Pearson,
Spearman, Kendall. En este caso se utilizar el de Pearson y se activar la opcin Organizado
para que organice las variables segn la fortaleza de correlacin. El resultado se muestra a
continuacin en la Figura 3.

Figura 3. Resultado de un anlisis correlacin.
Si el coeficiente es igual a 1 existe una correlacin positiva perfecta, es decir hay una relacin lineal
perfecta, entre las variables. Cuando una de ellas aumenta la otra tambin lo hace, en proporcin
constante.
Si 0 < coeficiente < 1, existe una correlacin positiva.
Si es igual a cero, no existe relacin lineal.
Si -1 < coeficiente < 0, existe una correlacin negativa.
Si es igual a -1, existe una correlacin negativa perfecta, es decir hay una relacin inversa entre las
variables, cuando una de ellas aumenta la otra disminuye en proporcin constante.
El resultado del anlisis de correlacin tambin viene acompaado de una grfica, la cual se
muestra a continuacin en la Figura 4.
Claudia Jimnez R Universidad Nacional de Colombia 10

Figura 4. Grfico de correlacin.
El grado de correlacin se interpreta segn la forma y el color de los elementos en la grfica. Si el
elemento es un crculo perfecto no hay correlacin entre las variables. Cada variable est
perfectamente correlacionada con ella misma, la perfecta correlacin se representa con una lnea
diagonal. El color rojo indica correlacin negativa, el azul positiva y entre ms intenso sea el color
es mayor la correlacin. [3]
Anlisis de Regresin en Rattle

Rattle ofrece la posibilidad de generar diferentes tipos de regresin, a continuacin se har una
breve descripcin de cada uno de las opciones ofrecidas por este paquete. Cada una de estas
regresiones se acompaa de un diagrama.

Figura 5. Interfaz para realizar regresiones.
Numrica: este es el tipo regresin lineal tradicional y es apropiado cuando la variable de
destino es numrica y continua.

You might also like