You are on page 1of 26

SEMINARIO DE POSGRADO

ESTRATEGIAS Y DISEOS AVANZADOS DE


INVESTIGACIN SOCIAL
Titular: Agustn Salvia
ANLISIS DE MODELOS DE REGRESION
LINEAL

SEMINARIO DE POSGRADO

INTRODUCCIN A LOS MODELOS DE


CORRELACIN Y REGRESIN LINEAL
PARA VARIABLES CUANTITATIVAS

CORRELACIN ENTRE VARIABLES


CUANTITATIVAS
Se considera que dos variables cuantitativas
estn relacionadas entre s cuando los valores de
una de ellas varan de forma sistemtica con
respecto a los valores homnimos de la otra.
Dicho de otro modo, si tenemos dos variables, A y
B, existe relacin entre ellas si al aumentar los
valores de A tambin lo hacen los de B, o por el
contrario si al aumentar los valores de A
disminuyen los de B.
Para variables mtricas, el grfico de dispersin
es la manera ms sencilla de comprobar la relacin
entre las dos variables, pudiendo esta adoptar
diferentes formas.
El mtodo ms usual para medir la intensidad de
la relacin lineal entre dos variables mtricas es la
correlacin momento-producto o correlacin de

CORRELACIN ENTRE VARIABLES


CUANTITATIVAS

Los
componentes
fundamentales
de
una
relacin entre dos variables cuantitativas son:

La Fuerza

El Sentido

La Forma

CORRELACIN ENTRE VARIABLES CUANTITATIVAS


La fuerza mide el grado en que los pares de
observaciones quedan representados en una
lnea. Si la nube de observaciones es estrecha y
alargada,
una
lnea
recta
representar
adecuadamente a la nube de puntos y a la
relacin y por tanto sta ser fuerte.

El sentido de la relacin se refiere a cmo varan


los valores de B con respecto a A. Si al crecer los
valores de la variable A lo hacen los de B, ser
una relacin positiva o directa. Si al aumentar A,
disminuye B, ser una relacin negativa o
inversa.

La forma establece el tipo de lnea a emplear


para definir el mejor ajuste. Se pueden emplear

GRFICOS DE DISPERSIN
Dadas dos variables X y Y tomadas sobre el mismo
elemento de la poblacin, el diagrama de dispersin es
simplemente un grfico de dos dimensiones, donde en un
eje (la abscisa) se grafica una variable (independiente), y
en el otro eje (la ordenada) se grafica la otra variable
(dependiente). Si las variables estn correlacionadas, el
grfico mostrara algn nivel de correlacin (tendencia)
entre las dos variables. Si no hay ninguna correlacin, el
grfico presentara una figura sin forma, una nube de
puntos dispersos en el grfico.

DIAGRAMAS DE DISPERSIN
ESTADSTICA

Grfico de puntos para variables cuantitativas


Disposicin:
Eje de abscisas: variable independiente (X)
Eje de ordenadas: variable dependiente (Y)
Frecuentemente X es una variable controlada (no
aleatoria)
Un punto por cada observacin (par de valores X-Y)
Aproximacin al tipo de relacin existente entre las
variables

FORMAS TPICAS DE LOS DIAGRAMAS DE


DISPERSIN ESTADSTICA

EL COEFICIENTE DE CORRELACIN
LINEAL DE PEARSON
El Coeficiente de Correlacin Lineal de Pearson es
un ndice estadstico que permite medir la fuerza
de la relacin lineal entre dos variables. Su
resultado es un valor que flucta entre 1
(correlacin perfecta de sentido negativo) y +1
(correlacin perfecta de sentido positivo). Cuanto
ms cercanos al 0 sean los valores, indican una
mayor debilidad de la relacin o incluso ausencia
de correlacin entre las dos variables.

Su clculo se basa
en la expresin:

EL COEFICIENTE DE CORRELACIN
LINEAL DE PEARSON
Si el coeficiente de correlacin de Pearson (r) es
cercano a 0, las dos variables no tienen mucho
que ver entre s (no tienen casi ninguna
covariacin lineal). Si su valor es cercano a +/-1,
esto significa que la relacin entre las dos
variables es lineal y est bien representada por
una lnea.

CORRELACIN LINEALES ENTRE VARIABLES


CUANTITATIVAS

A pesar del hecho que el coeficiente de Pearson es


capaz de manejar solamente dos variables, es fcil
calcular una matriz de correlacin entre todos los
pares potenciales de variables, para luego evaluar
aquellas relaciones relevantes.

Un aspecto dbil del anlisis de correlacin es que


slo detecta la parte lineal de las relaciones entre las
variables. Por ejemplo, una relacin que obedece a
una ecuacin curvilineal pasara inadvertida.

Sin embargo, las variables a evaluar pueden


experimentar transformaciones que permite su
linealizacin, para cual resulta previamente

EJEMPLO CORRELACIN
Total Ocupados entre 25 y 45 aos (con ingresos)
Correlationsa

Ingreso horario de la
ocupacin ppal
Aos de estudio (aprox.)
Nivel de Instruccin
Cantidad de hijos
menores de 12 aos

Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)

Ingreso
horario de
Cantidad
la
Aos de
de hijos
ocupacin
estudio
Nivel de
menores
ppal
(aprox.)
Instruccin de 12 aos
1,000
,354**
,365**
-,072**
,
,000
,000
,000
,354**
1,000
,945**
-,223**
,000
,
,000
,000
,365**
,945**
1,000
-,217**
,000
,000
,
,000
-,072**
-,223**
-,217**
1,000
,000
,000
,000
,

**. Correlation is significant at the 0.01 level (2-tailed).


a. Listwise N=10338

EJEMPLO CORRELACIN
Total Ocupados entre 25 y 45 aos (con ingresos)
Varones
Correlationsa

Ingreso horario de la
ocupacin ppal
Aos de estudio (aprox.)
Nivel de Instruccin
Cantidad de hijos
menores de 12 aos

Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)

Ingreso
horario de
Cantidad
la
Aos de
de hijos
ocupacin
estudio
Nivel de
menores
ppal
(aprox.)
Instruccin de 12 aos
1,000
,341**
,352**
-,071**
,
,000
,000
,000
,341**
1,000
,940**
-,202**
,000
,
,000
,000
,352**
,940**
1,000
-,191**
,000
,000
,
,000
-,071**
-,202**
-,191**
1,000
,000
,000
,000
,

**. Correlation is significant at the 0.01 level (2-tailed).


a. Listwise N=5844

EJEMPLO CORRELACIN
Total Ocupados entre 25 y 45 aos (con ingresos)
Mujeres
Correlationsa

Ingreso horario de la
ocupacin ppal
Aos de estudio (aprox.)
Nivel de Instruccin
Cantidad de hijos
menores de 12 aos

Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)

Ingreso
horario de
Cantidad
la
Aos de
de hijos
ocupacin
estudio
Nivel de
menores
ppal
(aprox.)
Instruccin de 12 aos
1,000
,402**
,414**
-,075**
,
,000
,000
,000
,402**
1,000
,949**
-,251**
,000
,
,000
,000
,414**
,949**
1,000
-,251**
,000
,000
,
,000
-,075**
-,251**
-,251**
1,000
,000
,000
,000
,

**. Correlation is significant at the 0.01 level (2-tailed).


a. Listwise N=4494

EJEMPLO GRAFICO DISPERSIN

Total Ocupados entre 25 y 45 aos (con ingresos)

Ingreso horario de la ocupacin ppal

80
70
60
50
40
30

Sexo

20
10

Mujer

Varn
0

10

Aos de estudio (aprox.)

15

20

Modelos de Regresin Lineal


Problemas de Causalidad

El investigador suele tener razones


tericas o prcticas para creer que
determinada
variable
es
causalmente
dependiente de una o ms variables
distintas.

Si
hay
suficientes
observaciones
empricas sobre estas variables, el anlisis
de regresin es un mtodo apropiado para
describir la estructura, fuerza y sentido
exacto de esta asociacin.

Modelos de Regresin Lineal


Problemas de Causalidad
El modelo permite diferenciar variables
explicativas, independientes o predictivas
(mtricas),
variables
a
explicar
o
dependientes,
y
variables
control
o
intervinientes (mtricas o transformadas en
variables categoriales).

La distincin entre variables dependientes


e independientes debe efectuarse con
arreglo
a
fundamentos
tericos,
por
conocimiento o experiencia y estudios
anteriores.

Modelos de Regresin Lineal


Respuestas Metodolgicas
Estima la fuerza o bondad explicativa del
modelo terico independientemente de las
caractersticas de las variables introducidas

Predice el valor medio que puede asumir la


variable Y dado un valor de X (regresin a la
media) bajo un intervalo de confianza

Estima el efecto neto de cada una de las


variables intervinientes sobre la variable
dependiente (control sobre los dems efectos
suponiendo independencia entre las variables
predictivas).

Modelos de Regresin Lineal


Funcin Lineal de Regresin
El objetivo de la tcnica de regresin es establecer la
relacin estadstica que existe entre la variable
dependiente
(Y)
y
una
o
ms
variables
independientes (X1, X2, Xn). Para poder realizar esto,
se postula una relacin funcional entre las variables.
Debido a su simplicidad analtica, la forma que ms
se utiliza en la prctica es la relacin lineal:

= b0 + b1x1 + bnxn
donde los coeficientes b0y b1, bn, son los factores
que definen la variacin promedio de y, para cada
valor de x. Estimada esta funcin terica a partir de

GRFICOS DE DISPERSIN / PENDIENTE DE LA


RECTA
En el caso de asumir una recta, se admite que
existe una proporcin entre la diferencia de dos
valores A y la diferencia entre dos valores de B. A
ese factor de ajuste entre ambas series se le
llama pendiente de la recta, y se asume que es
constante a lo largo de toda la recta.

Modelos de Regresin Lineal


Funcin Lineal de Regresin
- El parmetro b0, conocido como la ordenada
en el origen, nos indica cunto vale Y cuando X
= 0. El parmetro b1, conocido como la
pendiente, nos indica cunto aumenta Y por
cada aumento en X.
- La tcnica consiste en obtener estimaciones
de estos coeficientes a partir de una muestra de
observaciones sobre las variables Y y X.
- En el anlisis de regresin, estas estimaciones
se obtienen por medio del mtodo de mnimos
cuadrados. Logradas estas estimaciones se

GRFICOS DE DISPERSIN / RECTA DE


REGRESIN
Para el clculo de la
recta de regresin se aplica el
mtodo de mnimos cuadrados entre dos variables.
Esta lnea es la que hace mnima la suma de los
cuadrados de los residuos, es decir, es aquella recta en
la que las diferencias elevadas al cuadrado entre los
valores calculados por la ecuacin de la recta y los
valores reales de la serie, son las menores posibles.

y=a+
bx

Modelos de Regresin Lineal


Funcin Lineal de Regresin
Una pregunta importante que se plantea en
el anlisis de regresin es la siguiente: Qu
parte de la variacin total en Y se debe a la
variacin en X? Cunto de la variacin de Y
no explica X?
El estadstico que mide esta proporcin o
porcentaje se denomina coeficiente de
determinacin (R2). Si por ejemplo, al hacer
los clculos respectivos se obtiene un valor
de 0.846. Esto significa que el modelo explica
el 84.6 % de la variacin de la variable

CURVA MONOTNICA
MONOTNICA

CURVA NO

En el caso de usar una curva monotnica, ese factor de


proporcin entre las dos variables no es constante a lo
largo de toda la recta, y por lo tanto la pendiente de la
misma es variable en su recorrido. Se dice que la lnea de
ajuste es no lineal puesto que es una curva.

Por ltimo, en el caso de usar una curva no monotnica


vara tanto la pendiente de la curva como el sentido de la
relacin, que en unos sectores puede ser positiva
(ascendente) y en otros negativa (descendente).

FUNCIONES NO LINEALES

Exponenciales

Logartmicas

AJUSTE DE VARIABLES A FUNCIONES NO


LINEALES

Hacer el diagrama de dispersin de las dos variables y


evaluar si el patrn resultante sigue la forma lineal o alguna
otra funcin.

Identificada dicha funcin, substituir los valores de una


variable
con
sus
valores
cuadrados,
raz
cuadrada,
logartmicos o con alguna otra modificacin, y hacer de nuevo
la matriz de correlacin.

Identificar la funcin que mejor ajuste por medio de un


paquete estadstico y determinar los coeficientes para la
construccin de esa
ecuacin. NO LINEALES
FUNCIONES

Exponencial:

Logartmica:

y = a + bx

y = a + log b

Polinmica:
x

y = a + b x + c x2

You might also like