You are on page 1of 34

UNIVERSIDAD DE SAN

MARTIN DE PORRES

Análisis de
Regresión
y Correlación
BIOESTADISTICA
Prof.: DR. LUIS ROBLE ALEMAN 2005
1. Introducción
En ciencias de la salud y en otras áreas
con mucha frecuencia conviene saber
algo de la fuerza o intensidad de la
relación entre variables como: edad y
presión arterial, remuneración mensual y
rendimiento en el trabajo, talla y peso,
ingreso familiar y gastos médicos, edad y
frecuencia cardiaca, edad y talla, etc;
observar que estos ejemplos involucran
variables numéricas medidas en escala
de intervalo o de razón.
Cuando tanto X como Y son variables
aleatorias, se tiene lo que se conoce
como modelo de correlación.
Típicamente, bajo el modelo de
correlación se selecciona una muestra
probabilística de unidades de asociación
(que pueden ser personas, lugares,
animales, puntos en el tiempo o
cualquier otro elemento) luego, de cada
una de las unidades se toma una
medida de X y una medida de Y.
Una correlación puede ser positiva
(cuando, por ejemplo tanto X como Y
aumentan), o negativa (cuando por
ejemplo, al aumentar una variable la
otra disminuye). Por otra parte, si la
variación de X y la variación de Y no se
corresponden en absoluto, entonces no
existe ninguna asociación y por tanto,
ninguna correlación, entre las dos
variables.
2. Diagrama de puntos

Para iniciar un análisis de correlación


(y también el de regresión) se elabora
el diagrama de puntos o de dispersión, el
cual proporciona un indicio, no sólo de la
forma de la relación entre las variables,
sino también del grado de correlación.
Dicho gráfico permite representar, con
un punto en el plano cartesiano, cada par
ordenado (X,Y). Así por ejemplo:
Diagrama de dispersión

Y
Xi Yi

X1 Y1
X2 Y2
.
.
.
Xn Yn
X
0
3. Coeficiente de correlación de Pearson

Para determinar el grado de correlación entre


las variables X e Y en la población que es
objeto de estudio, se utiliza el coeficiente de
correlación de Pearson (Rho), denotado por ρ .
El recorrido de ρ está entre –1 y 1.
Para estimar el parámetro ρ , se recurre a una
muestra aleatoria de n unidades . De cada
una de ellas, se determinan los valores:
(x1, y1), (x2, y2),..., (xn, yn).
El estimador del parámetro ρ , es el
coeficiente de correlación muestral r,
definido como:

n ∑ xy (∑ x)(∑ y)
r=
(n∑ x2) (∑ x)2 (n∑ y2) (∑ y)2
El rango para r es:

-1 ≤ r ≤ 1
r2 = coeficiente de determinación
Guía para la interpretación de r:

Valor de r Interpretación
0.00 Ausencia de correlación lineal
± 0.1 a ± 0.19 Correlación lineal insignificante

± 0.2 a ± 0.39 Correlación lineal baja-leve


± 0.4 a ± 0.69 Correlación lineal moderada
± 0.7 a ± 0.99 Correlación lineal alta a muy
alta
± 1.0 Función lineal perfecta
4. Significación estadística de r
Para evaluar la significación estadística de r, se tiene que
contrastar la siguiente hipótesis:
Ho: ρ =0
H1: ρ ≠ 0
La estadística de prueba es:

n 2
t0 sigue una distribución t de Student con (n-2) grados de
t0 = r
libertad, si Ho es verdadera.
x 2
1 r
Ejemplo 1:
Se tomó información en cuanto a la talla
(cm) y peso (Kg) de 10 alumnos del
primer año de medicina el día 11 de
setiembre del 2005.
TALLA X 150 155 180 160 170 165 185 175 160 165
(cm)

PESO Y 55 50 85 65 75 60 80 70 65 60
(kg)
Se desea:
a. Obtener el diagrama de puntos
b. Calcular el coeficiente de correlación
de Pearson e interpretar el valor
c. Determinar la significación estadística
del coeficiente de correlación de
Pearson (r)
d. Obtener e interpretar el coeficiente de
determinación
Solución:
a. Diagrama de puntos:
y 100

80

60

40

20

0
120 160 200
x
b. Coeficiente de correlación:
De los datos, obtenemos lo siguiente:

n = 10 Σx=1665 Σy=665
Σxy=111700 Σx2=278325 Σy2=45325
ΣxΣy=1107225 (Σx)2=2772225 (Σy)2=442225
nΣxy=1117000 nΣx2=2783250 nΣy2=453250

Reemplazando en la fórmula, tenemos:


1117000 - 1107225
r = ________________________________
√(2783250-2772225)(453250-442225)

9775
r = ________________ = 0.886621315
√(11025)(11025)

r ≅ 0.89

Interpretación:
Existe una alta correlación lineal directa entre
las dos variables
c. Significación estadística de r
Ho: ρ =0
H1: ρ ≠ 0

n 2
t0 = r x
1 r2

10 2 8
t 0 = 0.89 x 2 = 0.89 x
1 (0.89 ) 0.2079
to = 5.52
to = t(10-2) = t(8) = 5.52

Valor de p: p < 0,001


Por consiguiente, se rechaza la hipótesis nula y
se concluye que el coeficiente de correlación
obtenido es estadísticamente significativo. Hay
una relación positiva entre talla y peso.

d. Coeficiente de determinación:
r2 = (0,89)2 = 0,79 = 79%
El 79 % de la variabilidad total de los pesos de
los alumnos está siendo explicada por la relación
lineal existente entre talla y peso.
Análisis de Regresión
Objetivo
Estudio de la relación funcional entre dos variables.
Establecer una relación cuantitativa entre dos o más
variables relacionadas.
Se trata de PREDECIR y/o EXPLICAR el valor de
una variable (v. Dependiente), dado el valor de otra(s)
variable(s) relacionada(s) (v. Independiente(s)).
Las variables X e Y deben ser de naturaleza
cuantitativa y de preferencia continua.
Regresión Lineal Simple
•Para resolver el problema tenemos que
AJUSTAR una línea entre los puntos
observados, a fin de usarla para predecir el
valor de Y (variable dependiente) a partir de
un valor conocido de X (variable
independiente).
•Para cada valor de X hay una subpoblación
de valores Y.
•Cada subpoblación de los valores de Y tiene
distribución normal.
Línea de Regresión

Como todos los puntos no están


exactamente sobre una línea recta,
se cometen errores en el ajuste.
Línea de Regresión

Suposiciones de regresión y correlación


• a) Normalidad: los valores de Y estarán
distribuidos normalmente a cada valor de X.
• b) Homoscedasticidad: la variación alrededor
de la línea de regresión será constante para
todos los valores de X.
• c) Independencia de error: el error (diferencia
residual entre un valor observado y uno
estimado de Y) sea independientemente
de cada valor de X.
• d) Linealidad: la relación entre las variables es
lineal.
Estimadores Mínimo-Cuadráticos
Ejemplo 2

Se tiene una relación de 33 pacientes de los cuales se registró la


presión sistólica. Se desea conducir un estudio para determinar la
relación entre la edad de los pacientes y la presión registrada

PacienteEdad PS

1 22 131
2 23 128
3 24 116
4 27 106
5 28 114
… … …
33 81 217
Análisis de Regresión
Objetivo
Estudio de la relación funcional entre dos variables.
Establecer una relación cuantitativa entre dos o más
variables relacionadas.
Se trata de PREDECIR y/o EXPLICAR el valor de
una variable (v. Dependiente), dado el valor de otra(s)
variable(s) relacionada(s) (v. Independiente(s)).
Las variables X e Y deben ser de naturaleza
cuantitativa y de preferencia continua.
Regresión Lineal Simple
•Para resolver el problema tenemos que
AJUSTAR una línea entre los puntos
observados, a fin de usarla para predecir el
valor de Y (variable dependiente) a partir de
un valor conocido de X (variable
independiente).
•Para cada valor de X hay una subpoblación
de valores Y.
•Cada subpoblación de los valores de Y tiene
distribución normal.
Línea de Regresión

Como todos los puntos no están


exactamente sobre una línea recta,
se cometen errores en el ajuste.
Línea de Regresión

Suposiciones de regresión y correlación


• a) Normalidad: los valores de Y estarán
distribuidos normalmente a cada valor de X.
• b) Homoscedasticidad: la variación alrededor de la
línea de regresión será constante para todos los
valores de X.
• c) Independencia de error: el error (diferencia
residual entre un valor observado y uno estimado
de Y) sea independientemente de cada valor de X.
• d) Linealidad: la relación entre las variables es
lineal.
Estimadores Mínimo-Cuadráticos
Ejemplo 2

Se tiene una relación de 33 pacientes de los cuales se registró la


presión sistólica. Se desea conducir un estudio para determinar la
relación entre la edad de los pacientes y la presión registrada

PacienteEdad PS

1 22 131
2 23 128
3 24 116
4 27 106
5 28 114
… … …
33 81 217
Diagrama de Dispersión

Según el diagrama de
dispersión, se espera
una relación positiva
o directa entre ambas
variables.

Modelo de regresión:
y =a+bx
Cálculos Estadísticos
Variable dependiente: la presión sistólica
Variable independiente: la edad
n = 33 Σx = 1542 (sumatoria de las edades)
Σy = 4575 (sumatoria de las presiones)
Σxy = 223.144 (productos cruzados)
Σx2 = 79.176 Σy2 = 656.481
x = 46,73 y = 138,64
Σ(x – x)2 = Σx2 – (Σx)2 / n = 79.716 – (1542) 2 / 33 = 7662,6
Σ(y – y)2 = Σy2 – (Σy)2 / n = 656.48116 – (4575) 2 / 33 = 22.219,6
Σ(x – x ) (y – y) = Σxy – (Σx)(Σy) /n = 223.144 – (1542)(4575)/33
= 9.366,7
Estimación de la Recta de Regresión

∑(x - x) (y - y)
b = - - -- - - - - - - - - - - - - = 936 6,7 / 7662,6 = 1.22 mm Hg / año de edad
∑(x - x) 2

y = a + bx
a=y- b
x = 138,64 - (1,22)(46,73) = 81,54

Por consiguiente el modelo de Regresión Estimado es:

y = 81,54 + 1,22 x
Que significa:
• Por cada año de incremento en la
edad la presión aumenta en
promedio en 1,22 mmHg.
• Es importante interpretar los
resultados obtenidos en función de
las unidades en que se encuentran
expresadas nuestras variables en
estudio (y).

You might also like