You are on page 1of 26

UNIVERSIDAD DE SAN

MARTIN DE PORRES

Análisis de
Regresión
y Correlación
BIOESTADISTICA
2006
1. Introducción
En ciencias de la salud y en otras áreas con mucha
frecuencia conviene saber algo de la fuerza o
intensidad de la relación entre variables como:
edad y presión arterial, remuneración mensual y
rendimiento en el trabajo, talla y peso, ingreso
familiar y gastos médicos, edad y frecuencia
cardiaca, edad y talla, etc; observar que estos
ejemplos involucran variables numéricas medidas
en escala de intervalo o de razón.
Cuando tanto X como Y son variables aleatorias, se
tiene lo que se conoce como modelo de
correlación. Típicamente, bajo el modelo de
correlación se selecciona una muestra
probabilística de unidades de asociación (que
pueden ser personas, lugares, animales, puntos en
el tiempo o cualquier otro elemento) luego, de cada
una de las unidades se toma una medida de X y
una medida de Y.
Una correlación puede ser positiva (cuando, por
ejemplo tanto X como Y aumentan), o negativa
(cuando por ejemplo, al aumentar una variable la
otra disminuye). Por otra parte, si la variación de
X y la variación de Y no se corresponden en
absoluto, entonces no existe ninguna asociación y
por tanto, ninguna correlación, entre las dos
variables.
1. Diagrama de puntos

Para iniciar un análisis de correlación (y


también el de regresión) se elabora el diagrama
de puntos o de dispersión, el cual proporciona
un indicio, no sólo de la forma de la relación
entre las variables, sino también del grado de
correlación. Dicho gráfico permite representar,
con un punto en el plano cartesiano, cada par
ordenado (X,Y). Así por ejemplo:
Diagrama de dispersión

Y
Xi Yi

X1 Y1
X2 Y2
.
.
.
Xn Yn

0 X
(a) Lineal directa (b) Lineal inversa
Y Y

es

• •


• •


s •

• •

• • •



• • X X

Y ••Lineal directa
(a) Y
(b) Lineal inversa (c) C
• • • •

• ••• •
Lineal
••Positiva
• • •• •

•• •
Y Y Y


• • •
• • ••

• • ••
ibles

• ••
• •


• •• •

• • •
tos ••

••
• •• ••


e • •
• • X X
(d) Curvilinea inversa
X (e) Lineal inversa
X
con más dispersión
Y • Y Y
• •• Lineal
• •Negativa
•• •
•• • ••

• • •


(c) Curvilínea directa
Y (a) Lineal directa (

• Y Y

•posibles
Relaciones • • •
• Y •vistos
• • •
entre •X• y •
• • • •
en diagramas
• • de •
X
dispersión
X • • X
Y
Curvilínea
• •• Positiva Y • Y
•• • • • • ••
•• •
• • • • •• • ••
•• • • • • •
••• •
• •• • •
X X
X
(d) Ninguna relación
n (d) Curvilinea inversa (

Curvilínea Negativa c
• • ••

• •••

••
• ••
• •


• • •
X
ta (b) Lineal inversa X X
(c) Curvilínea directa
Y YY
• •
Y
• •• •


•• • •• • • • • • •


• •
• • •• •••• •

•••
• •

•• •
• • • •• • • •

• ••
• • ••

•••

XX X
•• •• •• X X
X
sa (e) Lineal inversa (d) Ninguna relación
con más dispersión
Lineal
Y
• •Negativa con
Y
• ••

Mayor
• dispersión
• •• • • •
•• •


• • • • ••
• •••

• • •• • • •
• ••

••• •
••

• •
X X X
a (e) Lineal inversa (d) Ninguna relación
con más dispersión
Ninguna Relación
Correlación Simple
El análisis de correlación es un grupo de
técnicas estadísticas que nos permiten
medir la intensidad de la relación que
puede existir entre dos variables, su
grado de relación y su sentido.
El objetivo es determinar qué tan intensa
es la relación y utilizamos para ello el
coeficiente de correlación.
Coeficiente de Correlación Simple
Prueba de hipótesis acerca del parámetro (rho)
Saber si X e Y están correlacionados:
Ho : ρ = 0
H1 : ρ = 0
Estadístico de prueba es:

tc= r n–2
1–r2
Ejemplo 1
En una investigación se eligieron al azar nueve individuos de
aproximadamente 30 años, de una misma ciudad,
considerados sanos. A cada uno de ellos se le midió el peso y
el nivel de colesterol en sangre. Los resultados se muestran a
continuación.
Paciente Colesterol Peso
x y X2 y2 xy
1 210 70.2 44100 4928.04 14742
2 122 62.4 14884 3893.76 7612.8
3 309 95.4 95481 9101.16 29478.6
4 198 68.9 39204 4747.21 13642.2
5 260 75.2 67600 5655.04 19552
6 230 76 52900 5776 17480
7 175 64.5 30625 4160.25 11287.5
8 198 64.2 39204 4121.64 12711.6
9 224 80.2 50176 6432.04 17964.8
Total 1926 657 434174 48815.14 144471.5
Ejemplo 1
Prueba de hipótesis parámetro
1. Planteamiento:
Ho : ρ = 0
Hi : ρ = 0

2. Nivel de significación 5%

3.Estadístico de prueba:

tc= r n–2
1–r2
Para una t n-2  t7 , El valor de p es de aprox 0.01, por lo tanto

Conclusión: Rechazamos la Ho
Se puede afirmar que existe alta correlación
lineal (positiva) entre las variables, peso y
colesterol.
Análisis de Regresión
Objetivo
Estudio de la relación funcional entre dos variables.
Establecer una relación cuantitativa entre dos o más
variables relacionadas.
Se trata de PREDECIR y/o EXPLICAR el valor de
una variable (v. Dependiente), dado el valor de otra(s)
variable(s) relacionada(s) (v. Independiente(s)).
Las variables X e Y deben ser de naturaleza
cuantitativa y de preferencia continua.
Regresión Lineal Simple
•Para resolver el problema tenemos que
AJUSTAR una línea entre los puntos
observados, a fin de usarla para predecir el
valor de Y (variable dependiente) a partir de
un valor conocido de X (variable
independiente).
•Para cada valor de X hay una subpoblación
de valores Y.
•Cada subpoblación de los valores de Y tiene
distribución normal.
Línea de Regresión

Como todos los puntos no están


exactamente sobre una línea recta, se
cometen errores en el ajuste.
Línea de Regresión

Suposiciones de regresión y correlación


 a) Normalidad: los valores de Y estarán distribuidos
normalmente a cada valor de X.
 b) Homoscedasticidad: la variación alrededor de la
línea de regresión será constante para todos los
valores de X.
 c) Independencia de error: el error (diferencia
residual entre un valor observado y uno estimado
de Y) sea independientemente de cada valor de X.
 d) Linealidad: la relación entre las variables es lineal.
Estimadores Mínimo-Cuadráticos
Ejemplo 2

Se tiene una relación de 33 pacientes de los cuales se registró la presión


sistólica. Se desea conducir un estudio para determinar la relación entre
la edad de los pacientes y la presión registrada

Paciente Edad PS
1 22 131
2 23 128
3 24 116
4 27 106
5 28 114
… … …
33 81 217
Diagrama de Dispersión

Según el diagrama de
dispersión, se espera
una relación positiva
o directa entre ambas
variables.

Modelo de regresión:
y =a+bx
Cálculos Estadísticos
Variable dependiente: la presión sistólica
Variable independiente: la edad
n = 33 Σx = 1542 (sumatoria de las edades)
Σy = 4575 (sumatoria de las presiones)
Σxy = 223.144 (productos cruzados)
Σx2 = 79.176 Σy2 = 656.481
x = 46,73 y = 138,64
Σ(x – x)2 = Σx2 – (Σx)2 / n = 79.716 – (1542) 2 / 33 = 7662,6
Σ(y – y)2 = Σy2 – (Σy)2 / n = 656.48116 – (4575) 2 / 33 = 22.219,6
Σ(x – x ) (y – y) = Σxy – (Σx)(Σy) /n = 223.144 – (1542)(4575)/33
= 9.366,7
Estimación de la Recta de Regresión

 (x - x) (y - y)
b = - - -- - - - - - - - - - - - - = 9366,7 / 7662,6 = 1.22 mm Hg / año de edad
 (x - x) 2
y = a + bx
a=y-b
x = 138,64 - (1,22)(46,73) = 81,54

Por consiguiente el modelo de Regresión Estimado es:

y = 81,54 + 1,22 x
Que significa:
 Por cada año de incremento en la edad la
presión aumenta en promedio en 1,22
mmHg.
 Es importante interpretar los resultados

obtenidos en función de las unidades en que


se encuentran expresadas nuestras variables
en estudio (y).

You might also like