Professional Documents
Culture Documents
MARTIN DE PORRES
Análisis de
Regresión
y Correlación
BIOESTADISTICA
2006
1. Introducción
En ciencias de la salud y en otras áreas con mucha
frecuencia conviene saber algo de la fuerza o
intensidad de la relación entre variables como:
edad y presión arterial, remuneración mensual y
rendimiento en el trabajo, talla y peso, ingreso
familiar y gastos médicos, edad y frecuencia
cardiaca, edad y talla, etc; observar que estos
ejemplos involucran variables numéricas medidas
en escala de intervalo o de razón.
Cuando tanto X como Y son variables aleatorias, se
tiene lo que se conoce como modelo de
correlación. Típicamente, bajo el modelo de
correlación se selecciona una muestra
probabilística de unidades de asociación (que
pueden ser personas, lugares, animales, puntos en
el tiempo o cualquier otro elemento) luego, de cada
una de las unidades se toma una medida de X y
una medida de Y.
Una correlación puede ser positiva (cuando, por
ejemplo tanto X como Y aumentan), o negativa
(cuando por ejemplo, al aumentar una variable la
otra disminuye). Por otra parte, si la variación de
X y la variación de Y no se corresponden en
absoluto, entonces no existe ninguna asociación y
por tanto, ninguna correlación, entre las dos
variables.
1. Diagrama de puntos
Y
Xi Yi
X1 Y1
X2 Y2
.
.
.
Xn Yn
0 X
(a) Lineal directa (b) Lineal inversa
Y Y
•
es
• •
•
•
• •
•
s •
• •
•
• • •
•
•
•
• • X X
Y ••Lineal directa
(a) Y
(b) Lineal inversa (c) C
• • • •
• ••• •
Lineal
••Positiva
• • •• •
•• •
Y Y Y
•
• • •
• • ••
• • ••
ibles
• ••
• •
•
• •• •
• • •
tos ••
••
• •• ••
•
e • •
• • X X
(d) Curvilinea inversa
X (e) Lineal inversa
X
con más dispersión
Y • Y Y
• •• Lineal
• •Negativa
•• •
•• • ••
•
•
• • •
•
•
(c) Curvilínea directa
Y (a) Lineal directa (
• Y Y
•
•posibles
Relaciones • • •
• Y •vistos
• • •
entre •X• y •
• • • •
en diagramas
• • de •
X
dispersión
X • • X
Y
Curvilínea
• •• Positiva Y • Y
•• • • • • ••
•• •
• • • • •• • ••
•• • • • • •
••• •
• •• • •
X X
X
(d) Ninguna relación
n (d) Curvilinea inversa (
Curvilínea Negativa c
• • ••
• •••
•
•
••
• ••
• •
•
• • •
X
ta (b) Lineal inversa X X
(c) Curvilínea directa
Y YY
• •
Y
• •• •
•
•• • •• • • • • • •
•
•
•
• •
• • •• •••• •
•••
• •
•• •
• • • •• • • •
• ••
• • ••
•••
•
XX X
•• •• •• X X
X
sa (e) Lineal inversa (d) Ninguna relación
con más dispersión
Lineal
Y
• •Negativa con
Y
• ••
•
Mayor
• dispersión
• •• • • •
•• •
•
•
•
•
• • • • ••
• •••
• • •• • • •
• ••
•
••• •
••
• •
X X X
a (e) Lineal inversa (d) Ninguna relación
con más dispersión
Ninguna Relación
Correlación Simple
El análisis de correlación es un grupo de
técnicas estadísticas que nos permiten
medir la intensidad de la relación que
puede existir entre dos variables, su
grado de relación y su sentido.
El objetivo es determinar qué tan intensa
es la relación y utilizamos para ello el
coeficiente de correlación.
Coeficiente de Correlación Simple
Prueba de hipótesis acerca del parámetro (rho)
Saber si X e Y están correlacionados:
Ho : ρ = 0
H1 : ρ = 0
Estadístico de prueba es:
tc= r n–2
1–r2
Ejemplo 1
En una investigación se eligieron al azar nueve individuos de
aproximadamente 30 años, de una misma ciudad,
considerados sanos. A cada uno de ellos se le midió el peso y
el nivel de colesterol en sangre. Los resultados se muestran a
continuación.
Paciente Colesterol Peso
x y X2 y2 xy
1 210 70.2 44100 4928.04 14742
2 122 62.4 14884 3893.76 7612.8
3 309 95.4 95481 9101.16 29478.6
4 198 68.9 39204 4747.21 13642.2
5 260 75.2 67600 5655.04 19552
6 230 76 52900 5776 17480
7 175 64.5 30625 4160.25 11287.5
8 198 64.2 39204 4121.64 12711.6
9 224 80.2 50176 6432.04 17964.8
Total 1926 657 434174 48815.14 144471.5
Ejemplo 1
Prueba de hipótesis parámetro
1. Planteamiento:
Ho : ρ = 0
Hi : ρ = 0
2. Nivel de significación 5%
3.Estadístico de prueba:
tc= r n–2
1–r2
Para una t n-2 t7 , El valor de p es de aprox 0.01, por lo tanto
Conclusión: Rechazamos la Ho
Se puede afirmar que existe alta correlación
lineal (positiva) entre las variables, peso y
colesterol.
Análisis de Regresión
Objetivo
Estudio de la relación funcional entre dos variables.
Establecer una relación cuantitativa entre dos o más
variables relacionadas.
Se trata de PREDECIR y/o EXPLICAR el valor de
una variable (v. Dependiente), dado el valor de otra(s)
variable(s) relacionada(s) (v. Independiente(s)).
Las variables X e Y deben ser de naturaleza
cuantitativa y de preferencia continua.
Regresión Lineal Simple
•Para resolver el problema tenemos que
AJUSTAR una línea entre los puntos
observados, a fin de usarla para predecir el
valor de Y (variable dependiente) a partir de
un valor conocido de X (variable
independiente).
•Para cada valor de X hay una subpoblación
de valores Y.
•Cada subpoblación de los valores de Y tiene
distribución normal.
Línea de Regresión
Paciente Edad PS
1 22 131
2 23 128
3 24 116
4 27 106
5 28 114
… … …
33 81 217
Diagrama de Dispersión
Según el diagrama de
dispersión, se espera
una relación positiva
o directa entre ambas
variables.
Modelo de regresión:
y =a+bx
Cálculos Estadísticos
Variable dependiente: la presión sistólica
Variable independiente: la edad
n = 33 Σx = 1542 (sumatoria de las edades)
Σy = 4575 (sumatoria de las presiones)
Σxy = 223.144 (productos cruzados)
Σx2 = 79.176 Σy2 = 656.481
x = 46,73 y = 138,64
Σ(x – x)2 = Σx2 – (Σx)2 / n = 79.716 – (1542) 2 / 33 = 7662,6
Σ(y – y)2 = Σy2 – (Σy)2 / n = 656.48116 – (4575) 2 / 33 = 22.219,6
Σ(x – x ) (y – y) = Σxy – (Σx)(Σy) /n = 223.144 – (1542)(4575)/33
= 9.366,7
Estimación de la Recta de Regresión
(x - x) (y - y)
b = - - -- - - - - - - - - - - - - = 9366,7 / 7662,6 = 1.22 mm Hg / año de edad
(x - x) 2
y = a + bx
a=y-b
x = 138,64 - (1,22)(46,73) = 81,54
y = 81,54 + 1,22 x
Que significa:
Por cada año de incremento en la edad la
presión aumenta en promedio en 1,22
mmHg.
Es importante interpretar los resultados