You are on page 1of 30

Corelaia i regresia liniar

Sorana D. BOLBOAC

Coninut
Corelaia
Definiie Formule de calcul Testarea ipotezelor

Regresia liniar
- Simpl - Multipl

Corelaia: 3 caracteristici
1. Direcia Pozitiv (+) Negativ (-) 2. Gradul de asociere ntre 1 i 1 Valoarea absolut semnific puterea asocierii 3. Forma Linear Nelinear

Corelaia: 1. direcia
Pozitiv
20.0

C1 vs C2
C1 vs C2
120.0

Negativ
80.0

C2

C2
40.0 0.0 0.0
4.0 8.0 12.0

13.3

6.7

0.0 0.0

83.3

166.7

250.0

C1

Valori mari ale lui X se asociaz cu valori mari ale lui Y Valori mici ale lui X se asociaz cu valori mici ale lui Y

Valori mari ale lui X se asociaz cu valori mici ale lui Y Valori mici ale lui X se asociaz cu valori mari ale lui Y Ex. Viteza i acurateea

C1

Corelaia: 2. Gradul asocierii


Puternic C1 vs C2
20.0

Slab C1 vs C2 (nor de puncte difuz)


120.0 80.0

13.3

C2

C2
6.7

40.0

0.0 0.0

4.0

8.0

12.0

0.0 0.0

4.0

8.0

12.0

C1

C1

Corelaia: 3. Forma
Linear Nelinear

Corelaia Pearson: Definiie


Tehnic statistic care msoar i descrie gradul de asociere linear dintre dou variabile cantitative continue normal distribuite
Date Grafic de tip nor de puncte

Obs A B C D E F

X 1 1 3 4 6 7

Y 1 3 2 5 4 5

Asocierea
MedialuiX
<Medialui X >Medialui Y >Medialui X >Medialui Y >Medialui X <Medialui Y

Medialui Y

<Medialui X <Medialui Y

Produsul ( X X )(Y Y )

Pentruoasocierepozitiv puternic,produsulvaaveao valoaremarepozitiv

Asocierea
MedialuiX
<Medialui X >Medialui Y >MediaX >MediaY >Medialui X <Medialui Y

MedialuiY

<Medialui X <Medialui Y

Produsul ( X X )(Y Y )

Pentruoasociereputernicnegativ, produsulvaaveaovaloaremare negativ

Asocierea
Medialui X
<Medialui X >Medialui Y >Medialui X >Medialui Y >Medialui X <Medialui Y

Medialui Y

<Medialui X <Medialui Y

Produsul ( X X )(Y Y )

Pentruoasociereslab,valoarea produsuluiestefiepozitivfienegativ

10

Coeficientul de corelaie Pearson


Simbol: r, R Ia valori ntre -1 i +1 indicnd puterea (interpretm valoarea coeficientului) i direcia (interpretm semnul coeficientului) asocierii lineare. Valoarea absolut indic puterea asocierii + (direct proporional)/- indic (invers proporional) direcia asocierii

r=

(X X )(Y Y ) (X X ) (Y Y )
2
11

Coeficientul de corelaie Pearson


Asumpii: 1.Erorile din date sunt independente 2.Exist o relaie de linearitate ntre cele dou variabile de interes 3.Variabilele urmeaz o distribuie normal bivariat

12

Coeficientul de corelaie Pearson


Femur A B C D E Mean 38 56 59 64 74 58.2 Humerus 41 63 70 72 84 66.00 SSX SSY SP

(XX)

(YY) (XX)2 (YY)2 (XX)( YY)

SP r= SSXSSY

13

Coeficientul de corelaie Pearson


Femur A B C D E mean 38 56 59 64 74 58.2 Humerus 41 63 70 72 84 66.00

(XX) (YY) (XX)2 (YY)2 (XX)( YY)


20.2 2.2 0.8 5.8 15.8 25 3 4 6 18 408.04 4.84 .64 33.64 249.64 696.8 SSX 625 9 16 36 324 1010 SSY 505 6.6 3.2 34.8 284.4 834 SP

r = 0.99

14

Coeficientul de corelaie Pearson: Interpretare


O msur a puterii asocierii: ct de puternic punctele din grafic se aglomereaz n jurul unei linii? O msur a direciei asocierii: pozitiv sau negativ? Reguli empirice de interpretare a coeficientului de corelaie: Colton [Colton T. Statistics in Medicine. Little Brown and Company, New York, NY 1974] :
R [-0.25 to +0.25] Nu exist nici o relaie R (0.25 to +0.50] (-0.25 to -0.50] relaie slab R (0.50 to +0.75] (-0.50 to -0.75] relaie moderat R (0.75 to +1) (-0.75 to -1) relaie puternic

15

Coeficientul de corelaie Pearson: Interpretare


Valoarea p este probabilitatea ca valoarea coeficientului de corelaie s fie egal cu zero (ipoteza nul). Dac probabilitatea este mai mic dect nivelul de semnificaie (ex. p < 0.05) coeficientul de corelaie este semnificativ statistic.
Correlation coefficient

p-value
Sample size
16

Coeficientul de corelaie al rangurilor Spearman


Se poate aplica pe orice tip de variabile Nu necesit asumpia distribuiei normale bivariate a celor 2 variabile de interes Simbol:

17

Coeficientul de corelaie al rangurilor Spearman


Semnul coeficientului de corelaie Spearman indic direcia asocierii (invers proporionale pentru semnul - i direct proporional pentru semnul +) dintre variabilele investigate =1 relaia dintre cele dou variabile investigate este monoton . N.B. Nu va da un coeficient de corelaie Pearson egal cu 1.
18

Coeficientul de determinare (r2/R2)


Valoarea covariaiei raportat la volumul total al variaiei Procentul din variaia total care este explicat de variabilele independente Exemplu
Dac r = 0.80 variabilele independente explic 64% din variabilitatea variabilei dependente

19

Proprietile coeficientului de corelaie


O statistic standardizat nu se modific dac schimbm unitile de msur ale variabilelor. Valoarea este identic dac corelm pe X cu Y sau pe Y cu X. Valoarea este destul de instabil pentru n mic Vulnerabil la valori extreme Are o distribuie asimetric
20

Coeficientul de corelaie: exemplu


Enciu A, Zamfir CZ, Nicolescu A, Ida A. THE ANALYSIS OF CORRELATIONS BETWEEN THE MAIN TRAITS OF WOOL PRODUCTION ON MILK BREED PALAS. Lucrri tiinifice Seria Zootehnie ????;57:50-54.

21

Matricea de corelaie

Regresia linear simpl Regresia linear multipl

Regresia liniar: asumpii


Erorile msurtorilor sunt independente Regresia depinde de identificarea corect a modelului relaional Nu exist erori n msurarea valorilor variabilei dependente Variaia valorilor lui Y este aceeai pentru toate valorile lui X Valorile Y urmeaz o distribuie normal
24

Regresia liniar
Dac exist o relaie de liniaritate ntre variabilele de interes putem identifica o ecuaie simpl pentru a prezice o variabil cunoscnd cealalt variabil Variabila rezultate este variabila Y, iar variabila predictor este variabila X Exemplu: transformarea n grade Fahrenheit cunoscnd valoarea n grade Celsius:

F = 32 + 1.8C
Aceast formul d o line perfect
25

Ecuania dreptei

Formula general: Y = a + bX Ecuaia de predicie: = a+ bX


a = intercept, b = coeficientul dreptei, X = predictor

a i b sunt constante ntr-o ecuaie; X i Y se modific


26

Panta i interceptul
= a + bX Panta b: Cantitatea cu care valoarea Y se modific n momentul n care modificm valoarea lui X cu o unitate

SP b=r = s x SS X
Interceptul a: valoarea lui Y cnd X este zero

sy

a = Y bX
Panta este influenat de r, dar nu are aceeai semnificaie ca i r
27

28 http://onlinelibrary.wiley.com/doi/10.1111/j.1939-1676.2011.00812.x/pdf

29

De reinut!
Evaluarea puterii asocierii dintre dou variabile cantitative continue (normal distribuite) corelaie Prezicerea unei variabile (Y) n funcie de o alt variabil (X) regresie

You might also like