You are on page 1of 15

3.

CORRELAO LINEAR SIMPLES


Constata-se, freqentemente, a existncia de uma relao entre duas (ou

mais) variveis. Se tal relao de natureza quantitativa, a correlao o


instrumento adequado para descobrir e medir essa relao.
Dizemos que duas variveis, X e Y, esto positivamente correlacionadas
quando elas caminham num mesmo sentido, ou seja, elementos com valores
pequenos de X tendem a ter pequenos valores de Y e elementos com valores
grandes de X tendem a ter valores grandes de Y. Esto negativamente
correlacionados quando elas caminham em sentidos opostos, ou seja, elementos
com valores pequenos de X tendem a ter valores grandes de Y e elementos com
valores grandes de X tendem a ter valores pequenos de Y.
As variveis peso e altura, por exemplo, apresentam-se, em geral,
correlacionadas positivamente, pois a maioria dos indivduos altos tambm so
pesados, enquanto que a maioria dos indivduos baixos so leves. Por outro lado, no
Brasil, as variveis renda familiar e nmero de elementos da famlia costumam se
apresentar correlacionados negativamente, pois, as famlias de baixa renda, em
geral, tendem a ter mais filhos do que as de alta renda.
Quando esto em jogo somente duas variveis, fala-se em correlao e
regresso simples. Quando se trata de mais de duas variveis, fala-se de correlao
e regresso mltipla.
Uma correlao linear simples uma relao entre duas variveis
quantitativas. Os dados podem ser representados por pares ordenados (X, Y), onde
X a varivel independente (explicativa) e Y a varivel dependente (resposta).
Coletam-se dados exibindo os valores correspondentes das variveis. Faz-se
o grfico dos pontos em sistema de coordenadas retangulares. O conjunto resultante
chamado Diagrama de Disperso.

3.2

DIAGRAMA DE DISPERSO
Uma

maneira

de

visualizarmos

se

duas

variveis

apresentam-se

correlacionadas por meio do diagrama de disperso, no qual os valores das


variveis so representados por pontos, num sistema cartesiano.
Suponha que X e Y representam, respectivamente, a altura e o peso de
adultos do sexo masculino. Uma amostra de n indivduos acusaria alturas X1, X2, ...,
Xn, e os correspondentes pesos Y1, Y2, ..., Yn,. Os pontos a serem marcados no
grfico seriam ento (X1, Y1), (X2, Y2),..., (Xn, Yn). Os diagramas de disperso destas
variveis podem apresentar as seguintes caractersticas:

Grfico de disperso

Y (peso)

Grfico de Disperso

Y (peso)

X (altura)

Fig.01- Correlao perfeita positiva

X (altura)

Fig. 02- Correlao imperfeita positiva

Grfico de disperso

Y (peso)

Grfico de Disperso

Y (peso)

X (altura)

Fig.03- Correlao perfeita negativa

X (altura)

Fig.04- Correlao imperfeita negativa

Grfico de disperso

Y (peso)

Y (Peso)

Grfico de disperso

X (altura)

Fig.05- No h correlao linear

X (altura)

Fig.06-No h correlao linear

Pelo diagrama de disperso, muitas vezes, se pode visualizar uma curva


aproximativa dos dados. Inicialmente devemos observar a inclinao ou declive, se
presente de um agrupamento de pontos. Um agrupamento de pontos que possui
uma inclinao partindo do canto esquerdo inferior at o canto direito superior, como
nas Figuras 1 e 2, reflete uma relao positiva. Por outro lado, um agrupamento de
pontos que possui uma inclinao partindo do canto esquerdo superior at o canto
direito inferior como mostra as Figuras 3 e 4, reflete uma relao negativa.
Finalmente, um agrupamento de pontos onde h ausncia de qualquer
inclinao aparente, como mostra a Figura 6, reflete pouca ou nenhuma relao.
Algumas vezes, um agrupamento de pontos se aproxima de uma linha flexionada ou
curvada, conforme mostra a Figura 5, dessa maneira reflete uma relao curvilnea.
As descries dessas relaes so mais complexas do que aquelas para relaes
lineares.
Tendo estabelecido que a relao seja positiva ou negativa, observe, a
seguir, o quanto o agrupamento de pontos se aproxima de uma reta. Quanto mais o
grupo de pontos se aproximarem de uma linha reta, mais forte (e regular) ser a
relao. Um agrupamento de pontos que seja igual (mais do que meramente
aproximado) a uma linha reta reflete uma relao perfeita (ver Figuras 1 e 3) entre
duas variveis. Na prtica, as relaes perfeitas so muito improvveis.

3.3

COEFICIENTE DE CORRELAO LINEAR DE PEARSON


Embora seja til verificar a existncia de correlao por intermdio do

diagrama de disperso, ele no nos fornece, com preciso, o grau de aderncia


entre as sries, ou seja, quo prximos esto os pontos em torno da reta.
Pode ser utilizado o coeficiente de correlao de Pearson (em homenagem ao
estatstico ingls Karl Pearson (1857-1936)). O smbolo r representa o coeficiente de
correlao amostral.
Seja (X1, Y1), (X2, Y2),..., (Xn, Yn) uma amostra aleatria das variveis (X, Y), o
clculo do Coeficiente de Correlao entre X e Y dado por:

rXY = r =

n X i .Yi X i Yi
n. X 2 ( X )2 . n. Y 2 ( Y )2
i i i
i

onde n o nmero de observaes.


O coeficiente de correlao de Pearson, r, pode ser igual a qualquer valor
entre -1,00 e +1,00. Alm disso, se aplicam a duas propriedades a seguir:
1

O sinal de r indica o tipo de relao linear, se positiva ou negativa.

O valor de r, sem considerar o sinal, indica a fora (intensidade) da relao


linear.
Quanto mais prximo um valor de r se torna em relao a -1,00 ou +1,00,

mais forte (mais regular) torna-se a relao. Reciprocamente, quanto mais prximo o
valor de r fica em relao a 0 (zero), mais fraca (menos regular) torna-se a relao.
Por exemplo, um r igual a -0,90 indica uma relao mais forte do que um r igual a 0,70, e um r correspondente -0,70 indicam uma relao mais forte do que um r igual
a 0,5, lembre-se de que, se nenhum sinal aparece, est subtendido ser positivo.
Se no existir correlao linear ou ainda se a correlao linear for fraca, r
estar prximo de zero.
Assim:
a) Se a correlao entre duas variveis perfeita e positiva, ento
r = 1 (ver Figura 1);

b) Se a correlao perfeita e negativa, ento r = -1 (ver Figura 3);


c) Se no h correlao entre as variveis, r = 0 (ver Figura 6).
Partindo de uma perspectiva um pouco diferente, o valor de r corresponde a
uma medida de quo bem uma linha reta (representando a relao linear) descreve
o grupo de pontos no grfico de disperso. Em outras palavras, o valor de r
representa a medida de quo bem uma linha reta se ajusta aos dados.
Tome cuidado ao interpretar o valor numrico real de r. Um r de 0,70 para
estatura e peso no significa que a fora desta relao seja igual a 0,70, ou
represente 70 por cento da fora de uma relao perfeita. Em outras palavras, o
valor de r no pode ser interpretado como uma proporo ou percentagem de
alguma relao perfeita.
Ao interpretar um r novinho em folha, voc ir descobrir que uma boa
prtica o valor numrico de r em uma descrio verbal da relao. Um r igual a 0,70
para estatura e peso dos alunos de uma faculdade poderia ser traduzido em:
Alunos altos tendem a pesar mais (ou alguma outra igualmente vlida, tal como:
Alunos mais leves tendem a ser mais baixos); um r igual a -0,42 para o tempo
gasto estudado para fazer um exame e o subseqente resultado do resultado do
exame poderia ser traduzido em Alunos que gastam menos tempo estudando
tendem a pontuar mais alto; e um r na vizinhana de 0 (zero) para tamanho de
sapatos e Q.I. poderia ser traduzido em Pequena, ou nenhuma, relao existe entre
tamanho de sapato e Q.I..
Exemplo:
Um administrador de marketing conduz um estudo para determinar se existe
uma relao linear entre o dinheiro gasto em propaganda e as vendas de uma
companhia. Os dados esto dispostos na tabela a seguir.

Tabela 1 - Relao linear entre o dinheiro gasto em propaganda e as vendas de


uma companhia.
Vendas da

Gasto com
Empresas

empresa

Propaganda

(U$

(U$ 1000,00)

X.Y

X2

Y2

1000,00)

(X)

(Y)

540,00

5,80

3132,00

291600,00

33,64

294,00

2,60

764,40

86436,00

6,76

440,00

4,00

1760,00

193600,00

16,00

624,00

6,80

4243,20

389376,00

46,24

252,00

2,00

504,00

63504,00

4,00

295,00

2,70

796,50

87025,00

7,29

372,00

4,00

1488,00

138384,00

16,00

473,00

4,90

2317,70

223729,00

24,01

i =3290,00

Y =32,80 X .Y =15005,80 X
i

2
i =1473654,00

Grfico de disperso dos dados

Grafico de disperso
8

6
Vendas da Empresa (em US$1,000.00)

Total

0
200

250

300

350

400

450

500

Gastos com Propaganda (em US$1,000.00)

Fig.07- Grfico de disperso dos dados

550

600

650

=153,94

Clculo do coeficiente de correlao

rXY = r =

rXY = r =

rXY

n X i Yi X i Yi
n X 2 ( X )2 n Y 2 ( Y )2
i i i
i
8 15.005,80-3290,00 32,80

8 1.473.654, 00- ( 3290,00 )2 8 153,94- ( 32,80 )2

120046,4-107912,00
=r=
=
[11789232,00-10824100,00] [1231,52-1075,84]

rXY = r =

12134,40
12134, 40
12134, 40
=
=
=
965132,00 155,68
150251749,76 12257,722

rXY = r = 0,9899
Existe uma forte correlao positiva entre as variveis gastos com
propaganda e vendas. Ou seja, empresas que investem em propaganda tendem a
aumentar suas vendas.
3.4 CORRELAO E CAUSALIDADE
Se considerar uma correlao entre a prevalncia da pobreza e crime em
cidades do Brasil, voc pode especular que a pobreza causa o crime; ou seja, que a
pobreza gera crime com o mesmo grau de inevitabilidade que o apertar de um
interruptor ilumina um aposento. De acordo com essa viso, qualquer reduo
substancial na pobreza deveria causar um correspondente decrscimo no crime.
Voc pode especular que uma causa comum como educao inadequada,
superpopulao, discriminao racial e assim por diante, ou alguma combinao
desses fatores gera tanto pobreza quanto o crime. Logo, de acordo com essa
viso, uma reduo substancial na pobreza no deveria causar qualquer efeito no
crime. Qual das especulaes correta? Infelizmente, essa pergunta no pode ser
resolvida meramente com correlao observada.
O fato de duas variveis estarem fortemente relacionadas por si s, no
implica em uma relao de causa e efeito entre as variveis.

Por exemplo: possvel que a relao das variveis tenha sido causada por
uma terceira varivel, ou, ainda, por uma combinao de muitas outras variveis.
Existem muitos outros tipos de coeficiente de correlao, mas iremos discutir
somente o coeficiente de correlao de Pearson.
Ento, caracterizada a relao, procuramos descrev-la por intermdio de
uma funo matemtica. A regresso o instrumento adequado para a
determinao dos parmetros dessa funo.
3.5 REGRESSO LINEAR SIMPLES
O termo regresso surgiu com os trabalhos de Galton (18221911), ao final
do sculo passado. Estes trabalhos procuravam explicar certas caractersticas de
um indivduo, a partir das caractersticas de seus pais. Galton acreditava que os
filhos de pais excepcionais com respeito determinada caracterstica, tambm
possuam esta caracterstica, porm, numa intensidade, em mdia, menor do que a
mdia de seus pais.
Os estudos de Galton baseavam-se em observaes derivadas de
experimentos ou de observaes da realidade. Em um destes trabalhos, ele
relacionou centenas de alturas de indivduos, com as respectivas alturas mdias de
seus pais.
Vamos considerar uma parte do problema que gerou o primeiro estudo de
regresso, realizado por Galton, por volta 1885. A tabela a seguir apresenta algumas
das observaes coletadas por Galton, onde X representa as alturas mdias de seus
pais e Y, alturas dos indivduos, medidas em centmetros.
Tabela 2 - Alturas mdias de seus pais e Y, alturas dos indivduos,
medidas em centmetros.
X

164

166

164

168

166

166

166

168

166

171

166

173

169

166

169

168

169

171

169

173

171

166

171

168

171

171

171

173

171

176

173

168

173

171

173

176

173

178

176

171

176

173

176

176

178

176

178

178

Fonte: Spiegel (1970, p.286), com adaptaes.

O diagrama de disperso a seguir representa as observaes da tabela


anterior. Indica uma correlao positiva, como era de se esperar que exista uma
tendncia de que filhos de pais altos tenham alturas inferiores s alturas mdias de
seus pais, enquanto os filhos de pais baixos tenham alturas superiores s alturas
mdias de seus pais.
Grfico de Disperso
180

178

Altura do filho (Y)

176

174

172

170

168

166

164
162

164

166

168

170

172

174

176

178

180

Altura mdia dos pais (X)

Fig.08- Grfico de correlao positiva.

3.6 MODELO DA REGRESSO LINEAR SIMPLES


O problema de se determinar equaes de curvas que se ajuste a
determinados conjuntos de dados observados chamado ajustamento de curvas.
Na prtica, o prprio diagrama de disperso geralmente sugere o tipo de curva a ser
adotada. Assim, para as Figuras 1 e 2 poderamos usar a reta (Y = aX + b) enquanto
que para a Figura 3, tentaramos uma parbola (Y = aX2 + bX + c).
Um dos principais objetivos do ajustamento estimar uma das variveis (a
varivel dependente) em funo da outra (varivel independente). Tal processo de
estimativa denominado regresso. Diremos que um dado valor de Y depende, em
parte, do correspondente valor X. Por exemplo: a altura de um indivduo (Y)
depende, em parte, da altura mdia de seus pais (X). Simplificaremos est
dependncia por uma relao linear entre X e Y, tal como: Y = + X .
Fixando valores para e , a equao Y = + X a equao de uma reta.
Por exemplo, se = 1 e = 2 , a equao Y = 1 + 2 X representa uma reta, num par
de eixos cartesianos. Para desenharmos esta reta, basta atribuir dois valores para X

10

e calcular os correspondentes Y. Digamos: X=0 Y=1+2(0) =1 e X=1


Y=1+2(1)=3 com estes dois pontos, podemos traar a reta:
Representao grfica da equao Y=1+2X
3,5

y = 2x + 1
1; 3

2,5

1,5

0; 1
0,5

0
0

0,2

0,4

0,6

0,8

1,2

Ao observamos um conjunto de observaes (X, Y), verificaremos que, em


geral, os pontos no esto exatamente sobre uma reta, mas flutuam em torno de
alguma reta imaginria. Ento, um modelo mais adequado para um par de
observaes Y = + X + , onde representa o efeito aleatrio, isto , o efeito
de uma infinidade de fatores que afetam a observao Y de forma aleatria.
Por exemplo: a altura de um indivduo (Y) no depende somente da altura
mdia de seus pais (X), mas tambm, de sua alimentao, do gentipo de seus
ancestrais e de uma infinidade de outros fatores, representados no modelo por .
No modelo Y = + X + , chamaremos de parte estrutural a parcela de Y
determinada por X, isto , + X . O procedimento inicial da anlise de regresso
produzir uma estimativa para esta parte, a partir de uma amostra de observaes
(X,Y).
3.7 ESTIMATIVAS DOS PARMETROS E
A idia bsica da construo da parte estrutural do modelo, supostamente
linear, encontrar a reta que passa mais prxima possvel dos pontos observados.
Representaremos esta reta por Y = a + bX e a chamaremos de reta de regresso,
equao de regresso ou reta do ajuste timo.

11

A obteno da equao de regresso, pelo mtodo dos mnimos quadrados,


consiste em fazer com que a soma quadrtica dos efeitos aleatrios,

, seja a

menor possvel. O chamado mtodo dos mnimos quadrados fornece as seguintes


expresses para a equao de regresso.

b=

n X i .Yi X i Yi
n. X i ( X i )
2

a=

Y b X
i

Onde:
n

: nmero de pares (x, y) observados (tamanho da amostra);

X .Y
i

: Somatrio dos produtos x.y (primeiramente fazem-se os produtos x.y,


relativos a todos os pares observados e, depois, efetua-se a soma dos
resultados destes produtos);

: soma dos valores observados da varivel X;

: soma dos valores observados da varivel Y;

2
i

: soma dos quadrados dos valores X (primeiro elevam-se os valores de


X ao quadrado e, depois, efetua-se a soma).
_

Outra forma de se calcular o a por meio da frmula: b = y a x sendo x a


_

mdia aritmtica dos X; e y a mdia aritmtica dos Y.


Exemplo 1:
Ilustraremos a obteno da equao de regresso, com parte das
observaes da altura mdia dos pais (X) e altura do filho (Y), extradas da do
exemplo anterior. A tabela a seguir mostra os clculos dos somatrios.

12

Tabela 3 - Clculos dos somatrios


DADOS

CLCULOS INTERMEDIRIOS
2

164

166

26.896

27.224

166

166

27.556

27.556

169

171

28.561

28.899

169

166

28.561

28.054

171

171

29.241

29.241

173

171

29.929

29.583

173

178

29.929

30.794

176

173

30.976

30.448

178

178

31.684

31.684

Y =1.540 X

i =1.539

X.Y

2
i =263.333

X .Y =263.483
i

Estimativa dos parmetros

b=

n X i .Yi X i Yi

a=

Y b X

n. X i 2 ( X i )
i

9. ( 263483) (1539 ) . (1540 )


9. ( 263333) (1539 )

1287
= 0,872
1476

1540 ( 0,872 ) . (1539 )


= 22, 00
9

Onde temos a reta de regresso Y = 22 + 0,872 X , para traar a reta no plano


formado pelos eixos X e Y, basta atribuir dois valores para X e calcular os
correspondentes valores de Y , pois por dois pontos passa uma, e apenas uma, reta.
Observe a figura a seguir.
Grfico de disperso
180

178

Y = a + bX

Altura do filho (Y)

176

174

172

170

168

166

164
160

165

170

175

Altura mdia dos pais (X)

Fig.09 Reta de regresso.

180

185

13

Interpretao:
Com respeito aos nove indivduos observados, podemos predizer a altura de
um filho ( Y ), a partir de uma dada altura mdia de seus pais, X, por meio da
equao Y = 22 + 0,872 X . Por exemplo: para uma altura mdia dos pais de x=175
cm,

temos

uma

estimativa

para

altura

do

filho

de

Y = 22 + 0,872 X = 22 + ( 0,872 ) . (175 ) = 174cm.


O coeficiente b, que no caso 0,872, fornece uma estimativa da variao
esperada de Y, a partir da variao de uma unidade em X. O sinal deste coeficiente
indica o sentido do relacionamento, como positivo, indica uma correlao positiva
entre as variveis X e Y, para os nove indivduos em estudo.
Exemplo 2:
Um executivo de publicidade pode prever as vendas da companhia baseado
nos gastos de propaganda. Um administrador de marketing conduz um estudo para
prever as vendas da companhia por meio da relao com dinheiro gasto em
propaganda. Os dados esto dispostos na tabela a seguir.
Tabela 4 - Vendas da companhia por meio da relao com dinheiro gasto em
propaganda
Gasto com
Empresas

Propaganda
(em U$ 1000,00)
(X)

Vendas da
empresa
(em U$

X.Y

1000,00)
(Y)

540,00

5,80

3132,00

291600,00

294,00

2,60

764,40

86436,00

440,00

4,00

1760,00

193600,00

624,00

6,80

4243,20

389376,00

252,00

2,00

504,00

63504,00

295,00

2,70

796,50

87025,00

372,00

4,00

1488,00

138384,00

473,00

4,90

2317,70

223729,00

Total

i =3290,00

Y =32,80 X .Y =15005,80 X
i

2
i =1473654,00

14

Grfico de disperso dos dados


Grafico de disperso
8

Vendas da Empresa (em US$1,000.00)

Y = 1, 246 + 0, 013 X

0
200

250

300

350

400

450

500

550

600

650

Gastos com Propaganda (em US$1,000.00)

Fig.10 Grfico de disperso dos dados.

Estimativa dos parmetros

b=

n X i .Yi X i Yi

a=

Y b X

n. X i ( X i )
2

8. (15005,80 ) ( 3290,00 ) . ( 32,80 )


8. (1473654,00 ) ( 3290,00 )

12134,4
= 0, 013
965132

32,80 ( 0, 013) . ( 3290 )


= 1, 246
8

Onde temos a reta de regresso Y = 1, 246 + 0, 013 X . Para traar a reta no


plano formado pelos eixos X e Y, basta atribuir dois valores para X e calcular os
correspondentes valores de Y , pois, por dois pontos passa uma, e apenas uma,
reta. Veja o grfico anterior.

Interpretao:
Com respeito s oito empresas observadas, podemos predizer as vendas de
uma empresa ( Y ), a partir de um dado gasto com propaganda, X, por meio da
equao Y = 1, 246 + 0, 013 X .

15

Por exemplo: para um gasto com propaganda de x=US$2500, temos uma


estimativa para as vendas de Y = 1, 246 + 0,13 X = 1, 246 + 0, 013. ( 2500 ) = US $31, 254
(em US$ 1000).
Observe que quando no se gasta nenhum dlar com propaganda (x=0),
prevemos uma queda nas vendas de US$1,246 (US$1000), valor de a. Tambm
observe que, para cada U$1000 de dlar investido em propaganda vamos ter um
acrscimo de 0,013 nas vendas, valor de b. O fato de b ter um valor menor que 1,00,
indica que os incrementos na previso de vendas tm uma defasagem (0,013 ou
1,3%) em relao aos incrementos com gastos em propaganda. Se o valor de b
tivesse sido maior que 1,00, ento, os incrementos na previso de vendas teriam
excedido os incrementos com gastos em propaganda, se o valor de b tivesse sido
negativo, em razo de uma correlao negativa subjacente, ento incrementos em
gastos com propaganda teriam acarretado redues, e no acrscimos, na previso
de vendas da empresa.
3.8 COEFICIENTE DE DETERMINAO (r2)
O coeficiente de determinao o quadrado do coeficiente de correlao
[Coeficiente de determinao = (coeficiente de correlao)2]. uma medida
descritiva da proporo da variao de Y que pode ser explicada por X, segundo o
modelo especificado.
No exemplo em que estudamos a relao linear dinheiro gasto em
propaganda e as vendas de uma companhia, obtemos um coeficiente de correlao
de r=0,9899. Ento r2 = 0,9799 ou 97,99%.
Interpretao:
Dentre as empresas estudadas, 97,99% da variao nas vendas da
companhia so explicadas pela variao nos gastos com propaganda. Os 2,01% (10,9799 ou 100-97,99) restantes so inexplicados e se devem ao acaso ou a outras
variveis.
Acesse a Ferramenta Atividades e realize a Atividade 1.

You might also like