You are on page 1of 34

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

CAPTULO 2 ANLISE PRELIMINAR DE DADOS HIDROLGICOS


Conforme exposto no captulo 1, os fenmenos hidrolgicos apresentam uma
aleatoriedade intrnseca devida complexa interao e dependncia entre inmeros
fatores influentes nas diversas fases do ciclo hidrolgico. Para lidar com tais
incertezas, o hidrlogo tem como uma de suas primeiras tarefas, obter e analisar
uma amostra de dados hidrolgicos. A investigao organizada de um conjunto
de dados hidrolgicos, na busca de evidncias e padres empricos de
variabilidade, uma aplicao da estatstica em um estgio descritivo e constitui
o objeto do presente captulo. O estgio seguinte, o qual procura estabelecer o
padro de variabilidade da populao de onde foi extrada aquela amostra, uma
aplicao da teoria de probabilidades e dos mtodos de inferncia estatstica,
cujos fundamentos sero tratados nos captulos subseqentes desta publicao.
A anlise preliminar de uma amostra de dados hidrolgicos compreende um
conjunto de mtodos e tcnicas que visam extrair as caractersticas empricas
essenciais do padro de distribuio de uma varivel hidrolgica. Esse conjunto
pode ser dividido em trs grupos: (a) Apresentao Grfica de Dados Hidrolgicos;
(b) Sumrio Numrico e Estatsticas Descritivas e (c) Mtodos Exploratrios.
Complementarmente primeira anlise de uma amostra de dados de uma nica
varivel, apresenta-se, ao final desse captulo, uma breve discusso sobre a
associao entre observaes simultneas de duas variveis.

2.1 Apresentao Grfica de Dados Hidrolgicos


Em geral, um conjunto de observaes de uma varivel hidrolgica encontra-se
disponvel em forma tabular (ver, por exemplo, o anexo 1 ou o exerccio 9 do
captulo 1), a qual, muitas vezes, no consegue demonstrar, com facilidade e nitidez,
a essncia do padro de distribuio da varivel em questo. Essa nitidez mais
facilmente conseguida com o emprego de representaes grficas da varivel
hidrolgica. O que se segue um apanhado no exaustivo de diferentes tipos de
grficos de variveis hidrolgicas discretas e contnuas.

HIDROLOGIA ESTATSTICA

19

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

2.1.1 Diagrama de Linha


O nmero de ocorrncias de uma varivel hidrolgica discreta pode ser
convenientemente representado pelo chamado diagrama de linha, o qual dispe
os valores possveis da varivel em um eixo horizontal, enquanto os correspondentes
nmeros de ocorrncias so representados pelas alturas das linhas verticais. A
Figura 2.1 exemplifica um diagrama de linha, onde, em abscissas, encontram-se
os valores possveis do nmero anual de cheias do Rio Magra na estao
fluviomtrica de Calamazza (Itlia) que ultrapassaram a vazo de referncia de
300 m3/s em um perodo de 34 anos de observao, enquanto as alturas das
linhas verticais representam os correspondentes nmeros de ocorrncias. A vazo
de referncia foi estabelecida como aquela, acima da qual os elevados nveis
dgua ameaam vidas e propriedades locais. A observao do diagrama da Figura
2.1 sugere uma distribuio aproximadamente simtrica do nmero de ocorrncias,
com valor central em torno de 4 cheias anuais.

Nmero de Ocorrncias

Nmero de Anos de Cheias do Rio Magra em


Calamazza (Itlia)

Nmero de Cheias Anuais

Figura 2.1 Exemplo de Diagrama de Linha para o nmero de anos de cheias do


Rio Magra em Calamazza, Itlia, (adaptado de Kottegoda e Rosso, 1997)

2.1.2 Diagrama Uniaxial de Pontos


O diagrama uniaxial de pontos uma representao grfica apropriada para
amostras pequenas, de tamanho arbitrado como menor ou igual a 25 ou 30

20

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

observaes, de variveis contnuas. Os dados so inicialmente classificados em


ordem crescente e, em seguida, grafados como pontos em um nico eixo horizontal.
A Tabela 2.1 apresenta as vazes mdias anuais do Rio Paraopeba em Ponte
Nova do Paraopeba, inicialmente na ordem cronolgica de suas ocorrncias entre
os anos civis de 1938 a 1963, e, em seguida, classificadas em ordem crescente.
Esses dados hidrolgicos foram empregados para construir o diagrama uniaxial
de pontos, ilustrado na Figura 2.2, no qual possvel visualizar a distribuio
ligeiramente assimtrica dos elementos da amostra em torno do valor central,
prximo a 86 m3/s, assim como a ocorrncia de anos relativamente mais chuvosos
como o de 1943.

Tabela 2.1 Vazes Mdias Anuais do Rio Paraopeba


em Ponte Nova do Paraopeba (m3/s)
Ano Civil

Vazes mdias anuais

Vazes classificadas

1938

104,3

43,6

1939

97,9

49,4

1940

89,2

50,1

1941

92,7

57

1942

98

59,9

Nmero de ordem

1943

141,7

60,6

1944

81,1

68,2

1945

97,3

68,7

1946

72

72

1947

93,9

80,2

10

1948

83,8

81,1

11

1949

122,8

83,2

12

1950

87,6

83,8

13

1951

101

87,6

14

1952

97,8

89,2

15

1953

59,9

92,7

16

1954

49,4

93,9

17

1955

57

97,3

18

1956

68,2

97,8

19

1957

83,2

97,9

20

1958

60,6

98

21

1959

50,1

101

22

1960

68,7

104,3

23

1961

117,1

117,1

24

1962

80,2

122,8

25

1963

43,6

141,7

26

HIDROLOGIA ESTATSTICA

21

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Figura 2.2 Exemplo de Diagrama Uniaxial de Pontos para as vazes mdias


anuais do Rio Paraopeba em Ponte Nova do Paraopeba Perodo 1938-1963

2.1.3 Histograma
O tamanho da amostra dado pelo nmero de elementos (ou itens ou
observaes) que a compem e pode ser arbitrariamente considerado como
pequeno, mdio ou grande, a depender das caractersticas da varivel em foco e,
principalmente, se a srie hidrolgica disponvel do tipo completa ou do tipo
reduzida. A srie, apresentada na Tabela 2.2, de 62 anos de vazes mdias anuais
do Rio Paraopeba em Ponte Nova do Paraopeba, para o perodo 1938 a 1999,
pode ser considerada de tamanho mdio. Entretanto, uma amostra de 62 itens
seria de tamanho pequeno se ela se referisse a vazes mdias dirias. As sries
hidrolgicas reduzidas podem ser arbitrariamente categorizadas em amostras de
tamanho pequeno se o nmero de elementos (N) for menor ou igual a 25, e de
tamanho grande, se N  70. Para as amostras mdias e grandes, conveniente
classific-las ou agrup-las em subconjuntos, de modo a se ter uma melhor
compreenso do padro de variabilidade da varivel em questo. Esse expediente
d origem a diversos tipos de grficos, entre os quais destaca-se o histograma.

Para se construir um histograma, necessrio, primeiramente, agrupar as


observaes em classes, definidas por intervalos de largura fixa ou varivel, e,
em seguida, contar o nmero de ocorrncias, ou seja, a freqncia absoluta em
cada classe. O nmero de classes a ser considerado, representado por NC,
depende do tamanho da amostra; de fato, um valor excessivamente pequeno
para NC no ir permitir a visualizao de caractersticas importantes da amostra,
enquanto um valor excessivamente grande ir produzir flutuaes exageradas das
freqncias das classes. Kottegoda e Rosso (1977) sugerem que NC pode ser

22

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Tabela 2.2 Vazes Mdias Anuais do Rio Paraopeba


em Ponte Nova do Paraopeba (m3/s)
Ano Civil

Vazes mdias anuais

Ano Civil

1938

104,3

1969

62,6

1939

97,9

1970

61,2

1940

89,2

1971

46,8

1941

92,7

1972

79

1942

98

1973

96,3

1943

141,7

1974

77,6

1944

81,1

1975

69,3

1945

97,3

1976

67,2

1946

72

1977

72,4

1947

93,9

1978

78

1948

83,8

1979

141,8

1949

122,8

1980

100,7

1950

87,6

1981

87,4

1951

101

1982

100,2

1952

97,8

1983

166,9

1953

59,9

1984

74,8

1954

49,4

1985

133,4

1955

57

1986

85,1

1956

68,2

1987

78,9

1957

83,2

1988

76,4

1958

60,6

1989

64,2

1959

50,1

1990

53,1

1960

68,7

1991

112,2

1961

117,1

1992

110,8

1962

80,2

1993

82,2

1963

43,6

1994

88,1

1964

66,8

1995

80,9

1965

118,4

1996

89,8

1966

110,4

1997

114,9

1967

99,1

1998

63,6

1968

71,6

1999

57,3

Vazes mdias anuais

aproximado pelo inteiro mais prximo de N , com um mnimo de 5 e um mximo


de 25, argumentando, assim, que no so informativos os histogramas de amostras
de tamanho inferior a 25. Uma indicao alternativa a regra de Sturges (1926)
que sugere a seguinte aproximao para o nmero de classes:

NC  1 3,3 log10 N

(2.1)

HIDROLOGIA ESTATSTICA

23

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Para ilustrar a elaborao da tabela de freqncias, essencial para a construo


do histograma, tomemos a amostra de vazes mdias anuais da Tabela 2.2, cujo
tamanho N = 62. De acordo com as recomendaes mencionadas, o nmero
de classes deve estar compreendido entre 7 e 8; tomemos NC = 7, lembrando
que o limite inferior da primeira classe deve ser menor ou igual ao mnimo amostral
(43,6 m3/s), enquanto o limite superior da stima classe deve ser maior ou igual ao
mximo amostral (166,9 m3/s). Uma vez que a amplitude A entre os valores
mximo e mnimo da amostra de 123,3 e que NC = 7, pode-se arbitrar a
largura de intervalo de classe como fixa e igual a LIC = 20 m3/s, em decorrncia
de ser um inteiro prximo a 17,61, resultado do quociente entre a amplitude e o
nmero de classes. A Tabela 2.3 apresenta um resumo do clculo (a) das
freqncias absolutas, obtidas pelo nmero de ocorrncias em cada classe, (b)
das freqncias relativas, resultantes da diviso das freqncias absolutas por
N = 62 e (c) das freqncias relativas acumuladas.

Tabela 2.3 Tabela de freqncias das vazes mdias anuais do Rio Paraopeba
em Ponte Nova do Paraopeba Perodo 1938 a 1999
Classe j

Intervalo de
Classe (m3/s)

Freqncia Absoluta fj Freqncia Relativa frj

Freqncia Acumulada

F  fr j
j

(30,50]

0,0484

0,0484

(50,70]

15

0,2419

0,2903

(70,90]

21

0,3387

0,6290

(90,110]

12

0,1935

0,8226

(110,130]

0,1129

0,9355

(130,150]

0,0484

0,9839

(150,170]

0,0161

Total

62

Com base nos elementos da Tabela 2.3, pode-se construir o histograma, da Figura
2.3, o qual um simples grfico de barras tendo, em abscissas, os intervalos de
classes e, em ordenadas, as freqncias absolutas e/ou relativas. A observao
do histograma da Figura 2.3 mostra algumas caractersticas salientes da amostra,
tais como: (a) a maior concentrao de pontos no terceiro intervalo de classe, o
qual provavelmente contem o valor central em torno do qual os pontos restantes
se dispersam; (b) uma certa assimetria da distribuio de freqncias, demonstrada
pela maior amplitude direita do bloco de maior freqncia, quando comparada
com a amplitude esquerda e (c) a ocorrncia isolada de observaes muito
superiores ao valor central. importante ressaltar, entretanto, que a forma do
histograma muito sensvel ao nmero, largura e aos limites dos intervalos de
classe. De volta ao exemplo, note que os dois ltimos intervalos de classe contm
respectivamente 3 e 1 pontos amostrais, os quais certamente podem ser
24

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

concentrados em uma nica classe de largura 40 m3/s, com limite inferior igual a
130 m3/s e superior igual a 170 m3/s.

Figura 2.3 Histograma das vazes mdias anuais do Rio Paraopeba em Ponte
Nova do Paraopeba Perodo 1938 a 1999

2.1.4 Polgono de Freqncias


O polgono de freqncias outra representao grfica da tabela de freqncias,
sendo muito til para diagnosticar o padro de distribuio de uma varivel. Esse
polgono aquele formado pela juno dos pontos mdios dos topos dos retngulos
do histograma, depois de estend-lo por uma classe adicional de cada um de seus
lados. O polgono de freqncias correspondente ao histograma da Figura 2.3
encontra-se ilustrado na Figura 2.4. Observe que, como o polgono de freqncias
deve ter ordenadas inicial e final nulas e, por conveno, rea igual do histograma,
ele deve comear meio intervalo de classe esquerda e finalizar meio intervalo
direita. Em conseqncia, o polgono de freqncias da Figura 2.4 inicia com a
abscissa 20 m3/s e termina com 180 m3/s, ambos com freqncias relativas iguais
a zero. O valor que corresponde maior ordenada do polgono recebe a
denominao de moda; no caso da Figura 2.4, a moda, ou o valor mais freqente,
de 80 m3/s.

HIDROLOGIA ESTATSTICA

25

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Figura 2.4 Polgono de Freqncias Relativas das vazes mdias anuais do Rio
Paraopeba em Ponte Nova do Paraopeba Perodo 1938 a 1999

mais usual construir-se o polgono de freqncias relativas, ao invs de se


empregar as freqncias absolutas; neste caso, as ordenadas de cada classe so
as respectivas freqncias de ocorrncia, limitadas entre os valores extremos de
0 e 1. medida que o nmero de observaes cresce e, em conseqncia, a
largura dos intervalos de classe decresce, o polgono de freqncias relativas
torna-se uma curva de freqncia. No caso limite de uma amostra de tamanho
infinito, esta curva tornar-se-ia a funo densidade de probabilidade da
populao, cuja definio formal ser um dos objetos do captulo 3.

2.1.5 Diagrama de Freqncias Relativas Acumuladas


O diagrama de frequncias relativas acumuladas resulta da unio, por linhas
contnuas, dos pares formados pelos limites superiores dos intervalos de classe e
pelas ordenadas consecutivamente acumuladas do histograma, desde a menor
at a maior. No eixo das ordenadas, o diagrama fornece a freqncia de no
superao do valor correspondente da varivel, lido no eixo das abscissas. De
modo alternativo, o diagrama de freqncias relativas acumuladas pode tambm
ser elaborado sem a prvia construo do histograma ou da tabela de freqncias.
Para isso, basta (a) classificar os dados em ordem crescente; (b) associar aos
dados classificados os seus respectivos nmeros de ordem da classificao m,
com 1  m  N; e (c) associar aos dados classificados as correspondentes
26

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

freqncias ou probabilidades empricas de no superao, calculadas pelo


quociente m/N. Esse modo alternativo foi aqui usado para construir o diagrama
de freqncias relativas acumuladas das vazes mdias anuais do Rio Paraopeba
em Ponte Nova do Paraopeba, ilustrado na Figura 2.5.
O diagrama de freqncias acumuladas permite a identificao imediata da
mediana Q2, qual seja do valor correspondente freqncia de no superao
de 0,5, assim como do primeiro quartil Q1 e do terceiro quartil Q3, que
correspondem respectivamente s freqncias de 0,25 e 0,75; no diagrama da
Figura 2.5, Q2= 82,7, Q1= 68,2 e Q3= 99,1 m3/s. A amplitude inter-quartis,
representada por AIQ, dada pela diferena entre Q3 e Q1 e tem sido usada
como parte de um critrio para a identificao de pontos atpicos (ou outliers)
eventualmente presentes na amostra. Segundo tal critrio, considerado um ponto
atpico superior todo elemento da amostra superior a (Q3+1,5AIQ) e,
analogamente, um ponto atpico inferior todo e qualquer elemento menor do
que (Q1-1,5AIQ). Como o prprio nome indica, um ponto atpico afasta-se de
modo singular e dramtico da tendncia geral de variao dos outros elementos
da amostra, podendo ser resultado de observaes com erros grosseiros ou
simplesmente a manifestao de eventos muito raros. Comprovado o primeiro
caso, a sua remoo da amostra estaria plenamente justificada; no segundo caso,
entretanto, sua remoo seria uma deciso incorreta ou, pelo menos, controvertida.
De volta ao exemplo da Figura 2.5, e segundo o critrio exposto, a vazo mdia
anual de 166,9 m3/s, correspondente ao ano civil de 1983, considerada um
ponto amostral atpico.

Figura 2.5 Diagrama de Freqncias Relativas Acumuladas das vazes mdias anuais
do Rio Paraopeba em Ponte Nova do Paraopeba Perodo 1938 a 1999
HIDROLOGIA ESTATSTICA

27

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Do modo anlogo aos quartis, pode-se fazer referncia aos decis, para freqncias
acumuladas mltiplas de 0,1, aos percentis para freqncias mltiplas de 0,01 e,
mais genericamente, aos quantis. Convm ressaltar que se houver a inverso dos
eixos horizontal e vertical de um diagrama de freqncias acumuladas, resulta o
assim denominado grfico de quantis. Novamente, medida que o nmero de
observaes cresce, o diagrama de freqncias relativas acumuladas vai se tornando
uma curva de distribuio de freqncias. No caso limite de uma amostra de
tamanho infinito, esta curva tornar-se-ia a funo de distribuio de
probabilidades acumuladas da populao.

2.1.6 Curva de Permanncia


A chamada curva de permanncia uma variao do diagrama de freqncias
relativas acumuladas, na qual a freqncia de no superao substituda pela
porcentagem de um intervalo de tempo especfico em que o valor da varivel,
indicado em abscissas, foi igualado ou superado. Em hidrologia, a curva de
permanncia muito usada para ilustrar o padro de variao de vazes, assim
como o para indicadores de qualidade da gua, tais como turbidez de um trecho
fluvial, dureza da gua e concentraes de sedimento em suspenso, entre outros.
Em particular, freqente o emprego da curva de permanncia de vazes para o
planejamento e projeto de sistemas de recursos hdricos e, tambm, como
instrumento de outorga de direito de uso da gua em alguns estados brasileiros.
Por exemplo, a Superintendncia de Recursos Hdricos do Estado da Bahia pode
outorgar, para um novo usurio dos recursos hdricos de domnio daquele estado,
at 80% da vazo denotada por Q90, ou seja, a vazo local que igualada ou
superada em 90% do tempo.
Genericamente, a curva de permanncia de vazes de uma dada seo fluvial,
para a qual se dispe de N dias de registros fluviomtricos, pode ser construda
do seguinte modo: (a) ordene as vazes Q em ordem decrescente; (b) atribua a
cada vazo ordenada Qm a sua respectiva ordem de classificao m; (c) associe
a cada vazo ordenada Qm a sua respectiva freqncia ou probabilidade emprica
de ser igualada ou superada P(Q  Qm), a qual pode ser estimada pela razo
(m/N) e (d) lance em um grfico as vazes ordenadas e suas respectivas
porcentagens 100(m/N) de serem igualadas ou superadas no intervalo de tempo
considerado. Para exemplificar a construo da curva de permanncia, tomemos
as vazes mdias dirias observadas no Rio Paraopeba em Ponte Nova do

28

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Paraopeba, durante o ano hidrolgico de Outubro de 1962 a Setembro de 1963;


o fluviograma anual correspondente est ilustrado na Figura 2.6. Efetuando as
etapas necessrias e com N = 365 dias, a curva de permanncia correspondente
aquela ilustrada na Figura 2.7.

Figura 2.6 Fluviograma do Rio Paraopeba em Ponte Nova do Paraopeba


1962/1963

Figura 2.7 Curva de Permanncia das Vazes do Rio Paraopeba em Ponte Nova
do Paraopeba

A curva de permanncia da Figura 2.7 revela, por exemplo, que a vazo Q90, ou
seja a vazo que excedida em 328,5 dias do ano, de 23,4 m3/s. Alm de seu
HIDROLOGIA ESTATSTICA

29

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

uso para clculo da vazo referencial de outorga, a curva de permanncia possui


outras utilizaes de interesse prtico. Uma delas a estimativa preliminar do
volume sazonal de um possvel reservatrio destinado a manter, por exemplo, um
calado mnimo para navegao, ou uma certa vazo mnima Qr superior mnima
anual, a jusante da seo fluvial em questo. No exemplo da Figura 2.7, supondo
que Q r= 50 m3/s, tal como indicado pela linha horizontal, o volume a ser acumulado
durante o perodo chuvoso poderia ser estimado pela diferena entre a rea
compreendida entre a linha horizontal e o eixo das abscissas, e a rea abaixo da
curva de permanncia, ambas calculadas a partir do ponto da interseo das
linhas correspondentes. Evidentemente, o volume afluente durante o perodo
chuvoso, o qual pode ser obtido pela rea da curva de permanncia acima da
linha horizontal, deve ser suficiente para suprir o dficit dos meses de estiagem.

2.2 Sumrio Numrico e Estatsticas Descritivas


As caractersticas essenciais de forma do histograma ou do polgono de freqncias
relativas podem ser sumariadas por meio de estatsticas descritivas de uma
amostra de dados hidrolgicos, as quais so medidas-resumo que sintetizam, de
modo simples e econmico, o padro de distribuio da varivel em questo.
Alm disso, as estatsticas descritivas apresentam uma importante vantagem, em
relao apresentao grfica de dados, que a representada pelo seu uso na
estatstica inferencial, ou seja, o de extrair da amostra as informaes necessrias
para inferir o comportamento populacional. As estatsticas descritivas podem ser
agrupadas em 3 tipos distintos: (a) medidas de tendncia central; (b) medidas
de disperso e (c) medidas de assimetria e de curtose.

2.2.1 Medidas de Tendncia Central


Os dados hidrolgicos, em geral, se aglomeram em torno de um valor central,
tal como no diagrama uniaxial da Figura 2.2. O valor central representativo de
uma amostra pode ser calculado por uma das medidas de tendncia central ou
de posio, entre as quais, as mais conhecidas so a mdia, a moda e a mediana.
A escolha entre tais medidas depende do uso pretendido do valor central.

30

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Mdia
Se uma amostra de tamanho N constituda pelos elementos {x1 , x 2 , ... , x N } , a
mdia aritmtica, ou simplesmente mdia, de X dada por
x

x1  x 2  ...  x N
1

N
N

(2.2)
i

i 1

Se, das N observaes da varivel X, N1 forem iguais a x1, N2 forem iguais a x2 e


assim por diante at o k-simo valor amostral, ento a mdia de X pode ser
obtida por

x

N 1 x1  N 2 x 2  ...  N k x k
1

N
N

N x
i

(2.3)

i 1

Analogamente, se fi denotar a freqncia relativa da observao xi, a equao


2.3 pode ser re-escrita como
k

x  f i xi

(2.4)

i 1

A mdia a medida de posio mais freqentemente usada e tem um significado


terico importante como estimativa da mdia populacional . Conforme
mencionado no item 2.1.4, no caso limite de uma amostra de tamanho infinito de
uma varivel contnua X e, conseqentemente, do polgono de freqncias tornarse a funo densidade de probabilidade, a mdia ir corresponder coordenada,
no eixo das abscissas, do centride da rea abaixo da curva de freqncias.
Alternativamente media aritmtica, porm dentro da mesma idia por ela sugerida,
existem duas outras medidas de tendncia central que so teis em alguns casos
especiais. So elas: a media harmnica, representada por x h , e a mdia
geomtrica x g . A mdia harmnica o recproco da mdia aritmtica dos
recprocos dos elementos da amostra. Formalmente, definida por
xh 

1 N  1 x1   1 x2   ...  1 x N 

(2.5)

Tipicamente, a mdia harmnica apresenta uma noo mais apropriada de mdia


em situaes que envolvem propores de variao. Por exemplo, se a primeira
HIDROLOGIA ESTATSTICA

31

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

metade de um trecho fluvial percorrida por um flutuador, a uma velocidade de


0,4 m/s, e a outra metade a 0,60 m/s, a mdia aritmtica seria x  0,50 m/s e a
mdia harmnica seria x h = 0,48 m/s, a qual de fato a velocidade mdia do
flutuador ao longo de todo o trecho fluvial. Por outro lado, a mdia geomtrica
mais apropriada para estimar o valor central de variveis que possuem um
desenvolvimento geomtrico, ou seja, aquelas cujos valores sucessivos guardam
entre si um fator de crescimento ou decrescimento, tais como aumento populacional
ou de carga orgnica das afluncias a uma estao de tratamento de esgotos. A
mdia geomtrica, a qual consistentemente menor ou igual mdia aritmtica ,
dada pela raiz N-sima do produto dos N valores amostrais, ou seja,

xg 

N
1
x1 .x 2 . ... .x N    xi  1 N  exp
N
i 1

ln x
i

(2.6)

i 1

sendo equivalente ao antilogaritmo da mdia aritmtica dos logaritmos dos


elementos xi.
Mediana
A mdia aritmtica de uma amostra, por levar em conta todos os seus elementos,
apresenta a desvantagem de ter seu valor afetado pela eventual presena de pontos
atpicos. Uma outra medida de posio mais resistente do que a mdia aritmtica,
por ser imune eventual presena de valores extremos discordantes na amostra,
a mediana xmd. Essa definida como o valor da varivel X que separa a freqncia
total em duas metades iguais, sendo, portanto, equivalente ao segundo quartil Q2.
Se as observaes amostrais so ordenadas de modo que
 x1  x2   ...  x N  , a mediana pode ser calculada por
x N  x N
xmd  x N 1 se N for mpar ou xmd 

1
2

se N for par

(2.7)

Moda
A moda xmo o valor amostral que ocorre com maior freqncia, sendo geralmente
obtido a partir do polgono de freqncias relativas, tal como o da Figura 2.3. No
caso limite de uma amostra de tamanho infinito de uma varivel contnua X e,
conseqentemente, do polgono de freqncias tornar-se a funo densidade de
probabilidade, a moda ir corresponder coordenada, no eixo das abscissas, do

32

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

ponto de derivada nula da curva de freqncias, ressalvando que pode haver


mais de um desses pontos em funes no unimodais. Em polgonos de freqncias
ou histogramas assimtricos, quais sejam aqueles que apresentam amplitudes
diferentes direita e esquerda da moda, as medidas de tendncia central
apresentam caractersticas peculiares. Quando a amplitude direita da moda
muito maior do que esquerda, trata-se de um histograma com assimetria positiva,
caso em que xmo < xmd < x . Quando a amplitude esquerda da moda muito
maior, a assimetria dita negativa e x < xmd < xmo. Quando ambas amplitudes
aproximadamente se equivalem, o histograma simtrico e as trs medidas de
tendncia central tm valores prximos entre si.

2.2.2 Medidas de Disperso

A  x  N   x 1 

O grau de variabilidade dos pontos, em torno do valor central de uma amostra,


dado pelas medidas de disperso. Entre essas, a mais simples e mais intuitiva a
amplitude, dada por A = x(N) _ x(1) , onde x  N  e x 1 so, respectivamente,
o N-simo e o primeiro dos elementos classificados em ordem crescente. A
diferena entre o mximo e o mnimo da amostra, tal como expressa pela amplitude,
depende exclusivamente de tais pontos. Esses, por sua vez, podem ser muito
discordantes dos outros elementos da amostra e tornar a amplitude uma medida
no representativa da disperso ali contida. Uma outra medida mais imune eventual
presena de tais pontos e, portanto, mais resistente, a amplitude inter-quartis
AIQ, dada pela diferena entre o terceiro e o primeiro quartis, respectivamente
Q3 e Q1.
As medidas de disperso j mencionadas, embora fceis de calcular, so pouco
representativas porque ignoram os elementos restantes da amostra. Essa
inconvenincia pode ser superada pelo emprego de outras medidas de disperso
que tm como base o desvio mdio de todos os pontos amostrais em relao a
um valor central representativo. As principais so: o desvio mdio absoluto e o
desvio padro.
Desvio Mdio Absoluto
O desvio mdio absoluto, aqui denotado por d, representa a mdia aritmtica
dos valores absolutos dos desvios amostrais, em relao mdia. Para uma amostra
 x1 , x2 , ..., x N , d definido por

HIDROLOGIA ESTATSTICA

33

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

d=

x1 x + x 2 x + ... x N x
N

1
N

x
i =1

(2.8)

Embora seja uma medida intuitiva, o desvio mdio absoluto pondera de modo
linearmente proporcional tanto os pequenos como os grandes desvios em relao
mdia. Alm disso, o emprego do operador valor absoluto, na equao 2.8,
torna o clculo de d ligeiramente trabalhoso, do ponto de vista computacional.
Desvio Padro
Uma prtica alternativa ao uso do valor absoluto nas medidas de disperso,
elevar ao quadrado os desvios em relao mdia. Para uma amostra , define-se
a varincia amostral como o desvio quadrtico mdio, dado pela seguinte
equao:
2

s 

x

 x  2  x 2  x  2  ...  x N  x  2
N

1
N

x

 x 2

(2.9)

i 1

Analogamente mdia , a varincia populacional, denotada por 2, pode ser


estimada sem vis por meio da seguinte correo da equao 2.9:
2

s 

x

N  1 i1

 x 2

(2.10)

O termo vis aqui usado livremente para indicar que, em mdia, no existe
diferena entre 2 e sua estimativa pela equao 2.10, diferentemente do resultado
da equao 2.9. Diz-se, nesse caso, que houve a reduo de 1 grau de liberdade
[de N para (N-1)] pelo fato da mdia populacional haver sido estimada pela
mdia amostral x, previamente estimativa de 2 por meio da equao 2.10. Os
termos vis e graus de liberdade sero formalmente definidos no captulo 6.
A varincia expressa em termos do quadrado das dimenses da varivel original.
Para conservar as unidades da varivel, define-se o desvio padro s como a raiz
quadrada do desvio quadrtico mdio, ou seja, a raiz quadrada da varincia s2,
tal como calculada pela equao 2.10. Formalmente, o desvio padro definido
pela seguinte expresso:

34

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

s

x

 x  2  x 2  x  2  ...  x N  x  2
N 1

x


N 1

 x 2

(2.11)

i 1

Diferentemente do desvio mdio absoluto, o desvio padro fortemente


influenciado pelos menores e maiores desvios, constituindo-se na medida de
disperso mais freqentemente usada. A expanso do segundo membro da equao
2.11 facilita o clculo do desvio padro por meio da seguinte expresso equivalente:
N
N
N 2

1
N
2

s
xi  2 x x i  N x 
xi2 
x 2 (2.12)

 N  1 i1
 N  1 i1
 N  1
i 1

Quando se pretende comparar a variabilidade ou a disperso de amostras de


duas ou mais variveis diferentes, comum o emprego do chamado coeficiente
de variao CV, resultado do quociente entre o desvio padro s e a mdia x . O
coeficiente de variao um nmero adimensional positivo, devendo ser aplicado
somente nos casos em que as mdias so diferentes de zero e as observaes so
sempre positivas; caso sejam sempre negativas, o respectivo CV deve ser calculado
com base no valor absoluto da mdia.

2.2.3 Medidas de Assimetria e Curtose


Outras caracterizaes importantes da forma de um histograma ou do polgono
de freqncias so dadas pelas medidas de assimetria e curtose, ambas baseadas
em valores acumulados de potncias superiores a 2 dos desvios dos pontos
amostrais em relao mdia. A principal medida de assimetria denominada
coeficiente de assimetria, enquanto a de curtose dada pelo coeficiente de
curtose.
Coeficiente de Assimetria
Para uma amostra {x1, x2,... xN} , define-se o coeficiente de assimetria pelo
nmero adimensional dado por

HIDROLOGIA ESTATSTICA

35

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

g

 x

x

i 1

 N  1 N  2

s3

(2.13)

Na equao 2.13, exceo do primeiro quociente do segundo membro, o qual


contm as correes para fazer do coeficiente de assimetria amostral uma estimativa
mais acurada da correspondente medida populacional
, o coeficiente g reflete e
acentua a contribuio acumulada dos desvios positivos e negativos, em relao
mdia amostral. De fato, desvios positivos muito grandes, ou negativos muito
grandes, quando elevados terceira potncia, sero grandemente acentuados; a
predominncia, ou a equivalncia, desses desvios, quando somados, ir determinar
se o coeficiente de assimetria ser positivo, negativo ou nulo. Se o coeficiente g
positivo, diz-se que o histograma (ou o polgono de freqncias) possui assimetria
positiva, tal como ilustrado pelas Figuras 2.3 e 2.4. Nesse caso, observa-se que
a moda amostral inferior mediana, a qual, por sua vez, inferior mdia; o
contrrio seria observado caso o coeficiente g determinasse um histograma com
assimetria negativa. Caso os desvios positivos e negativos se equivalessem, o
coeficiente g teria valor nulo (ou prximo de zero) e as 3 medidas de tendncia
central tenderiam a se concentrar em um nico valor de X. O coeficiente de
assimetria um nmero limitado; de fato, a despeito de quo positivos ou negativos
sejam os desvios em relao mdia, vlida a inequao g  N  2 .
As sries hidrolgicas referentes a eventos mximos, em geral, possuem
coeficientes de assimetria positivos. Essa constatao particularmente verdadeira
para as sries de vazes mximas anuais. De fato, para tais sries, h uma grande
concentrao de valores no muito inferiores, ou no muito superiores, cheia
mdia anual, que, em geral, correspondem aos nveis dgua contidos pelo leito
menor da seo fluvial. Entretanto, a rara combinao de condies
hidrometeorolgicas excepcionais e de elevado teor de umidade do solo pode
determinar a ocorrncia de uma grande enchente, com vazo mxima muitas vezes
superior ao valor modal. Bastam apenas algumas ocorrncias de tais grandes
enchentes para determinar a forma assimtrica do polgono de freqncias das
vazes mximas anuais e, conseqentemente, valores positivos para o coeficiente
g. Do exposto, certo concluir que a prescrio de modelos matemticos
positivamente assimtricos para as funes densidade de probabilidade da
populao explica-se pelo mecanismo de formao das enchentes de um rio.
Vale ressalvar, entretanto, que o coeficiente g, por no ser uma medida resistente
e, conseqentemente, ser muito sensvel presena de extremos em amostras de
tamanho reduzido, no deve constituir um balizador nico ou inequvoco para a
prescrio de modelos distributivos positivamente assimtricos.
36

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Coeficiente de Curtose
Uma medida de quo pontiagudo ou achatado o histograma (ou o polgono de
freqncias) em torno da mdia amostral, pode ser calculada pelo coeficiente de
curtose. Esse nmero adimensional formalmente definido por
N

k

 N  1 N  2 N  3

x

 x

i 1

s4

(2.14)

Por tratar-se de um coeficiente cuja base de clculo a soma das quartas potncias
dos desvios em relao mdia, a amostra deve ser de tamanho suficientemente
grande, digamos N  200 , para produzir estimativas confiveis do grau de
achatamento da correspondente funo de distribuio de freqncias. O
coeficiente de curtose possui maior relevncia para distribuies aproximadamente
simtricas e tambm um indicador do chamado peso relativo das caudas de
tais distribuies. Com efeito, como o valor do coeficiente k indica quo
aglomerados esto os pontos amostrais em torno da mdia, tem-se tambm a
noo da distribuio dos valores muito distantes daquele valor central e, por
conseguinte, das freqncias que se concentram nas caudas inferior e superior.
s vezes, subtrai-se o valor 3 da equao 2.14 para estabelecer o coeficiente de
excesso de curtose ke, em relao a uma distribuio padro perfeitamente
simtrica cujo valor de k igual a 3. Nesse caso, se ke= 0, a distribuio dita
mesocrtica; se ke< 0, leptocrtica; e se ke> 0, platicrtica. A Figura 2.8
ilustra esquematicamente as situaes mencionadas.

Figura 2.8 Categorizao das distribuies de freqncias com respeito curtose


HIDROLOGIA ESTATSTICA

37

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Em se tratando de sries hidrolgicas, com amostras tpicas de tamanho muito


limitado, as estatsticas descritivas mais freqentemente usadas, e consideradas
representativas da forma do polgono de freqncias, so a mdia, o desvio padro
e o coeficiente de assimetria. De fato, essas estatsticas oferecem um sumrio
numrico conciso da informao contida em uma amostra. A ttulo de exemplo,
apresenta-se na Tabela 2.4 o clculo das principais estatsticas descritivas das
vazes mdias anuais do Rio Paraopeba em Ponte Nova do Paraopeba, listadas
na Tabela 2.2. Os resultados da Tabela 2.4 mostram que a moda inferior
mediana, a qual, por sua vez, menor do que a mdia, indicando, assim, uma
assimetria positiva. Tal fato comprovado pelo exame da Figura 2.3 e pelo
coeficiente de assimetria amostral positivo de 0,808. Embora a amostra contenha
apenas 62 observaes, o coeficiente de excesso de curtose sugere uma
distribuio platicrtica, ou seja, relativamente menos pontiaguda em torno do
valor central.

Tabela 2.4 Estatsticas descritivas das vazes mdias anuais do Rio Paraopeba
em Ponte Nova do Paraopeba Perodo 1938-1999
Estatstica Amostral
x
Mdia

Notao

Unidades
m3/s

Valor
86,105

Moda

xmo

80

m3/s

Polgono Freqncias

Mediana

xmd

82,7

m3/s

Equao 2.7

Mdia Harmnica

xh

79,482

m /s

Equao 2.5

82,726

m3/s

Equao 2.6

Mdia Geomtrica

Clculo
Equao 2.2

Amplitude

123,3

m /s

(Mximo-Mnimo)

Primeiro Quartil

Q1

68,2

m3/s

Eq. 2.7 (1 a metade da srie)

Terceiro Quartil

Q3

99,1

m /s

Eq. 2.7 (2 a metade da srie)

Ampl. Inter-Quartis

AIQ

30,9

m3/s

(Q 3-Q1)

Desvio Abs. Mdio

19,380

m /s

Equao 2.8

Varincia

s2

623,008

(m3/s)2

Equao 2.10

Desvio Padro

24,960

m /s

Coef. de Variao

CV

0,290

Adimensional

Coef. de Assimetria

0,808

Adimensional

Equao 2.13

Coef. de Curtose

3,857

Adimensional

Equao 2.14

Excesso de Curtose

ke

0,857

Adimensional

(k-3)

Equao 2.11
s x

2.3 Mtodos Exploratrios


Tukey (1977) cunhou a denominao anlise exploratria de dados, traduo
livre da terminologia de lngua inglesa EDA - exploratory data analysis, para
identificar uma coleo de tcnicas quantitativas e grficas de exame e interpretao
38

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

de um conjunto de observaes de uma varivel aleatria, sem a preocupao


prvia de formular premissas ou modelos matemticos. A abordagem EDA baseiase na idia de que os dados revelam, por si mesmos, sua estrutura subjacente.
Entre as tcnicas grficas propostas pela abordagem EDA, destaca-se o diagrama
box plot, conhecido tambm pela denominao desenho esquemtico, e o grfico
ramo-e-folha, traduo livre de stem-and-leaf.

2.3.1 O diagrama Box Plot


O diagrama box plot consiste em um retngulo definido pelo primeiro e pelo
terceiro quartis, contendo a mediana em seu interior, tal como ilustrado na Figura
2.9, relativa s vazes mdias anuais do Rio Paraopeba em Ponte Nova do
Paraopeba. A partir do lado superior do retngulo, traa-se uma linha at o ponto
que no exceda (Q3+1,5AIQ), considerado limite superior para a identificao de
ouliers. De modo anlogo, traa-se outra linha a partir do lado inferior do retngulo
at o limite dado por (Q1-1,5AIQ). As observaes que estiverem acima ou abaixo
desses limites so identificadas no diagrama e consideradas outliers ou valores
atpicos. Para a construo dos diagramas do tipo box plot, existem outras
alternativas, tais como estender as linhas verticais at os pontos de mximo e
mnimo, os quais so assinalados no grfico por barras horizontais; nesse caso, o
diagrama recebe a denominao de box & whisker.
Os diagramas do tipo box plot so muito teis por permitirem uma viso geral do
valor central, da disperso, da assimetria, das caudas e de eventuais pontos
amostrais discordantes. O valor central dado pela mediana e a disperso pela
amplitude inter-quartis. A simetria ou assimetria da distribuio pode ser visualizada
pelas posies relativas de Q1, Q2 e Q3. Pode-se ter uma idia das caudas superior
e inferior por meio dos comprimentos das linhas verticais que saem do retngulo
de quartis. Os diagramas do tipo box plot so particularmente teis para comparar
as caractersticas de duas ou mais amostras diferentes.

HIDROLOGIA ESTATSTICA

39

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Box Plot

Figura 2.9 Diagrama Box Plot para as vazes mdias anuais do Rio Paraopeba
em Ponte Nova do Paraopeba Perodo 1938-1999

2.3.2 O diagrama Ramo-e-Folha (Stem-and-Leaf )


Para amostras de tamanho mdio a grande, o histograma um procedimento
grfico eficaz para ilustrar a forma da distribuio de freqncias de uma varivel.
Para amostras menores, uma interessante alternativa ao histograma dada pelo
diagrama ramo-e-folha. De fato, esse diagrama agrupa os dados de tal modo,
que h nenhuma ou pouca perda da informao contida em cada elemento amostral,
realando a presena de pontos extremos. Para exemplificar a construo de um
diagrama ramo-e-folha, tomemos novamente a amostra de vazes mdias anuais
do Rio Paraopeba em Ponte Nova do Paraopeba, listadas na Tabela 2.2.
Inicialmente, as 62 observaes so classificadas em ordem crescente, entre o
valor mnimo de 43,6 m3/s e o mximo de 166,9 m3/s, com grande concentrao
em torno de 80 m3/s. Embora no exista uma regra fixa para a construo de um
diagrama ramo-e-folha, a idia central dividir cada observao classificada em
duas partes: a primeira, chamada de ramo, posta esquerda de uma linha vertical,
enquanto a segunda, denominada folha, colocada direita, tal como mostra a
Figura 2.10.

40

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Figura 2.10 Diagrama Ramo-e-Folha para as vazes mdias anuais do Rio


Paraopeba em Ponte Nova do Paraopeba Perodo 1938-1999

O ramo indica o dgito inicial, ou os dgitos iniciais, de cada observao, enquanto


a folha mostra os dgitos complementares; no exemplo da Figura 2.10, o valor
mnimo de 43,6 m3/s apresentado na quarta linha, com o ramo 4 e a folha 36,
enquanto o mximo, na penltima linha, tem ramo 16 e folha 69. Observe que,
nesse exemplo, os ramos correspondem s dezenas e centenas, enquanto as folhas
s unidades, multiplicadas por 10m3/s. Um ramo com muitas folhas significa um
nmero maior de ocorrncias daquele ramo, tal como os dois ramos identificados
pelo dgito inicial 8, na Figura 2.10. As freqncias das folhas so acumuladas da
primeira linha at aquela que contm a mediana, de cima para baixo, e da ltima
at a linha da mediana, de baixo para cima, e anotadas esquerda da linha vertical,
tal como ilustrado na Figura 2.10. Observe que a freqncia da linha da mediana
HIDROLOGIA ESTATSTICA

41

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

no acumulada; note, tambm, a anotao complementar das linhas que contm


o primeiro e o terceiro quartis.
O diagrama ramo-e-folha, depois de sofrer uma rotao de 90o esquerda em
torno de seu centro, tem a aparncia de um histograma, porm sem perda da
informao individualizada por cada observao. Por meio do diagrama ramo-efolha, possvel visualizar a posio da mediana, as amplitudes total e inter-quartis,
a disperso e a simetria (ou a assimetria) com que os pontos se dispem em torno
do valor central, os intervalos sem observaes e a eventual presena de outliers.
Na Figura 2.10, por convenincia, os ramos tiveram seus dgitos duplicados para
melhor definio da concentrao das folhas. Algumas vezes, o primeiro dos dgitos
duplicados marcado por um asterisco (*), para identificar que contm as folhas
que iniciam de 0 a 4, enquanto o segundo o por um ponto (), para as folhas de
5 a 9. Em outras situaes, poderia no haver tal duplicao. Em outros casos, as
folhas tambm poderiam sofrer arredondamento para o inteiro mais prximo.

2.4 Associao entre Variveis


Nos itens precedentes, foram vistos os principais mtodos de como organizar e
resumir informaes de uma amostra de dados de uma nica varivel. freqente,
entretanto, o interesse em analisar o comportamento simultneo de duas ou mais
variveis, buscando estabelecer eventuais associaes entre elas. No presente
item, examinaremos o caso mais simples de amostras de somente duas variveis
X e Y, geralmente observadas simultaneamente, ou organizadas em pares, os quais
so denotados por {(x1,y1), (x2,y2), ... , (xN, yN)}. O que segue apenas uma
introduo ao tpico sobre regresso e correlao entre variveis aleatrias, a
ser detalhado no captulo 9 desta publicao. Nesta introduo, destacamos os
diagramas de disperso e de quantis-quantis (Q-Q) de duas variveis X e Y.

2.4.1 Diagrama de Disperso


Um diagrama de disperso consiste em um grfico onde so lanados em
coordenadas cartesianas os pares {(x1,y1), (x2,y2), ... , (xN, yN)}de observaes
simultneas das variveis X e Y. Para ilustrar a construo e as possibilidades de

42

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

um diagrama de disperso, considere as variveis X = altura anual de precipitao,


em mm, e Y = vazo mdia anual, em m3/s, cujas observaes simultneas na
localidade de Ponte Nova do Paraopeba, tendo como base de clculo o ano
hidrolgico regional de outubro a setembro, encontram-se listadas na Tabela 2.5.
As Figuras 2.11 e 2.12 ilustram duas possibilidades interessantes de grficos de
disperso: a primeira, acompanhada dos histogramas, e a segunda, com os
diagramas do tipo box-plot grafados nos eixos correspondentes a cada uma das
variveis.

Tabela 2.5 Vazes medias anuais e alturas anuais de precipitao (ano


hidrolgico Outubro-Setembro) Estao Ponte Nova do Paraopeba
(Flu:40800001, Plu:01944004)
Ano Hidrolgico

Precipitao (mm) Vazo mdia (m3/s)

Ano Hidrolgico Precipitao (mm) Vazo mdia (m3/s)

1941/42

1249

91,9

1970/71

1013

34,5

1942/43

1319

145

1971/72

1531

80,0

1943/44

1191

90,6

1972/73

1487

97,3

1944/45

1440

89,9

1973/74

1395

86,8

1945/46

1251

79,0

1974/75

1090

67,6

1946/47

1507

90,0

1975/76

1311

54,6

1947/48

1363

72,6

1976/77

1291

88,1

1948/49

1814

135

1977/78

1273

73,6

1949/50

1322

82,7

1978/79

2027

134

1950/51

1338

112

1979/80

1697

104

1951/52

1327

95,3

1980/81

1341

80,7

1952/53

1301

59,5

1981/82

1764

109

1953/54

1138

53,0

1982/83

1786

148

1954/55

1121

52,6

1983/84

1728

92,9

1955/56

1454

62,3

1984/85

1880

134

1956/57

1648

85,6

1985/86

1429

88,2

1957/58

1294

67,8

1986/87

1412

79,4

1958/59

883

52,5

1987/88

1606

79,5

1959/60

1601

64,6

1988/89

1290

58,3

1960/61

1487

122

1989/90

1451

64,7

1961/62

1347

64,8

1990/91

1447

105

1962/63

1250

63,5

1991/92

1581

99,5

1963/64

1298

54,2

1992/93

1642

95,7

1964/65

1673

113

1993/94

1341

86,1

1965/66

1452

110

1994/95

1359

71,8

1966/67

1169

102

1995/96

1503

86,2

1967/68

1189

74,2

1996/97

1927

127

1968/69

1220

56,4

1997/98

1236

66,3

1969/70

1306

72,6

1998/99

1163

59,0

HIDROLOGIA ESTATSTICA

43

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Figura 2.11 Diagrama de Disperso com Histogramas Ponte Nova do Paraopeba

Figura 2.12 Diagrama de Disperso com Box Plots Ponte Nova do Paraopeba

44

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

O exame dos diagramas de disperso, das Figuras 2.11 e 2.12, mostra que, em
geral, a maiores alturas de precipitao anual, correspondem maiores vazes
mdias anuais, indicando uma associao positiva entre as duas variveis.
Entretanto, observa-se tambm uma considervel disperso entre os pares,
demonstrando, com clareza, que a aleatoriedade presente em Y no pode ser
explicada unicamente pela variao de X. De fato outras variveis, como, por
exemplo, a evapotranspirao, poderiam reduzir o grau de disperso. Alm disso,
a bacia do Rio Paraopeba em Ponte Nova do Paraopeba drena uma rea de
5.680 km2, com considervel variao espacial das caractersticas climticas e
geomorfolgicas, das propriedades do solo e das alturas pluviomtricas. Os
histogramas e os diagramas box plots, por sua vez, demonstram a presena de 3
outliers entre as alturas pluviomtricas anuais, assim como a maior disperso e a
maior assimetria dessa varivel, relativamente s vazes.
O grau de associao linear entre um conjunto de N pares de observaes
simultneas de duas variveis X e Y pode ser quantificado pelo coeficiente
amostral de correlao, dado pela seguinte equao:
N

rX ,Y 

s X ,Y
s X sY

1
N

 x

 x  y i  y 

i 1

(2.15)

s X sY

Esse coeficiente adimensional o resultado da padronizao da covarincia


amostral, representada na equao 2.15 por sX,Y, pelo produto sX sY entre os
desvios-padro das variveis. Trata-se de um coeficiente que satisfaz a desigualdade
 1  rX ,Y  1 e traduz o grau de associao linear entre as variveis X e Y, a
saber, nos casos extremos, 1 ou 1 para associaes perfeitas positivas e negativas,
respectivamente, e 0, para nenhuma associao.
A Figura 2.13-a mostra o caso de associao parcial positiva, quando Y cresce
com o aumento de X, enquanto as Figuras 2.13-b e 2.13-c ilustram,
respectivamente, a associao parcial negativa e nenhuma associao. A Figura
2.13-c mostra que um coeficiente de correlao nulo no implica, necessariamente,
em nenhuma relao de dependncia entre as variveis; de fato, nesse caso, a
relao de dependncia existe, mas no linear. Finalmente, preciso ressaltar
que uma eventual associao entre duas variveis, medida por um alto valor do
coeficiente de correlao, no implica em uma relao causa-efeito. Essa clara
em alguns casos, tais como a relao entre as precipitaes e vazes mdias
anuais do Rio Paraopeba. Em outros, entretanto, tal relao de dependncia fsica

HIDROLOGIA ESTATSTICA

45

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Figura 2.13 Tipos de associao entre duas variveis

no evidente, mesmo que o coeficiente de correlao entre as variveis tenha


um valor elevado.

2.4.2 Diagrama Quantis-Quantis (Q-Q)


O diagrama quantis-quantis, ou diagrama Q-Q, outra representao grfica
que permite visualizar a associao entre duas variveis X e Y. Diferentemente do
diagrama de disperso entre observaes simultneas das variveis, o grfico
Q-Q uma representao dos dados ordenados (ou quantis) do conjunto
 x1 , x2 , ..., x N  contra os dados ordenados (ou quantis) da amostra de mesmo
tamanho  y1 , y 2 , ... , y N  . Para elaborar um diagrama Q-Q, necessrio:
(a) classificar os dados de X (e Y) em ordem crescente; (b) associar aos dados
classificados os seus respectivos nmeros de ordem da classificao m, com
1  m  N; e (c) associar aos dados classificados as correspondentes freqncias
ou probabilidades empricas de no superao. Em seguida, os dados de X e Y,
com igual freqncia ou probabilidade emprica de no superao, so lanados
em coordenadas cartesianas, formando, assim, o diagrama Q-Q. A Figura 2.14
um exemplo de um diagrama Q-Q elaborado para os dados da Tabela 2.5.
De modo diverso de um diagrama de disperso, o qual estabelece uma associao
global entre as variveis, o grfico Q-Q demonstra se os valores mais baixos,
mdios e mais altos de X esto relacionados aos seus correspondentes de Y. Em
um caso limite, se as distribuies dos dois conjuntos de dados fossem idnticas,
a menos de suas medidas de posio e escala (ou disperso), os pontos estariam

46

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

Figura 2.14 Diagrama Quantis-Quantis entre Vazes Mdias Anuais e Alturas


Anuais de Precipitao de Ponte Nova do Paraopeba

sobre a reta y = x. O modo como os pontos se afastam dessa linearidade revelam


as diferenas entre as distribuies de X e Y.

Exerccios
1) Com referncia srie parcial das N maiores vazes mdia dirias, em N anos
de registros, do Rio Paraopeba em Ponte Nova do Paraopeba, objeto do exerccio
9 do Captulo 1, faa uma diagrama de linha para a varivel discreta nmero de
cheias anuais, tal como o da Figura 2.1.
2) Na Tabela 2.5, tome a srie de vazes mdias anuais do Rio Paraopeba em
Ponte Nova do Paraopeba, calculadas com base no ano hidrolgico de Outubro
a Setembro, e faa os seguintes grficos:
diagrama uniaxial de pontos;
histograma;
polgono de freqncias relativas;
diagrama de freqncias relativas acumuladas; e
diagrama de quantis.
HIDROLOGIA ESTATSTICA

47

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

3) Compare os grficos elaborados no exerccio 2 com os mostrados no item 2.1


do presente captulo. Interprete as diferenas entre eles. Em se tratando da varivel
vazo mdia anual, mais representativo trabalhar com sries reduzidas em ano
civil ou ano hidrolgico?
4) Com referncia curva de permanncia da Figura 2.7, qual seria o mximo
valor terico da vazo Qr a ser constantemente mantida a jusante de um hipottico
reservatrio de regularizao sazonal? Por que esse valor seria o mximo terico?
Calcule o volume do reservatrio para a situao descrita.
5) Volte aos dados do exerccio 2 e faa um sumrio numrico completo da
amostra em questo, calculando todas as medidas de posio, disperso, assimetria
e curtose. Interprete e compare os resultados com aqueles apresentados no item
2.2 desse captulo.
6) Se o primeiro tero de um trecho fluvial percorrido por um flutuador, a uma
velocidade de 0,3 m/s, o segundo a 0,5 m/s e o terceiro a 0,60 m/s, prove que a
mdia harmnica mais representativa da velocidade mdia do flutuador, calculada
ao longo de todo o trecho fluvial, do que a mdia aritmtica.
7) A populao de uma cidade aumenta geometricamente com o tempo. Suponha
que no censo de 1980, a populao dessa cidade era de 150.000 habitantes,
enquanto em 2000 cresceu para 205.000 habitantes. Com a finalidade de verificar
as condies de projeto do sistema local de abastecimento de gua, um engenheiro
sanitarista necessita estimar o consumo de gua per capita no perodo intermedirio
e, portanto, a populao em 1990. Calcule o valor central a ser usado. Justifique
sua resposta.
8) Uma varivel aleatria pode sofrer transformaes lineares e no lineares. Um
exemplo de transformao linear de X alter-la para a varivel central reduzida
Z, por meio de zi = (xi _ x)/sx . De fato, nesse caso, X centrada pela subtrao
da medida de posio e tem sua escala reduzida pela diviso pelo desvio padro.
Agora, volte aos dados do exerccio 2, calcule z, sz, gz e kz e compare com as
mesmas medidas de X, j calculadas no exerccio 5. Quais concluses se pode
tirar de uma varivel que sofreu uma transformao linear?
9) Um exemplo de transformao no linear dado pela logaritmizao de X, ou
seja, zi = log10 xi ou zi = ln xi. Repita o exerccio 8 para essa nova transformao
48

HIDROLOGIA ESTATSTICA

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

e tire suas concluses. Sob a tica de sua resposta ao exerccio 13 do captulo 1,


em que situaes voc espera verificar uma utilidade prtica em uma transformao
no linear de uma varivel aleatria?
10) Uma famlia de possibilidades de transformao de uma varivel aleatria
dada pela frmula de transformaes potenciais de Box-Cox, ou seja,
zi = (xi_ 1)/, se = 0 , ou z i  ln xi , se = 0. A escolha correta da potncia
de transformao pode tornar dados originais assimtricos em aproximadamente
simtricos. Usando a expresso de Box-Cox com = -1, -0,5, 0, +0,5, +1 e +2,
transforme os dados da Tabela 2.2, calcule os coeficientes de assimetria e curtose,
e verifique qual o valor de que os torna os dados aproximadamente simtricos.
Refaa o polgono de freqncias relativas para os dados transformados e
compare-o com o da Figura 2.4.

1 , se  0

11) Para construir um diagrama de freqncias relativas acumuladas, necessrio,


como se viu no item 2.1.5, estimar a probabilidade emprica de no superao
P(X  x) por meio dos nmeros de ordem de classificao m. No exemplo do
item 2.1.5, foi usada a expresso m/N para se estimar P(X  x). Contudo, tal
estimativa precria porque implica que nula a probabilidade da varivel produzir
um valor maior do que o mximo amostral. Para evitar tal inconveniente, foram
propostas diversas frmulas alternativas para a estimativa de P(X  x); na literatura
hidrolgica, tais frmulas so conhecidas por frmulas de posio de plotagem,
decorrente de adaptao do termo em ingls plotting position. Uma das mais
conhecidas a de Weibull, dada pela expresso m/(N+1). Refaa o diagrama de
Figura 2.5, usando a frmula de Weibull.
12) No anexo 1 desse livro, voc encontrar as vazes mdias mensais do Rio
Paraopeba em Ponte Nova do Paraopeba, de 1938 a 1999. Coloque em um
mesmo grfico os diagramas box plot das vazes mdias mensais de Janeiro e de
Setembro. Interprete os diagramas.
13) Faa e interprete o diagrama ramo-e-folha para as alturas anuais de precipitao
observadas na estao de Ponte Nova do Paraopeba, listadas na Tabela 2.5.
14) Interprete o diagrama Q-Q da Figura 2.14.
15) A tabela abaixo se refere aos dados de concentrao de slidos totais
dissolvidos e vazo, observados no Rio Cuyahoga na estao de Independence
HIDROLOGIA ESTATSTICA

49

CAPTULO 2 - ANLISE PRELIMINAR DE DADOS HIDROLGICOS

(cdigo USGS 4208000), no estado americano de Ohio, tais como publicados


por Helsel e Hirsch (1992). Os smbolos M e T representam, respectivamente, o
ms e o tempo decimal (ano-1000), da realizao das medies. A vazo Q est
expressa em ps cbicos por segundo e a concentrao de slidos totais SDT
est em mg/l. Pede-se:

Tabela 2.6 Exerccio 15


1

SDT
T
74,04 490

Q
458

Ms
2

78,12 680

74,12 540

469

78,21 250 4930 1 1

79,87 470

74,29 220

4630

78,29 250 3810 1 2

74,54 390

321

78,37 450

469

10

74,79 450

541

78,46 500

473

75,04 230

1640

78,54 510

593

75,29 360

1060

78,62 490

75,54 460

264

78,71 700

10

75,79 430

665

10

76,04 430

680

11

76,29 620

650

76,62 460

490

10

76,79 450

77,04 580

4
7

Ms

SDT Q Ms T
SDT
T
79,79 410 542 7 81,54 560

Q
444

499

8 81,62 370

595

79,96 370

741

9 81,71 460

295

80,04 410

569 1 0 81,79 390

542

80,12 540

360 1 2 81,96 330

1500

80,21 550

513

3 82,21 350

1080

500

80,29 220 3910

5 82,37 480

334

266

80,37 460

364

6 82,46 390

423

78,79 420

495

80,46 390

472

8 82,62 500

216

78,87 710

245

80,54 550

245 1 1 82,87 410

366

12

78,96 430

736

80,62 320 1500

2 83,12 470

750

79,04 410

508

80,71 570

224

5 83,37 280

1260

380

79,12 700

578 1 0

80,79 480

342

8 83,62 510

223

325

79,21 260 4590 1 2

80,96 520

732 1 1 83,87 470

462

77,29 350

1020

79,29 260 4670

81,04 620

240

2 84,12 310

7640

77,54 440

460

79,37 500

503

81,12 520

472

5 84,37 230

2340

10

77,79 530

583

79,46 450

469

81,21 430

679

7 84,54 470

239

11

77,87 380

777

79,54 500

314

81,29 400 1080 1 1 84,87 330

1400

12

77,96 440

1230

79,62 620

432

81,37 430

920

3 85,21 320

3070

78,04 430

565

79,71 670

279

81,46 490

488

5 85,37 500

244

SDT

Ms

533 1 0

a) registrar em um nico grfico a variao temporal das variveis Q e SDT;


b) elaborar e interpretar os diagramas de disperso, com histogramas e com grficos
do tipo box plot, para as variveis Q e SDT;
c) calcular o coeficiente de correlao linear entre as variveis Q e SDT;
d) no caso em foco, dar a justificativa fsica do sinal do coeficiente de correlao;
e
e) elaborar e interpretar o diagrama quantis-quantis para as variveis Q e SDT.

50

HIDROLOGIA ESTATSTICA

You might also like