Professional Documents
Culture Documents
Por P(x = a) se denota la probabilidad de que un evento asuma el valor a; similarmente P(a
≤ x ≤ b) denota la probabilidad de que un evento se encuentre en el intervalo (a,b). Si
conocemos la probabilidad P(a ≤ x ≤ b) para todos los valores de a y b, se dice que
conocemos la Distribución de Probabilidades de la variable x.
Ejemplo
Se tienen las probabilidades de que haya 1, 2, 3, ... etc, días nublados por semana en un
determinado lugar, con ellos calcule la distribución de probabilidades
x P(x) F(x)
0 0.05 0.05
1 0.15 0.20
2 0.25 0.45
3 0.20 0.65
4 0.15 0.80
5 0.10 0.90
6 0.08 0.98
7 0.02 1.00
Total 1.0
0.30 1.20
0.25 1.00
0.20 0.80
F(x)
f(x)
0.15 0.60
0.10 0.40
0.05 0.20
0.00 0.00
0 1 2 3 4 5 6 7 0 2 4 6 8
# dias nublados # dias nublados
1
x P(x) F(x)
1 0.05 0.05
2 0.10 0.15
3 0.15 0.30
4 0.20 0.50
5 0.10 0.60
6 0.10 0.70
7 0.15 0.85
8 0.10 0.95
9 0.05 1.00
Total 1.00
0.25 1.20
0.20 1.00
0.80
0.15
F(x)
f(x)
0.60
0.10
0.40
0.05 0.20
0.00 0.00
1 2 3 4 5 6 7 8 9 0 2 4 6 8 10
Qmáx instántaneo *10² (m³/s) Qmáx instántaneo *10² (m³/s)
0.35 1.20
0.30 1.00
0.25 0.80
0.20
F(x)
f(x)
0.60
0.15
0.40
0.10
0.05 0.20
0.00 0.00
1 2 3 4 5 6 7 8 9 10 0 5 10 15
Qmáx instántaneo *10² (m³/s) Qmáx instántaneo *10² (m³/s)
∞
i) ∫
−∞
f ( x)dx = 1
2
b
ii) P (a ≤ x ≤ b) = ∫ f ( x)dx
a
b
iii) ∫ b
f ( x)dx = 0
Lo que implica que las probabilidades se definen solo como AREAS bajo la función de
densidad de probabilidad (FDP) entre límites finitos.
∞
M r = ∫ x r f ( x)dx para la variable continua
−∞
n
M r = ∑ x r f ( x) para la variable discreta
j =1
∞
M r = ∫ ( x − μ ) r f ( x)dx para la variable continua
−∞
n
M r = ∑ ( x − μ ) r f ( x) para la variable discreta
j =1
1.2.1 Media μ:
es el valor esperado de la variable misma . Primer momento respecto a la origen. Muestra
la tendencia central de la distribución
∞
μ = ∫ x f ( x)dx
−∞
3
1.2.2 Varianza σ²:
mide la variabilidad de los datos. Es el segundo momento respecto a la media.
∞
σ 2 = ∫ ( x − μ ) 2 f ( x)dx
−∞
1.00
0.80
0.60
f(x)
0.40
0.20
0.00
0 2 4 6 8 10
x
0.50 1.00 1.30 2.00
Efectos de la función de densidad de probabilidad causados por cambios en la desviación
estándar.
σ
Coeficiente de variación Cv = es una medida adimensional de la variabilidad su
μ
s
estimado es Cv =
x
4
1.2.3 Coeficiente de asimetría γ
la distribución de los valores de una distribución alrededor de la media se mide por la
asimetría. Se obtiene a partir del tercer momento alrededor de la media, dividiéndolo por el
cubo de la desviación estándar para que sea adimensional.
∞
E[( x − μ ) 3 ] = ∫ ( x − μ ) 3 f ( x)dx tercer momento respecto a la media
−∞
1
γ= E `[( x − μ ) 3 ]
σ3
n
n∑ ( x − x)3
Un estimativo del coeficiente de asimetría está dado por C s = i =1
(n − 1)(n − 2) * s 3
Ejemplo
Frecuencia Frecuencia
Intervalo (mm) Xi medio x f(x)
absoluta relativa
100 110 105 10 0.1 10.5
110 120 115 16 0.16 18.4
120 130 125 9 0.09 11.25
130 140 135 10 0.1 13.5
140 150 145 20 0.2 29
150 160 155 15 0.15 23.25
160 170 165 20 0.2 33
Total=100 x = ∑138.9
2 ANALISIS DE FRECUENCIA
5
Para determinar la magnitud de eventos extremos cuando la distribución de probabilidades
no es una función fácilmente invertibles se requiere conocer la variación de la variable
respecto a la media. Chow en 1951 propusó determinar esta variación a partir de un factor
de frecuencia KT que puede ser expresado:
X T = μ + KT σ
X T = x + KT s
Para una distribución dada, puede determinarse una relación entre K y el período de retorno
Tr. Esta relación puede expresarse en términos matemáticos o por medio del uso de una
tabla.
−1 ( x − μ ) 2
1
f ( x) = exp 2 σ2
−∞ < x < ∞
σ 2π
6
Los dos parámetros de la distribución son la media μ y desviación estándar σ para los
cuales x (media) y s (desviación estándar) son derivados de los datos.
1 n
x= ∑ xi
n i =1
1
⎧ 1 n ⎫2
s=⎨ ∑
⎩ n − 1 i =1
( xi − x) 2 ⎬
⎭
xT − μ
KT =
σ
X Tr ± t(1−α ) S e
Esta distribución es muy usada para el calculo de valores extremos por ejemplo Qmax,
Qmínimos, Pmax, Pmínima (excelentes resultados en Antioquia). Tiene la ventaja que X>0
y que la transformación Log tiende a reducir la asimetría positiva ya que al sacar
logaritmos se reducen en mayor proporción los datos mayores que los menores.
7
Limitaciones: tiene solamente dos parámetros, y requiere que los logaritmos de la variables
estén centrados en la media
−1 ( y − μ y )
1 2 σ y2
f ( x) = exp x>0
xσ 2π
y = ln x
donde, μy : media de los logaritmos de la población (parámetro escalar), estimado y
σy : Desviación estándar de los logaritmos de la población, estimado sy.
1 n
y= ∑ ln( xi )
n i =1
1
⎧ 1 n ⎫2
sy = ⎨ ∑
⎩ n − 1 i =1
(ln( xi ) − y ) 2 ⎬
⎭
Ln(XTr) = xTr+KSy
de donde,
XTr = eln (xTr)
con K con variable normal estandarizada para el Tr dado, xy media de los logaritmos y Sy
es la desviación estándar de los logaritmos.
8
⎧ 1
⎛ ln(1 + Cv 2 ) ⎞⎫
Exp ⎨ K T * ( Ln(1 + Cv 2 )) 2 − ⎜⎜ ⎟⎟⎬ − 1
⎩ ⎝ 2 ⎠⎭
Kt =
Cv
s
K es la variable normal estandarizada para el Tr dado, Cv = es el coeficiente de
x
variación, x media de los datos originales y s desviación estándar de los datos originales.
En el campo transformado.
Ln( X Tr ) ± t(1−α ) ST
1
(δ S y ) ⎛ K 2 ⎞2
Se = δ = ⎜⎜1 + T ⎟⎟
n ⎝ 2 ⎠
Solución:
n=30
x= 15 m3/s xy=2.655
s = 5 m3/s sy = 0.324
En el campo original
⎧ 1
⎛ ln(1 + Cv 2 ) ⎞ ⎫
Exp ⎨K * ( Ln(1 + Cv 2 )) 2 − ⎜ ⎟⎬ −1
⎩ ⎝ 2 ⎠⎭
Kt =
Cv
9
s
Cv = = 5/15 = 0.33
x
⎧ 1
⎛ ln(1 + 0.332 ) ⎞⎫
Exp ⎨2.33 * ( Ln(1 + 0.33 )) − ⎜⎜
2 2
⎟⎟⎬ − 1
⎩ ⎝ 2 ⎠⎭
KT =
0.33
KT = 3.06
QTr = 15 + 5 * 3.028
QTr = 30.14 m3/s
LnQTr100 = 3.40992
Limites de confianza
Ln (QTr) ± t(1-α) Se
1
(δ S y ) ⎛ K 2 ⎞2
Se = δ = ⎜⎜1 + T ⎟⎟
n ⎝ 2 ⎠
1
⎛ 2.332 ⎞ 2
δ = ⎜1 + ⎟
⎝ 2 ⎠
δ = 1.93
. ⋅ 0.324
193
Se = = 011
.
30
10
Ln(30.28) ± (1.645 ) (0.11)
3.41 ± 0.18095
[3.22905 3.59095]
[e3.22905 e3.59095]
Ln(42.5) = 3.75
t = (3.75 - 2.655)/0.324
1 ⎡ − (x − β ) ⎛ − ( x − β ) ⎞⎤
f ( x) = exp ⎢ − exp⎜ ⎟⎥
α ⎣ α ⎝ α ⎠⎦
⎡ ⎛ ( x − β ) ⎞⎤
F ( x) = ∫ f ( x)dx = exp ⎢− exp⎜ − ⎟
⎣ ⎝ α ⎠⎥⎦
11
3.3.2 Estimación de parámetros
6
α= s
π
β = x − 0.5772α
6 ⎧⎪ ⎡ ⎛ Tr ⎞⎤ ⎫⎪
KT = − ⎨0.5772 + ln ⎢ln⎜⎜ ⎟⎟⎥ ⎬
π ⎪⎩ ⎣ ⎝ Tr − 1 ⎠⎦ ⎪⎭
Donde Tr es el periodo de retorno. Para la distribución Gumbel se tiene que el caudal para
un período de retorno de 2.33 años es igual a la media de los caudales máximos.
Xt ± t(1-α) Se
δ⋅ s
Se =
n
1
δ = [1 + 1.1396K T + 1.1KT 2 ] 2
QTr100 = x + KT s
6
KT = − {0.577 + ln[ln100 − ln(99)]}
π
KT = 3.14
QTr100 = 15 + 3.14*5
12
QTr100 = 30.7 m3/s
Intervalos de confianza
δ = [1 + 11396
. . ) + 11
(314 . (314
. ) ] 2 2
δ = 3.93
(3.93) ⋅ (5)
Se =
30
Se = 3.58 m 3 / s
Xt ± t(1-α) Se
Esta distribución ha sido una de las mas utilizadas en hidrología. Como la mayoría de las
variables hidrológicas son sesgadas, la función Gamma se utiliza para ajustar la
distribución de frecuencia de variables tales como crecientes máximas anuales, Caudales
mínimos, Volúmenes de flujo anuales y estacionales, valores de precipitaciones extremas y
volúmenes de lluvia de corta duración. La función de distribución Gamma tiene dos o tres
parámetros.
β −1
1 ⎛ x − xˆ0 ⎞ ⎛ x − xˆ0 ⎞
f ( x) = ⎜ ⎟ exp⎜ − ⎟
α Γ(β ) ⎝ α ⎠ ⎝ α ⎠
donde,
13
α y β son los parámetros de escala y forma, respectivamente , y x0 es el parámetro de
localización.
2
⎛ 2 ⎞ Cs
βˆ = ⎜ ⎟ ; αˆ = s ; xˆ0 = x −α βˆ
⎝ Cs ⎠ 2
2 3 4 5
Cs 1 3 ⎛ Cs ⎞ ⎛ Cs ⎞ ⎛ Cs ⎞ 1 ⎛ Cs ⎞
K ≈ z + ( z − 1)
2
+ ( z − 6 z )⎜ ⎟ − ( z 2 − 1)⎜ ⎟ + z ⎜ ⎟ + ⎜ ⎟
6 3 ⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ 3⎝ 6 ⎠
donde z es la variable normal estandarizada
Xt ± t(1-α) Se
δ ⋅S
Se =
n
QTr100 = X+ SK
14
QTr100 = 4144+ (3.595) (3311)
QTr100 = 16050 pie3/s
Intervalos de confianza
Xt ± t(1-α) Se
δ ⋅S
Se =
n
( 3311) ⋅ (8.4922)
Se =
30
Se = 5133.56 pie3/s
Si los logaritmos Y de una variable aleatoria X se ajustan a una distribución Pearson tipo
III, se dice que la variable aleatoria X se ajusta a una distribución Log Pearson Tipo III.
Esta distribución es ampliamente usada en el mundo para el análisis de frecuencia de
Caudales máximos. Esta se trabaja igual que para la Pearson Tipo III pero con Xy y Sy
como la media y desviación estándar de los logaritmos de la variable original X.
β −1
1 ⎛ ln( x) − y0 ⎞ ⎛ ln( x) − y0 ⎞
f ( x) = ⎜ ⎟ exp⎜ − ⎟
x α Γ(β ) ⎝ α ⎠ ⎝ α ⎠
donde,
15
y0 ≤ y < ∝ para α > 0
∝ < y ≤ y0 para ∝ < 0
2
⎛ 2 ⎞ Cs
βˆ = ⎜ ⎟ ; αˆ = s y ; xˆ0 = x y −α βˆ
⎝ Cs ⎠ 2
ln(YTr ) = x y + K ∗ s y
2 3 4 5
Cs 1 3 ⎛ Cs ⎞ ⎛ Cs ⎞ ⎛ Cs ⎞ 1 ⎛ Cs ⎞
K ≈ z + ( z − 1)
2
+ ( z − 6 z )⎜ ⎟ − ( z 2 − 1)⎜ ⎟ + z ⎜ ⎟ + ⎜ ⎟
6 3 ⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ 3⎝ 6 ⎠
donde z es la variable normal estandarizada
Xt ± t(1-α) Se
δ ⋅Sy
Se =
n
4 AJUSTE DE DISTRIBUCIONES
16
Para la modelación de caudales máximos se utilizan, entre otras, las distribuciones Log -
Normal, Gumbel y Log-Gumbel principalmente. Para seleccionar la distribución de
probabilidades de la serie histórica se deben tener en cuenta algunas consideraciones.
• Para ajustar distribuciones de tres parámetros (Log Normal III, Log Pearson) se
requiere estimar el coeficiente de asimetría de la distribución; para ello es necesario
disponer de una serie con longitud de registros larga, mayor de 50 años, (Kite,
1988). Las distribuciones de dos parámetros son usualmente preferidas cuando se
dispone de pocos datos, porque reducen la varianza de la muestra, (Ashkar, et al.
1994).
• Kite (1988) y Mamdouh (1993) afirman que no existe consistencia sobre cual es la
distribución que mejor se ajusta a los caudales máximos y recomiendan seleccionar
el mejor ajuste a criterio del modelador con la prueba de ajuste gráfico o basado en
el comportamiento de las pruebas estadísticas de bondad del ajuste (por ejemplo Chi
Cuadrado, Smirnov-Kolmogorov, Cramer-Von Mises) en las que se calcula un
estimador y se compara con un valor tabulado para determinar si el ajuste es
adecuado o no. En la prueba de ajuste gráfica se dibujan los valores registrados en
la serie contra la distribución teórica de probabilidades y de manera visual
(subjetiva) se determina si el ajuste es adecuado o no.
1
Aunque no existe una definición generalmente aceptada, se puede entender como valores extremos, muy
superiores a los demás registrados (Ashkar, et al. 1994).
17
solamente de los caudales máximos anuales que han ocurrido en la cuenca y no da cuenta
de los procesos de transformación de la precipitación en escorrentía. Obviamente tiene
algunas limitaciones relacionadas con el comportamiento de la serie histórica y con el
tamaño y calidad de los datos de la muestra.
El ajuste a distribuciones se puede hacer de dos técnicas, con el factor de frecuencia como
se refirió en el numeral 2 o hallando la distribución empírica de los datos muestrales, por el
método de Plotting Position.
m
California P=
n
m
Weibull P=
n +1
2m − 1
Hazen P=
2n
La expresión más utilizada es la Weibull. Con las anteriores expresiones se halla lo que se
conoce como la distribución empírica de una muestra, esta luego se puede ajustar a una de
las distribuciones teóricas presentadas anteriormente. Los resultados pueden ser dibujados
en el papel de probabilidad; este es diseñado para que los datos se ajusten a una línea recta
y se puedan comparar los datos muestrales con la distribución teórica (línea recta).
18
Para determinar que tan adecuado es el ajuste de los datos a una distribución de
probabilidades se han propuesto una serie de pruebas estadísticas que determinan si es
adecuado el ajuste. Estos son análisis estadísticos y como tal se deben entender, es decir,
no se puede ignorar el significado físico de los ajustes.
La prueba requiere que el valor Dn calculado con la expresión anterior sea menor que el
valor tabulado Dn para un nivel de probabilidad requerido.
Una medida de las discrepancia entre las frecuencias observadas (fo) y las frecuencias
calculadas (fc) por medio de una distribución teórica esta dada por el estadístico χ²
k
( f − f )2
χ 2 = ∑ o c en donde ∑ f o = ∑ f c
i =1 fc
si el estadístico χ²=0 significa que lae distribuciones teórica y empírica ajustan
exactamente, mientras que si el estadístico χ²>0, ellas difieren. La distribución del
estadístico χ² se puede asimilar a una distribución Chi-cuadrado con (k-n-1) grados de
libertad, donde k es el número de intervalos y n es el número de los parámetros de la
distribución teórica. La función χ² se encuentra tabulada. Supongase que una hipótesis Ho
es aceptar que una distribución empírica se ajusta a una distribución Normal. Si el valor
calculado de χ² por la ecuación anterior es mayor que algún valor crítico de χ², con niveles
de significancia α de 0.05 y 0.01 (el nivel de confianza es 1-α) se puede decir que las
frecuencias observadas difieren significativamente de las frecuencias esperadas (o
calculadas) y entonces la hipótesis Ho se rechaza, si ocurre lo contrario entonces se acepta.
19