You are on page 1of 19

ANALISIS E INTERPRETACION DE DATOS DE LA CALIDAD DEL AIRE

BORRADOR









SEPTIEMBRE 20/2005

ANALISIS E INTERPRETACION DE DATOS DE
LA CALIDAD DEL AIRE

INTRODUCCIN.

El anlisis y la interpretacin de los datos de la
calidad del aire, son no solo una funcin de los
objetivos del programa de vigilancia, sino, tambin
que son funcin de la naturaleza especfica y de la
calidad de los datos disponibles.

Cada programa de vigilancia tiene su propsito o
propsitos especficos y los anlisis deben estar
ntimamente ligados a ellos. Se recomienda que el
planteamiento de las tareas analticas y del
anlisis mismo se inicie antes que se efecte
cualquier medicin, de modo de asegurar as que
los datos que se requieren para los anlisis sean
realmente colectados y que la informacin
suplementaria sea incluida. La experiencia ensea
que el anlisis de los datos y los procedimientos
de interpretacin cambian y mejoran con el
transcurso del tiempo.

El primer paso en el anlisis de los datos consiste
en la evaluacin crtica de los datos colectados.
Cada medicin debe ser verificada, no slo
individualmente, sino tambin como unidad de un
grupo de mediciones consecutivas en el tiempo
simultneamente en el espacio. Gran parte de la
validacin de los datos se hace mediante el
examen cuidadoso de los mismos para ver si
presentan fenmenos poco usuales. En este
contexto, se necesita presentar especial atencin
a cambios rpidos o extremos registrados en los
niveles de contaminacin del aire, o en las
variables meteorolgicas, particularmente cuando
la ocurrencia de tales cambios es poco usual y
localizada. La deteccin de anomalas se facilita
grandemente por el resumen y graficacin de los
conjuntos de datos bajo la forma de cuadros,
tablas y grficos. Si se encontraran anomalas, se
debe rechazar o corregir los datos antes de
proseguir con el anlisis.

Es claro que el ms simple de los programas de
vigilancia del aire puede, muy rpidamente,
producir una gran cantidad de datos en bruto. Si
bien algunos cuadros y grficos simples de los
datos originales pueden mostrar caractersticas
interesantes, es necesario ocuparse
adecuadamente de esta situacin, para ello se
requiere de preparar resmenes estadsticos para
lograr tener una clara visin de conjunto y, as
mismo, para limitar el nmero de valores
numricos que se necesita a efecto de describir la
situacin real de la contaminacin del aire. Estos
resmenes estadsticos forman tambin las bases
para anlisis e interpretaciones ms avanzadas
que son necesarios hacer para extraer la mayor
informacin posible del conjunto de datos
recolectados.

GUA PARA LA REVISIN DE DATOS
PRELIMINARES

ELEMENTOS GENERALES

En este paso de valoracin de calidad de datos, el
analista conduce a una evaluacin del grupo de
datos preliminares. Calcula algunas cantidades
estadsticas bsicas y examina el uso de datos en
las representaciones graficas. Una revisin
preliminar de los datos debe realizarse cada vez
que son usados, para recordar si deben ser
usados para soportar una decisin, estimar un
parmetro poblacional o responder una pregunta
de bsqueda exploratoria.

Estas son dos formas elementales de una revisin
de datos preeliminares: (1) Cantidades
estadsticas bsicas (sumario de estadsticos); (2)
Representaciones graficas de los datos. Las
cantidades estadsticas son funciones de los datos
que describen numricamente los datos. Los
ejemplos incluyen la media, la mediana,
percentiles, rango y desviacin estndar. Ellos
pueden ser usados para proveer una imagen
mental de los datos y son usados para hacer
inferencias concernientes a la poblacin de la cual
los datos fueron obtenidos. Las representaciones
graficas son usadas para identificar patrones y
relaciones con los datos, confirmar o rechazar las
hiptesis e identificar problemas. Por ejemplo, el
diagrama de probabilidad normal debe permitir un
anlisis de descarte rpido y asumir la normalidad
y debe identificar distancias potenciales.

REVISIN DE LA SEGURIDAD Y CALIDAD DE
LOS REPORTES

La primera actividad en conducir la revisin de los
datos preliminares es el revisar cualquier reporte
de valoracin de calidad relevante que describa la
coleccin de datos y reporte el proceso como es
implementado actualmente. Estos reportes
Proveen informacin valiosa de los problemas
potenciales y anomalas en los datos. Los puntos
especficos que deben ser incluidos son:

Reportes de validacin de datos que
documentan la toma de muestras, la
manipulacin, anlisis, reduccin de los
datos, y el reporte de los procedimientos
usados.
Reportes de control de calidad de
laboratorios o estaciones de campo que
documentan la accin del sistema de toma
de muestras, incluyendo la revisin de los
datos de las muestras, cuartear las
muestras, anular muestras o cualquier otra
medida interna de control de calidad; y
Revisin de sistemas tcnicos, acciones
de auditoria y evaluacin, auditoria de la
calidad de los datos, incluyendo datos de la
accin de evaluar las muestras.

CALCULO DE PARMETROS ESTADSTICOS
BSICOS

El objetivo de esta actividad es hacer un resumen
de algunas de las caractersticas cuantitativas de
los datos de calidad del aire obtenidos usando
cantidades estadsticas comunes. Entre las
cantidades estadsticas de mas amplio uso esta:
Numero de observaciones; medidas de tendencia
central, como la media, mediana y moda; medidas
de dispersin como el rango, la varianza,
desviacin estndar, coeficiente de variacin o
rango intercuartilico; medidas de posicin relativa
como los percentiles y medidas de asociacin
entre 2 o mas variables, como las correlaciones.
Estas medidas pueden ser usadas para
descripcin, comunicacin y para probar algunas
hiptesis que se hayan planteado.

Medidas de tendencia central:

Las medidas de tendencia central tienen
aplicacin directa a los estndares de
contaminacin del aire a largo plazo, desde que la
mayora de estos se expresan como valores de
concentracin promedio. Sin embargo, las
mediciones de contaminacin del aire son
usualmente de alta variabilidad, y reflejan cambios
en las emisiones de las fuentes, en las
condiciones meteorolgicas y en las reacciones
qumicas de la atmsfera. Cuando se comparan
las mediciones tomadas en varios estaciones de
monitoreo, el sitio que aparece como el ms
variable, ha sufrido a menudo la influencia de una
fuente de emisin cercana, mientras que el sitio
menos variable est localizado, sea en un
ambiente limpio o, alternativamente, rodeado de
un nmero de fuentes de emisin tales que un
cambio en la direccin del viento no refleja
necesariamente un cambio marcado en las
concentraciones determinadas. Por consiguiente,
adems de describirse los datos por una medida
que sea la ms representativa de ellos (media,
mediana o modo) se hace tambin necesario tener
una identificacin de la dispersin o variabilidad
que exista en las observaciones.

Media aritmtica, media muestral o promedio,
X ,
Es la suma de los valores de todas las
observaciones dividida por el nmero de
observaciones. Este nmero refleja y engloba
todos los datos y es altamente influenciado por
los valores extremos. Un problema que se
encuentra frecuentemente en los estudios tcnicos
sobre contaminacin del aire se refiere a las
mediciones de contaminacin que estn por
debajo del lmite de deteccin del mtodo analtico
usado. Ellas se anotan usualmente como cero.
Para resolver este problema, es prctica comn
introducir la mitad del valor lmite de deteccin
como el valor numrico de cada una de estas
modificaciones.

Si X1, X2 ..., Xn representa los n datos de
concentracin de un contaminante, entonces:

=
=
n
i
i
X
n
X
1
1


Mediana muestral
X
~

Es la segunda medida de tendencia central ms
popular. Este valor cae directamente en la mitad
de los datos cuando la medida es por rangos en
orden de la mas pequea a la mas grande (as X1
es el mas pequeo, X2 es el segundo mas
pequeo y Xn es el mas grande). Esto quiere decir
que la mitad de los datos son ms pequeos que
la mediana muestral, y la mitad de los datos son
ms grandes que la mediana muestral. El otro
nombre de la mediana es el percentil 50. La
mediana no es influenciada por los valores
extremos y, as, el problema de los valores por
debajo del lmite de deteccin queda eliminado.

Si el nmero de puntos es impar, entonces

| | ( ) 2 / 1
~
+
=
n
X X

Si el nmero de puntos es par, entonces

( ) | | ( )
2
~
1 2 / 2 / +
+
=
n n
X X
X


Moda
Es el valor que ocurre con mayor frecuencia en el
conjunto de datos. Si el histograma o la curva de
frecuencias indican claramente que varios
intervalos o valores muestran cierto grado de
predominancia, existe entonces una curva de
frecuencias multimodal que exhibe una primer
moda, una segunda moda, y as sucesivamente.
Una de las propiedades fundamentales de las
curvas de frecuencias asimtricas que ms
frecuentemente ocurren en conjuntos de datos de
contaminacin del aire, es que la moda es ms
pequea que la mediana, valor que, a veces, es
ms pequeo que la media aritmtica o promedio.

Media geomtrica (o promedio geomtrico) (Xg)
Se define como la raz ensima del producto de n
valores.

n
n
i
i
n
n G
x x x x x x

=
= =
1
3 2 1
......

En el caso de gran cantidad de datos se plantea el
clculo mediante el antilogaritmo del promedio
aritmtico de los logaritmos de los n datos. Es
vlido para valores mayores a cero. En caso de
valores por debajo del lmite de deteccin, el valor
asignado se establece como la mitad de la
diferencia entre el lmite de deteccin del mtodo
analtico usado y cero. Este valor sustituto debe
usarse consistentemente en todos los clculos
subsiguientes. El clculo se realiza de la siguiente
forma:
|
|
|
|

\
|
=

=
n
x
X
n
i
i
g
1
ln
exp


Ejemplo de clculos de las medidas de tendencia
central

Usando las ecuaciones anteriores y los siguientes
10 datos de concentraciones de CO en (ppm): 4,
5, 6, 7, 4, 10, 4, 5, 7, y 8, se presenta el cmputo
de la media muestral, mediana y moda.

Media muestral:



as , la media muestral es 6ppm

Mediana muestral: El orden de los datos es: 4, 4,
4, 5, 5, 6, 7, 7, 8 y 10 donde n es = 10 y es par, la
media muestral es:



As, la mediana muestral es 5.5 ppm.

Moda muestral: computando el nmero de veces
que cada valor ocurre:
4 aparece 3 veces; 5 aparece 2 veces;6 aparece 1
vez; 7 aparece 2 veces; 8 aparece 1 vez; y 10
aparece 1 vez . Porque el valor de 4 ppm aparece
la mayora de veces, este es la moda del grupo de
datos.


MEDIDAS DE DISPERSIN

Las medidas de tendencia central son ms
dicientes si son acompaadas por informacin
sobre la dispersin de los datos desde el centro.
Las medidas de dispersin en un grupo de datos
incluyen el rango, la varianza, la desviacin
estndar muestral, el coeficiente de variacin y el
rango intercuartilico.

Rango amplitud muestral.
Es la diferencia entre los valores ms alto y ms
bajo de las concentraciones registradas. Sufre la
influencia de los valores extremos del conjunto de
datos y, consecuentemente, tiene limitadas
aplicaciones en la interpretacin de las mediciones
de contaminacin del aire.
S i X1, X2,.. Xn representan los n datos de
monitoreo de un contaminante, tenemos:
Rango Muestral: (R) es la diferencia entre el valor
ms grande y el valor ms pequeo de la muestra

R = mximo mnimo.

Varianza muestral
Mide la dispersin desde la media en el grupo de
datos. Una muestra grande implica una varianza
que puede tener una gran dispersin entre sus
datos y la mayora de los datos estn cercanos a
la media. La varianza muestral es afectada por
valores extremos o en gran numero de los no
detectados. La desviacin estndar muestral es la
raz cuadrada de la varianza muestral y tiene las
mismas unidades de medida que los datos.


Para computar la varianza muestral (S
2
), se
emplea la siguiente expresin:

1
1
2
1 1
2
2

\
|
+
=

= =
n
x
n
x
S
n
i
i
n
i
i



Desviacin estndar muestral: (S)
Es la medida de la variabilidad ms comnmente
usada, se calcula como la raz cuadrada de la
varianza de la muestra de los valores con respecto
a la media aritmtica potenciada al cuadrado. Si
se usara la media geomtrica, la desviacin
estndar geomtrica (Sg) es la medida aproximada
de variabilidad. Para su cmputo se emplea la
siguiente expresin:

2
S S =


Coeficiente de variacin (CV)
Es una medida sin unidad que permite la
comparacin de la dispersin entre un gran
numero de grupo de datos. El (CV) es
frecuentemente usado en aplicaciones
ambientales porque la variabilidad (expresada
como desviaciones estndar) es frecuentemente
proporcional a la media. Se calcula al dividir la
desviacin estndar por la media muestra y es
frecuentemente expresada en porcentaje.

x
S
CV =


Rango Intercuartlico RI:
Representa la diferencia entre el percentil 75 (3
o

cuartil) y el percentil 25 (2
o
cuartil), por lo que
concentra el 50% de los datos alrededor de la
mediana. Permite visualizar la variabilidad de la
informacin, evitando la influencia de los casos
extremos, ver grfico siguiente.

RI= Q3 - Q1=P75 - P25


Figura 1. Rango Intercuartil.


Representacin grfica de algunos parmetros
estadsticos (grfica de caja o boxplot).

Caso extremo o caso atpico (outlier). Dada la
variacin de un fenmeno la mayora de las
observaciones se concentran alrededor de un
punto (media o mediana), aquellos que se alejan
considerablemente de ste, se consideran como
datos atpicos, es decir datos que no ocurren
frecuentemente y se alejan del resto.

Ejemplo de clculo de las medidas de dispersin

Los siguientes 10 datos de CO en ppm: 4, 5, 6, 7,
4, 10, 4, 5, 7 y 8 son usados para calcular las
medidas de dispersin. De anterior ejemplo
sabemos que:



Rango muestral: R = Max Min = 10 4 = 6ppm



Varianza muestral:


Desviacin estndar muestral:


Coeficiente de variacin:


Rango intercuartilico :

Para computar el present 25
th
y 75
th
para los
datos (y(25)& (75)respectivamente). y(25) = X( 2
+ 1 ) = X( 3 ) = 4 ppm y (75) = X( 7 + 1 ) = X( 8 )
= 7 ppm.

El rango intercuartil (IQR) es la diferencia entre
estos valores;IQR = y(75) - y(25) IQR = 7 - 4 = 3
ppm.


MEDIDAS DE LOCALIZACIN

Las medidas de localizacin para los datos
empleados en este anlisis estadstico, son la
concentracin mxima, la concentracin mnima,
la mediana o percentil 50, la moda, los percentiles
10, 25, 75, 90, 95 y 98.

Percentil.
Un percentil es el valor o dato de concentracin
debajo del cual se encuentra un determinado
porcentaje de datos ordenados por su magnitud.
En trminos matemticos pth percentil es el valor
que es mas grande o igual al P % de valores de
los datos y es menos o igual que (1 P) % de los
valores de los datos. Los percentiles son una de
las medidas de ubicacin relativa que debe
tambin ser usada para sumar los datos. Algunas
veces el analista de la calidad del aire, esta
interesado en saber la posicin relativa de una de
las observaciones en relacin a todas las
mediciones efectuadas.

Por ejemplo, el valor del Percentil 75 seala la
concentracin a partir de la cual se encuentran
tres cuartas partes del total, en tanto que el
Percentil 25 seala la concentracin a partir de la
cual se encuentra una cuarta parte del total.

Usualmente los percentiles mas importantemente
revisados son el percentil 25, 50 y 75
.
El percentil
50 es tambin llamado la muestra mediana y los
valores de percentil 25 y 75 son usados para
estimar la dispersin del grupo de datos. Tambin
es importante para los dato ambientales los
percentiles 90th, 95th, y 99th donde el tomador
de decisiones puede como estar seguro que el
90%, 95% y 99% de los niveles de contaminacin
esta abajo del nivel de riesgo fijado.
Ejemplo para calcular la medida de ubicacin
relativa (percentiles) .

Tenemos X1, X2, ... Xn representan los n datos de
concentracin de un contaminante atmosfrico.
Para computar el percentil p, y(p), primero haga
una lista de los datos del mas pequeo al mas
grande, X1, X2, ... Xn.
As t = p/100, y multiplicando el tamao de la
muestra n por t.

Divida el resultado en la parte integral y en la parte
fraccionaria, i.e. , si nt = j + g donde j es la parte
entera y g es la parte fraccionaria, entonces el
percentil, y(p), es calculado por:

Si g = 0, y(p) = (X( j ) + X( j + 1 ))/2

De otra forma y(p) = X( j + 1)

Ejemplo: Calcule los percentiles 90

y 95 para diez
(10) mediciones de un contaminante atmosfrico ,
cuyas concentraciones han sido de menor a
mayor: 4, 4, 4, 5, 5, 6, 7, 7, 8, y 10 ppm.

Para el percentil 95

, t = p/100 = 95/100 = 0.95
nt = (10)(0.95) = 9.5 = 9 + 0.5 as j = 9 y g = 0.5

Por que g = 0.5 0, y (95) = X( j + 1) = X( 9 + 1) = X( 10 )
= 10 ppm.
As, 10 ppm es el percentil 95 de los datos
anteriores.

Para el percentil 90,

t = p/100 = 90/100 = .9
nt = (10)(.9) = 9 entonces j = 9 y g = 0.

Dado que g = 0, y (90) = (X( 9 ) + X( 10 )) / 2 = (8
+ 10) / 2 = 9 ppm

MEDIDAS DE ASOCIACIN

Los datos de la calidad del aire frecuentemente
incluyen medidas de varias caractersticas
(variables) en cada punto de medicin. De
acuerdo a los problemas a resolver es necesario
saber si existen relaciones o niveles de asociacin
entre dos o ms de estas variables. Una de las
medidas de asociacin ms comunes es el
coeficiente de correlacin. La medida del
coeficiente de correlacin es la relacin entre dos
(2) variables; es una relacin lineal entre 2 grupos
de medidas. Sin embargo el coeficiente de
correlacin no implica de por si causa y efecto. El
analista debe establecer si la correlacin entre dos
variables es alta y la relacin es fuerte, pero no
debe decir que una variable causa el crecimiento o
decrecimiento, sin evidencias fuertes ni control
estadstico. Para el manejo de la correlacin
existente entre un grupo de datos de calidad del
aire, se emplea con frecuencia a los coeficientes
de correlacin de Pearson y Spearman.


Coeficiente de Correlacin de Pearson
El coeficiente de correlacin de Pearson mide la
relacin lineal entre dos variables. Una asociacin
lineal implica que una variable incrementa y lo
hace linealmente, o que una variable decrece y la
otra incrementa linealmente. Los valores de
coeficiente de correlacin cercanos a +1
(correlacin positiva) implican que como una
variable incrementa la otra tambin lo hace, el
inverso contiene valores cercanos a 1. Un valor
de +1 implica una correlacin lineal positiva
perfecta, todos los datos pares caen en una lnea
con una fuerte inclinacin positiva. Los valores de
1 implican una perfecta correlacin lineal
negativa. Los valores iguales a cero implican que
no existe una correlacin entre las variables.

Ejemplo 1: Durante un periodo de 12 horas, se
toman lecturas de CO, SO2 y NO2, con los
siguientes resultados:

CO
(ppm)
SO2
(g/m
3
)
NO2 (
g/m
3
)
2 1 2
3 3 5
4 2 7
4 4 8
5 4 5
6 4 3
6 6 4
7 4 6
7 6 7
8 7 5
10 9 5
10 10 9

Si representamos las variables CO SO2 en un
diagrama y CO NO2 en otro vemos que la
correlacin es mucho ms fuerte en el primero que
en el segundo ya que los valores estn ms
alineados.

El coeficiente de correlacin no detecta relaciones
no lineales, de tal forma que el debe ser usado en
conjunto con un diagrama de dispersin. Un
diagrama de dispersin puede ser usado para
determinar si el coeficiente de correlacin es
significativo o si algunas de las medidas de las
relaciones no lineales deben ser usadas.

Una propiedad importante del coeficiente de
correlacin es que el no es afectado por cambios
en la localizacin de los datos (adicionando o
sustrayendo un valor constante de todas las
medidas X y Y), y por cambios en la escala de los
datos y/o valores de Y por una constante positiva.
As las transformaciones lineales en los ejes XS y
YS no afecta la correlacin de las medidas. El
grado de linealidad no es afectado por los cambios
en la localizacin o escala. Por ejemplo si una
variable es la temperatura en grados Celsius, la
correlacin no se cambia si los grados Celsius
fueran convertidos a grados Fahrenheit.

Por otra parte, si se realizan transformaciones no
lineales de las medidas X y Y, entonces la
correlacin de Pearson entre los valores
transformados puede ser diferente de la
correlacin de las medidas originales. Por ejemplo
si X y Y representan respectivamente las
concentraciones de PCB y dioxinas en el suelo, y
x = log (X) y Y = log (Y) entonces la correlacin de
Pearson entre X contra Y, X contra x, x contra Y y
x contra y, en general sern todas diferentes, dado
que la transformacin logartmica es una
transformacin no lineal.




Clculos del Coeficiente de correlacin de
Pearson

Si X1, X2,...Xn representa una variable de n puntos y
si Y1,Y2,...,Yn representa una segunda variable de n
puntos. El Coeficiente de correlacin de Pearson,
r, entre X y Y es computado por:
2 / 1
2
1
1
2
2
1
1
2
1 1
1
(
(
(
(
(

|
|
|
|
|

\
|
|

\
|

|
|
|
|
|

\
|
|

\
|

=
=
=
=
= =
=
n
Y
Y
n
X
X
n
Y X
Y X
r
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i



Ejemplo: considere el siguiente grupo de datos
(ppb):
- muestra 1: arsnico (X) = 8.0; plomo (Y) = 8.0;
- muestra 2: arsnico = 6.0; plomo =7.0;
- muestra 3: arsnico = 2.0, plomo = 7.0 y
- muestra 4: arsnico = 1.0, plomo = 6.0.



Y


Dado que el valor de r cercano a 1, existe una
fuerte relacin lineal entre estas dos variables.


Coeficiente de correlacin de Spearman.

El coeficiente de correlacin de Spearman es una
tcnica no paramtrica que se basa en los rangos
en vez de en los valores originales de la variable.
Denotado por rs se utiliza cuando alguna de las
variables es ordinal o incluso dicotmica o para
variables cuantitativas con muestras pequeas.

El clculo del coeficiente se realiza primero por el
reemplazo de cada valor de X por su rango (1
para los valores pequeos de X, 2 para los
segundos ms pequeos, etc.) Y cada valor de Y
por su rango. Estos pares de rangos son luego
tratados como datos (X, Y) y el rango de
correlacin de Spearman es calculado usado la
misma formula que para el coeficiente de
correlacin de Pearson.

Dado que las transformaciones significativas de
los datos (incremento montono) pueden no ser
los rangos de las respectivas variables (los rangos
para el log X pueden ser los mismos para los
rangos de X), la correlacin de Spearman no
puede ser alterada por el incremento de
transformaciones lineales de XS o de YS. Por ello
la correlacin de Spearman entre PCB y las
concentraciones de Dioxina (X y Y) en el suelo
sern las mismas que las correlacione entre sus
log (x y y). Esta propiedad tan deseada y el hecho
que la correlacin de Spearman es menos
sensitiva a valores extremos que la correlacin de
Pearson, hacen de ella, una alternativa atractiva o
complementaria del coeficiente de correlacin de
Pearson.

Existen algunas diferencias tericas importantes
entre Pearson y Spearman. En general la
correlacin de Pearson tiene ms poder
estadstico que la de Spearman, aunque esta
ultima tiene aplicaciones mas variadas.


Clculo de Rangos:
Para los datos de las variables Var1 y Var2 se
calculan los rangos de los valores de stas, a los
que se denota por: Ri(Var1) y Ri(Var2), siendo
Ri(Var1) los rangos de Var1 asociados al individuo
i y Ri(Var2) los rangos de Var2 asociados al
individuo i.

Clculo de valores intermedios:
A continuacin, se realizan los siguientes clculos
intermedios:
( ) ( ) ( )

=
=
n
i
i i
Var R Var R D
1
2
2 1
( )

=
1
3
ar empatesenV
o o
x
empates n empates n T
( )

=
2
3
ar empatesenV
o o
y
empates n empates n T
12
3
x
T n n
A

=

12
3
y
T n n
B

=


Clculo del coeficiente de correlacin de
Spearman

A partir de los coeficientes calculados con
anterioridad, se calcula el coeficiente de
correlacin rs de Spearman dado por:
AB
D B A
r
2
+
=

Se puede demostrar que si se calcula el
coeficiente de correlacin de Pearson sobre las
variables Ri(Var1) y Ri(Var2) se llega al mismo
resultado.

Significacin del coeficiente de correlacin de
Spearman
Para realizar el contraste:
H0: r = 0
H1: r 0
Se construye el siguiente estadstico de contraste:
2
1
2
s
s
r
n
r t

=


Que sigue una distribucin t-Student con n - 2
grados de libertad.

Ejemplo para calcular el coeficiente de correlacin
de Spearman

Si X1,X2,....Xn Representa un grupo de rangos de n
puntos de datos de un grupo de datos y si
Y1,Y2,....Yn Representa un grupo de rangos de una
segunda variable de n datos. El coeficiente de
correlacin de Spearman, r, entre X y Y es
computado por:
2 / 1
2
1
1
2
2
1
1
2
1 1
1
(
(
(
(
(

|
|
|
|
|

\
|
|

\
|

|
|
|
|
|

\
|
|

\
|

=
=
=
=
= =
=
n
Y
Y
n
X
X
n
Y X
Y X
r
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
s


Ejemplo: Considere el siguiente grupo de datos
en (ppb) muestra 1 arsnico (X) = 8.0, plomo
(Y) = 8.0; muestra 2 - arsnico = 6.0, plomo = 7.0;
muestra 3 - arsnico = 2.0, plomo = 7.0; y muestra
4 - arsnico = 1.0, plomo = 6.0.

Usando un rango de datos de menor a mayor de
arsnico:
muestra No. 4 3 2 1
arsnico 1.0 2.0 6.0 8.0
plomo 6.0 7.0 7.0 8.0

Convertir los datos iniciales a rangos, cualquier
unin puede ser hecha como un promedio de que
rangos que han sido asignados

Muestra No. 1 3 2 4
Rango de arsnico 1 2 3 4 (X)
Rango del plomo 1 2.5 2.5 4 (Y)

Note como 7.0 (que tiene dos observaciones de
plomo) fue convertido a un rango promedio (los
rangos 2 y 3, tienen cada uno 2.5)



Al ser el valor de r cercano a 1, existe una fuerte
relacin lineal entre estos dos contaminantes.


INDICADORES DE ESTADO O DE GESTION

Son parmetros estadsticos descriptivos que
resumen una gran cantidad de informacin,
conceptualmente miden, eficientemente, el estado
de avance o retroceso en la reduccin de
contaminantes emitidos a la atmsfera en un rea
especifica e ilustran la problemtica de Calidad del
Aire, para con ello evaluar el efecto de las
estrategias de control. De ah que se deban medir
la frecuencia y la intensidad de concentraciones
que exceden un estndar, la intensidad de las
concentraciones pico e ilustrar el impacto del
transporte de contaminantes hacia las reas
viento abajo, las cuales permitirn tener
informacin base para evaluar los posibles efectos
en salud
1.


Como Indicadores de Estado, se tienen los
siguientes:

- Primera y segunda concentracin
mxima del ao (hot spot)
- Percentiles - media centrada
- Promedio de las 30 concentraciones
mximas diarias del ao (top 30)

1
SEMAT. Ciudad de Mxico D.F
- Indicadores temporales
- Tiempo promedio de excedencias
anuales
- Promedio anual de exposicin

Primera y segunda concentracin mxima del ao

Estos indicadores se obtienen con la primera y la
segunda concentracin mxima anual registrada
en las estaciones de monitoreo con el mejor
desempeo histrico. Se recomienda este
indicador para el ozono, el monxido de carbono,
el dixido de nitrgeno, el dixido de azufre y
partculas en suspensin. Por su naturaleza
extrema no se recomienda usar mtodos para
estimar datos faltantes.


Nmero de das de excedencia anual

Este indicador se obtiene como una frecuencia de
horas o das en que una concentracin
establecida es rebasada, por lo general se asocia
a una norma de proteccin a la salud. Este
indicador permite observar cuando un rea est
cercana a lograr las normas permisibles de
contaminacin. En su obtencin se pueden usar
mtodos para estimar datos perdidos o faltantes.


Tiempo promedio anual de excedencias

Este indicador seala el tiempo promedio de
exposicin anual en exteriores a concentraciones
que exceden una norma de salud, proporcionando
una medida del impacto de un contaminante en la
salud de los habitantes.

Se usa para ozono, por ser este el contaminante
que con mayor frecuencia rebasa su norma de
salud. Supone que los individuos se exponen a
concentraciones medidas por la red de monitoreo,
de manera que no considera los patrones de
actividad diaria en microambientes, lo que puede
aumentar o disminuir la exposicin.


Promedio ponderado de exposicin anual

Este indicador representa una ponderacin de la
exposicin de los individuos de un rea con
problemas para alcanzar la norma de salud. Se
obtiene como la suma de las diferencias entre la
concentracin horaria de un contaminante y el
valor de la norma, su interpretacin conlleva a la
interpolacin de sus valores en mapas.
En caso de datos faltantes se pueden usar los
datos de las estaciones que estn en un radio de
50 km. En el caso de la exposicin poblacional, la
suma de las diferencias horarias de un ao se
multiplica por el nmero de habitantes de cada
regin. Para la exposicin de rea, la suma de las
diferencias horarias de cada regin se multiplican
por su rea (en km
2
), el resultado es una
exposicin horaria para una regin.

REPRESENTACIN GRFICA DE LOS DATOS

CONSTRUCCIN DE GRFICOS

El objetivo de este paso es identificar patrones y
tendencias en los datos que pueden ser
inadvertidos usando mtodos puramente
numricos. Las graficas pueden ser usadas para
identificar estos patrones y tendencias para una
confirmacin rpida o rechazo de la hiptesis,
para descubrir nuevos fenmenos, para identificar
problemas potenciales y para sugerir medidas
correctivas.

Adicionalmente algunas representaciones graficas
pueden ser usadas para grabar y almacenar datos
compactamente o para comunicar informacin a
otros. La representaciones graficas incluyen
exhibiciones de grupos de datos individuales,
cantidades estadsticas, datos temporales, datos
espaciales de dos o mas variables. Desde una
representacin grafica simple no se puede proveer
una imagen completa del grupo de datos, el
analista debe elegir entre diferentes tcnicas
graficas para iluminar las diferentes caractersticas
de los datos.

Como mnimo, el analista debe elegir una
representacin grafica de los puntos por datos
individualmente, y una representacin grafica de
las cantidades estadsticas. Si los datos tienen un
componente espacial o temporal, seleccione la
representacin grafica especifica de datos
temporales o espaciales en adicin a las que no lo
son. Si el grupo de datos consiste en mas de una
variable, tratar cada variable individualmente,
despus desarrollar una representacin grafica
para variables mltiples. Si el plan de muestreo o
el mtodo de anlisis sugerido es confiable y no
tiene supuestos crticos, considerar mejor un tipo
particular de grafica que de luces en la validez de
lo asumido.

Dos de los mtodos ms antiguos para sumar la
distribucin de los datos es el diagrama de
frecuencia y el histograma.

REPRESENTACIONES GRAFICAS,
HISTOGRAMAS Y PLANOS DE FRECUENCIA

Para hacer ms clara y evidente la informacin
que nos dan las tablas se utilizan los grficos , que
pueden ser :

Diagramas de barras (datos cualitativos y
cuantitativos de tipo discreto). En el eje y se
pueden representar frecuencias absolutas o
relativas.

0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8 9
Notas
F
r
e
c
u
e
n
c
i
a

A
b
s
o
l
u
t
a

Figura 2. Diagrama de Barras

Un histograma es una representacin
grfica de una distribucin de frecuencias.
Consiste en un conjunto de rectngulos que
tiene su base en el eje de las X (horizontal),
tiene sus anchos proporcionales a los
intervalos de clase, y tienen sus alturas (en
el eje Y) proporcionales a las frecuencias.
El histograma consiste en levantar sobre
cada intervalo un rectngulo cuya rea sea
igual a su frecuencia absoluta.

rea = base altura
fi = xini

Luego la altura de cada rectngulo vendr
dada por ni que se llama funcin de
densidad, Si por ejemplo un intervalo es el
doble de ancho que los dems su altura ni
debe ser la mitad de la frecuencia absoluta
y as no se puede inducir a errores .
Normalmente la amplitud de los intervalos
es constante por lo que ni ser proporcional
a fi y por tanto podemos tomar fi como la
altura ni ya que la forma del grfico ser la
misma , aunque ahora el rea del
rectngulo ya no sea exactamente la
frecuencia absoluta (a no ser que la
amplitud del intervalo sea igual a 1).


Tabla 1. Distribucin de frecuencias del promedio
diario de concentracin de anhdrido sulfuroso en
el sitio.
Intervalo de
concentracin (g
SO2/m3
Numero de
das
Frecuencia
relativa (%)
0-24 39 10,8
25-49 67 18,5
50-74 64 17,7
75-99 63 17,4
100-124 45 12,5
125-149 30 8,3
Intervalo de
concentracin (g
SO2/m3
Numero de
das
Frecuencia
relativa (%)
150-174 17 4,7
175-199 9 2,5
200-224 7 1,9
225-249 6 1,7
250-274 5 1,4
275-299 3 0,8
300-324 1 0,3
325-349 0 0
350-374 2 0,6
375-399 1 0,3
400-424 1 0,3
425-449 0 0
450-474 1 0,3
475-499 0 0

Histograma
0
10
20
30
40
50
60
70
80
0
-
2
4
5
0
-
7
4
1
0
0
-
1
2
4
1
5
0
-
1
7
4
2
0
0
-
2
2
4
2
5
0
-
2
7
4
3
0
0
-
3
2
4
3
5
0
-
3
7
4
4
0
0
-
4
2
4
4
5
0
-
4
7
4
Concentracion SO2
N
u
m
e
r
o

d
e

D
i
a
s

Figura 3.Histograma

Una curva de frecuencia es una curva
continua que se ajusta a un histograma;
preferentemente, es una curva que puede
expresar una forma matemtica simple. La
lnea punteada en la figura 4, es un ejemplo
de una curva de frecuencias. La mayora de
los conjuntos de datos de contaminacin
del aire produce histogramas y
correspondientes curvas de frecuencias
que muestran una mxima desplazada
haca la izquierda, con una larga cola a la
derecha (asimtrica a la derecha). Pueden
presentarse otras formas, pero ellas
pueden ser ms bien excepcionales.

Curva de Frecuencia
0
10
20
30
40
50
60
70
80
0
-
2
4
5
0
-
7
4
1
0
0
-
1
2
4
1
5
0
-
1
7
4
2
0
0
-
2
2
4
2
5
0
-
2
7
4
3
0
0
-
3
2
4
3
5
0
-
3
7
4
4
0
0
-
4
2
4
4
5
0
-
4
7
4
Concentracion SO2
N
u
m
e
r
o

d
e

D
i
a
s

Figura 4. Curva de Frecuencia.

Polgono de frecuencias: La frecuencia
total de los valores menores que el limite
superior de un determinado intervalo de
clase se llama la frecuencia acumulativa,
que llega hasta e incluye esa clase. La
tabla 2 representa los datos de la tabla 1
organizados en la forma de frecuencia
acumulativa, y los porcentajes que resultan
pueden ser puestos en un grfico contra los
lmites superiores de las clases escogidas
para formar un polgono de frecuencias
acumulativas, el cual muestra de un vistazo
el porcentaje de observaciones por debajo
de cualquier valor especificado.
Alternativamente, los datos pueden ser
reordenados para mostrar la proporcin de
observaciones que exceden cualquier valor
dado. Los polgonos usualmente se alisan,
como muestra el grfico, para obtener
curvas continuas que corresponden a las
curvas de frecuencias que se ajustan a los
histogramas.

Tabla 2. Distribucin de frecuencias del promedio
diario de concentracin de anhdrido sulfuroso en
el sitio
Promedio Diario (g
SO2/m3
Frecuencia
Acumulativa
Porcentaje de la
Frecuencia
Acumulativa
Menos de 25 39 10,8
Menos de 50 106 29.3
Menos de 75 170 47.0
Menos de 100 233 64.6
Menos de 125 278 76.9
Menos de 150 308 85.2
Menos de 175 325 89.9
Menos de 200 334 92.4
Menos de 225 341 94.3
Menos de 250 347 96.0
Menos de 275 352 97.4
Menos de 300 355 98.2
Menos de 325 356 98.5
Menos de 350 356 98.5
Menos de 375 358 99.1
Menos de 400 359 99.4
Menos de 425 360 99.7
Menos de 450 360 99.7
Menos de 475 361 100.0
Menos de 500 361 100.0


Curva de Frecuencias Acumulativas del Promedio Diario de
Concentraciones de Anhidrido Sulfuroso en el Sitio.
0
20
40
60
80
100
120
2
5
7
5
1
2
5
1
7
5
2
2
5
2
7
5
3
2
5
3
7
5
4
2
5
4
7
5
Concentracion SO2
F
r
e
c
u
e
n
c
i
a

A
c
u
m
u
l
a
t
i
v
a
%

Figura 5. Curva de frecuencias acumulativas.

Tanto el histograma como el diagrama de
frecuencias usan los mismos principios bsicos
para representar los datos: Dividen el rango de
datos en unidades, contando el numero de puntos
con las unidades, y exhibiendo los datos como el
alto o rea con una barra grafica. Estos tienen
sutiles diferencias, en el diagrama de frecuencia,
la altura relativa de las barras representa la
densidad relativa de los datos. En un histograma
el rea con las barras representa la densidad
relativa de los datos. La diferencia entre los dos
diagramas llega a ser ms distinta cuando son
usadas cajas de tamaos diferentes.

El histograma y el diagrama de frecuencias provee
una forma de interpretar la simetra y variabilidad
de los datos. Si los datos son simtricos, entonces
la estructura de esos diagramas puede ser
simtrica alrededor de un punto central como la
media. El histograma y los diagramas de
frecuencia indican generalmente si los datos son
agrupados y la direccin de ese agrupamiento.

Instrucciones para generar un histograma y un
diagrama de frecuencias

Si X1, X2,.....Xn representan n nmero de datos.
Para generar un histograma o un diagrama de
frecuencia, proceda de la siguiente manera:

Paso 1: Seleccione intervalos que cubran el rango
de las observaciones. Si es posible, estos
intervalos pueden tener igual ancho. Una regla es
tener de 7 a 11 intervalos. Si es necesario
especifique una convencin para el punto final.

Paso 2: Compute el numero de observaciones con
cada intervalo. Para un diagrama de frecuencias
con igual tamao de intervalos el nmero de
observaciones representa la altura de las cajas en
el diagrama de frecuencias.

Paso 3: determinar el eje horizontal basado en el
rango de los datos. El eje vertical para un
diagrama de frecuencias es el nmero de
observaciones. El eje vertical del histograma es
basado en porcentajes.

Paso 4: Para un histograma calcule el porcentaje
de observaciones con cada intervalo por la
divisin del numero de observaciones con cada
intervalo (paso 3) por el numero total de
observaciones.

Paso 5: Para un histograma, seleccione una
unidad comn que corresponda al eje x. Calcule el
numero de unidades comunes en cada intervalo y
divida el porcentaje de observaciones con cada
intervalo (paso 4) por este numero. Este paso es
necesario solamente cuando los intervalos no son
de igual ancho.

Paso 6: Usando cajas, el diagrama de intervalos
contra los resultados del paso 5 por un histograma
o el intervalo contra el numero de observaciones
en un intervalo (paso 2) para un plano de
frecuencias.


Ejemplos de generacin de histogramas y
diagramas de frecuencia

Considere los siguientes 22 muestras de
concentracin de contaminantes en ppm: 17.7,
17.4, 22.8, 35.5, 28.6, 17.2 19.1, <4, 7.2, <4, 15.2,
14.7, 14.9, 10.9, 12.4, 12.4, 11.6, 14.7, 10.2, 5.2,
16.5, y 8.9.

Paso 1: estos datos estn entre 0 - 40 ppm. Son
usados intervalos de tamaos iguales de 5ppm. La
convencin del punto final es que los valores son
ubicados en el intervalo mas alto que contiene los
valores. Un valor de 5ppm puede ser ubicado en
el intervalo de 5 10 ppm en vez de 0 5 ppm

Paso 2 : La tabla muestra el nmero de
observaciones con cada intervalo definido en el
paso 1.

Intervalo
Numero de
observacione
s
en el
intervalo
% de
Observaciones
en el Intervalo
% de
Observacione
s por ppm
0-5ppm 2 9,1 1,8
5-10ppm 3 13,6 2,7
10-15ppm 8 36,36 7,3
15-20ppm 6 27,27 5,5
20-25ppm 1 4,55 0,9
25-30ppm 1 4,55 0,9
30-35ppm 0 0 0
35-40ppm 1 4,55 0,9
Tabla 3. Numero de Observaciones.

Paso 3 : El eje horizontal para los datos es de 0
40ppm. El eje vertical para el diagrama de
frecuencias es de 0 10 y el eje vertical para el
histograma es de 0 10%

Paso 4: Estas son 22 observaciones en total y el
numero de observaciones muestra en la tabla
como esta dividida por 22. El resultado es
mostrado en la columna 3 de la tabla.

Paso 5: La unidad comn para estos datos es
1ppm. En cada intervalo hay 5 unidades comunes
del porcentaje de las observaciones (columna 3 de
la tabla 3) puede ser dividida por 5 (columna 4)

Paso 6: El diagrama de frecuencias esta en la
figura 6 y el histograma esta mostrado en la figura
7.

Figura 6.Ejemplo de diagramas de Frecuencia.

Figura 7.Ejemplo de un Histograma.

DIAGRAMA DE LA PROBABILIDAD NORMAL.
(DIAGRAMA DEL QUANTILE-QUANTILE)

hay dos tipos de diagramas Cuantile-Cuantile o
diagramas q-q. El primer tipo, un diagrama
emprico cuantile-cuantile, implica trazar los
Cuantiles de dos variables de los datos una contra
la otra. El segundo tipo de un diagrama Cuantile-
Cuantile, un diagrama terico Cuantile-quantile
implica el representar los Cuantiles grficamente
de un sistema de datos contra los Cuantiles de
una distribucin especfica. La discusin siguiente
se centrar en el ms comn de estos diagramas
para los datos ambientales, el diagrama de la
probabilidad normal (el diagrama normal q-q); sin
embargo, la discusin se mantiene para otros
diagramas q-q. Se utiliza el diagrama de la
probabilidad normal aproximadamente para
determinar si los datos del sistema estn bien
modelados por una distribucin normal. Las
direcciones para desarrollar un diagrama de la
probabilidad normal se muestra en el cuadro 1 y
un ejemplo se muestra en el cuadro 2.

Un diagrama de la probabilidad normal es el
grfico de los Cuantiles de un sistema de datos
contra los Cuantiles de la distribucin normal
usando el papel de grfico de la probabilidad
normal (figura 8). Si el grfico es lineal, los datos
pueden ser normalmente distribuidos. Si el grfico
no es lineal, las salidas de linealidades dan la
informacin importante sobre cmo la distribucin
de los datos se desva desde una distribucin
normal.

Si el grfico del diagrama de la probabilidad
normal no es lineal, el grfico se puede utilizar
para determinar el grado de simetra (o de
asimetra) mostrado por los datos. Si caen los
datos de la cola superior y los datos en la cola
ms baja caen debajo de la lnea cuartil, los datos
son demasiado delgados para ser bien modelados
por una distribucin normal, es decir, hay pocos
valores en las colas del sistema de datos del que
se espera de una distribucin normal. Si caen los
datos en la cola superior y los datos en la cola
ms baja caen sobre la lnea cuartil, entonces las
colas de los datos son demasiado pesadas ser
bien modeladas usando una distribucin normal,
es decir, hay ms valores en las colas de los datos
del que se espera de una distribucin normal. Un
diagrama de la probabilidad normal se puede
utilizar para identificar afloramientos potenciales.
Un valor de los datos (o algunos valores de los
datos) mucho ms grandes o mucho ms
pequeos que el resto har que los otros valores
de los datos se compriman en el centro del
grfico, arruinando la resolucin.

Instrucciones para construir un diagrama
de probabilidad normal

Dejar X
1
, X
2
...., Xn representan los n puntos
de referencia.

PASO 1: Para cada valor de los datos,
compute la frecuencia absoluta, AF
i
. La
frecuencia absoluta es el nmero de tiempos
que le ocurre a cada valor. Para valores
distintos, la frecuencia absoluta es 1. Para
las observaciones no-distintas, cuente el
nmero de tiempos que ocurre en una
observacin. Por ejemplo, considere los
datos 1, 2, 3, 3. La frecuencia absoluta del
valor 1 es 1
y la frecuencia absoluta del valor 2 es 1. La
frecuencia absoluta del valor 3 es 2 puesto
que aparece 3 2 veces en el sistema de
datos.

PASO 2: Compute las frecuencias
acumulativas, CFi. La frecuencia acumulativa
es el nmero de los puntos de referencia que
son menores o iguales a XI, es decir,

=
=
i
j
j
AF CF
1
usando los datos dados en el
paso 2, la frecuencia acumulativa para el
valor 1 es 1, la frecuencia acumulativa para
el valor 2 es 2 (1+1), y la frecuencia
acumulativa para el valor 3 es 4 (1+1+2).

PASO 3: Compute y trace los pares (Yi, XI)
usando el papel de probabilidad normal
(figura 8). Si el grfico de estos pares forma
aproximadamente una lnea recta, entonces
los datos son probablemente normalmente
distribuidos. Si no, los datos no pueden ser
distribuidos normalmente.



Ejemplo del diagrama de probabilidad normal

considere los siguientes 15 puntos de referencia:
5, 5, 6, 6, 8, 8, 9, 10, 10, 10, 10, 10, 12, 14, y 15.

PASO 1: Debido a que el valor 5 aparece 2 veces,
su frecuencia absoluta es 2. Igualmente, la
frecuencia absoluta de 6 es 2, de 8 es 2, de 9 es
1, de 10 es 5, etc. Estos valores se demuestran en
la segunda columna de la tabla de abajo.

PASO 2: La frecuencia acumulativa del dato 8 es
6 porque hay 2 valores de 5, 2 valores de 6, y 2
valores de 8. Las frecuencias acumulativas se
demuestran en la 3ra columna de la tabla.

PASO 3: Compute
) 1 (
* 100
+
=
n
CF
Y
i
i
y trace
los pares (Yi, XI) usando el papel de probabilidad
normal (figura 8). Si el grfico de estos pares
forma aproximadamente una lnea recta, entonces
los datos son probablemente normalmente
distribuidos. Si no, los datos no pueden ser
distribuidos normalmente.



Figura 8. Figura de papel de probabilidad normal

DISTRIBUCIN DE PROBABILIDAD

LA DISTRIBUCIN NORMAL

Los datos, especialmente medidos, ocurren en los
patrones naturales que se pueden considerar para
ser una distribucin de valores. En la mayora de
los casos los valores de los datos sern
agrupados alrededor de una cierta medida de
tendencia del control tal como la media o mediana
. La extensin de los datos (segn lo determinado
por la suma de las distancias de los cuadrados
del punto de referencias de la mediana) se llama
varianza (la raz cuadrada de esto se llama la
desviacin estndar). Una distribucin con una
varianza grande ser separada hacia fuera que
una con una varianza pequea (Figura 9).
Cuando los valores de los datos bajan en un
patrn sistemtico alrededor de la media y
despus disminuyen rpidamente a las colas, es a
menudo una distribucin normal o una curva en
forma de campana.



Figura 9.la distribucin normal


Figura 10.curva normal estndar (z-curva).

Las caractersticas de una distribucin normal son
bien conocidas matemticamente y tambin
cuando estn referidas, se escriben generalmente
como "Dato distribuido N (,
2
) donde la primera
caracterstica es la media () y el segundo la
varianza (
2
). Se puede mostrar que cualquier
distribucin normal se puede transformar a una
distribucin normal estndar, N(0,1), y esta normal
estndar designada simplemente Z (Figura 10). Es
frecuentemente necesario referir a los porcentajes
de una normal estndar y en este documento, el
subndice para un valor z denotar el porcentaje
(o el rea bajo la curva, acumulativa de la
izquierda), vase figura 10.

RESMENES GEOGRFICOS

La determinacin del perfil de distribucin de la
contaminacin del aire sobre un rea es tan
importante como la medicin de la contaminacin
misma. Los cuadros, tablas y grficos a que se ha
hecho referencia en las secciones, precedentes
tienen principalmente relacin con variaciones
temporales y no hacen que se visualice el perfil
espacial de la distribucin de la contaminacin del
aire. El perfil espacial es conveniente para:

1.) Obtener una perspectiva visual de las
variaciones en el espacio de la calidad del aire y
establecer patrones de niveles de exposicin
humana.

2.) Juzgar las tendencias de la calidad del aire en
relacin con el crecimiento de la poblacin
3.) Apreciar la relacin entre la configuracin de
las fuentes, de contaminacin del aire. Las
variaciones meteorolgicas, y los niveles ya sean
medidos o computados, de contaminacin del aire.

Uno de los procedimientos ms ampliamente
usados para representar perfiles espaciales de
concentraciones de contaminacin del aire son los
mapas de isopletas (una isopleta es una lnea que
une los puntos de igual concentracin de
contaminacin del aire). Para desarrollar un mapa;
de isopletas. una red de estaciones de vigilancia
del aire debe cubrir adecuadamente el rea de
inters para el estudio, Para contaminantes
primarios, tales como el dixido de azufre, el
monxido de carbono y las partculas en
suspensin para los cuales las llamadas reas
representativas son bastante pequeas para cada
estacin de vigilancia, es posible que se requiera
de un nmero relativamente grande de estaciones,
para tener una mayor cobertura de la regin
evaluada. Otros factores a ser tomados en
consideracin son: las condiciones geogrficas del
rea en estudio, las caractersticas no comunes
que pueda tener el sitio y el tener completos los
datos.
Cuando hay datos disponibles en varios sitios el
primer paso a darse al levantar un mapa isopltico
es colocar en el mapa la ubicacin de las
estaciones y las correspondientes
concentraciones de contaminantes expresadas
como media aritmtica (promedio) media
geomtrica (promedio geomtrico), 95mo percentil
o valores mximos.
Al dibujar mapas isoplticos, varios factores
geogrficos o meteorolgicos pueden ser de
importancia. Se presentan dos tipos de
situaciones. La primera es el procedimiento de
dibujar paso a paso tales mapas cuando slo se
utilizan concentraciones de contaminacin del aire
y sitios de vigilancia. La segunda ocurre, cuando
en el procedimiento para dibujar paso a paso un
mapa isopltico se consideran accidentes
geogrficos (en este caso montaas) junto con los
sitios de vigilancia y las concentraciones de
contaminacin del aire. En el primer caso y
comenzando desde el punto que muestra el valor
ms alto se trazan lneas entre ese punto y los
puntos que quedan cerca de l .Luego
conviniendo la cifra entera ms prxima al valor
ms alto, determinado, se marca el punto que
representa ese valor, por interpolacin, en cada
una de las lneas de interconexin ya trazadas.
(Aunque no existe una regla estricta acerca de
esto, es costumbre tomar estos valores de diez en
diez ug/m
3
. Por ejemplo si el primer contorno
corresponde a 50 ug/m
3
, el segundo contorno en
la figura se conviene que es 40 ug/m
3
). El prximo
paso es unir todos los puntos marcados con el
mismo valor. Cuando se unen todos los puntos
que llevan una misma cifra, se obtiene una
isopleta elptica. De un modo similar otros valores
se marcan en el mapa y se trazan lneas de
contorno por ellos.
Cuando se tiene tambin en consideracin una
caracterstica geogrfica el mapa isopltico puede
tomar una apariencia muy diferente de la que se
ha descrito arriba. Bsicamente, el proceso de
dibujar tal mapa es el mismo que se ha reseado
anteriormente, pero por el hecho de asumirse que
una masa de aire contaminado en un lado de la
montaa no se mezcla con aquella que se genera
en el otro lado, se trazan lneas de contorno
separadas para cada uno de los dos valles.

SERIES CRONOLGICAS
Una serie cronolgica es un conjunto de
observaciones tomadas en tiempos especificados,
usualmente a intervalos iguales. Las mediciones
continuas, as como ciertos esquemas de
mediciones "intermitentes de contaminacin del
aire, casan con esa definicin. Tal como se ha
explicado previamente, las series cronolgicas,
cuando son graficadas apropiadamente, son muy
tiles para detectar posibles anomalas en el
conjunto de datos, para comparar fluctuaciones de
contaminantes diferentes medidos en el mismo
sitio, y para individualizar mediciones o perodos
de mediciones que requieran de especial atencin
y/o de mayores anlisis.
Las series cronolgicas aplicadas a conjuntos de
datos de contaminacin del aire pueden dividirse
en dos categoras principales: ciclos y tendencias.
Los ciclos producidos ms comnmente en la
contaminacin del aire son: diurnos, semanales y
de pocas (invierno o verano). En las regiones
templadas, por ejemplo, son comunes los ciclos
que se refieren al S02 como consecuencias de los
perodos de uso o no uso de la calefaccin. Las
tendencias en reas urbanas, o al "movimiento"
que se advierte se producen a largo plazo, se
refieren a la direccin general que parece que las
series cronolgicas estn siguiendo durante largos
intervalos de tiempo. En la prctica, se considera
que estos largos perodos sean de 5 aos por lo
menos en lo que respecta a datos de la
contaminacin del aire.
Los ciclos diurnos son causados por una
combinacin de la influencia de los factores
meteorolgicos y de los cambios en las emisiones
que ocasionan la contaminacin del aire. Estas
ltimas se deben mayormente a la actividad
humana. Los ciclos diurnos pueden analizarse
sobre bases individuales por ejemplo, el ciclo
diurno que resulta de la actividad de uno o ms
contaminantes en un da especfico sobre bases
estadsticas como promedios de todas las
observaciones tomadas a la misma hora del da
durante un perodo de tiempo ms largo.
A menudo es muy til cuando se analiza ciclos,
graficar factores meteorolgicos especficos o
datos sobre emisiones que contribuyen a la
contaminacin del aire, en la misma escala de
tiempo usada para las concentraciones de la
contaminacin. Por ejemplo, la inversin de la
temperatura diaria graficada.

La primera consideracin a tenerse en cuenta
para determinar si existe o se manifiesta una
tendencia en los valores de las mediciones de
calidad del aire es seleccionar el parmetro o
parmetros de inters. Algunos parmetros de
utilidad son, por ejemplo: el promedio anual y
ciertos percentilos particularizados como los
percentilos 50mo y 90mo Tambin puede ser de
inters el porcentaje de observaciones que
exceden una norma determinada.
El marco de tiempo de los datos bajo
consideracin puede afectar seriamente la
observacin que se hace de la tendencia
dominante. Por ejemplo, si las concentraciones
decrecen abruptamente en los cuatro aos que
corren entre 1960 y 1963, pero permanecen
estables en los ocho aos que van de 1964 a
1971, la tendencia en el periodo de 12 aos de
1960 a 1971 se inclinara probablemente hacia
abajo, mientras que la tendencia de los 8 aos
1964 1971 indicara cambio alguno. En
consecuencia, la clasificacin de las tendencias
depende claramente del marco temporal en el que
se consideren.
El marco temporal para fines de evaluacin debe
ser seleccionado de una manera objetiva. La
disponibilidad de los datos es usualmente el factor
determinante, pero el intervalo puede
preseleccionarse teniendo como base el
conocimiento del perfil que toman las emisiones.
Es til, a menudo, efectuar la evaluacin de la
tendencia sobre diferentes intervalos de tiempo
Con el fin de obtener una descripcin ms
completa de la disposicin global, y evitar as los
problemas antes mencionados.
Cuando se efecta un anlisis de tendencias, es
muy ventajoso ver los datos volcados en forma
grfica. El hecho de graficar las estadsticas
trimestrales o anuales sobre un perodo de tiempo
ms o menos largo, es usualmente suficiente para
tener una idea somera de la forma bsica que
toman los datos, e intuitivamente la tendencia qu
configuran puede entonces aparecer con claridad.
Para facilitar la interpretacin del perfil
predominante, conviene determinar una cierta
lnea de tendencia objetiva para los datos. Esto se
puede obtener por medio del clculo del promedio
mvil de las observaciones, lo cual permitir, as
mismo, una representacin ms simple y ms
suave, con menos altibajos, de los datos
originales. El promedio mvil se obtiene
calculando una serie de promedios aritmticos,
recurriendo para ello al uso de un pequeo
nmero de valores consecutivos en una serie
cronolgica. El clculo de estos promedios
aritmticos se realiza desechando cada vez el
primer valor, y aadiendo en la misma vez el valor
prximo que se da en la serie cronolgica. Para
estimaciones trimestrales, el clculo de un
promedio mvil anual que consista de cuatro
estimaciones trimestrales eliminar las
fluctuaciones estacionales y har desaparecer, as
mismo, las variaciones al azar que pudieran
existir. Cuando se considera estimaciones anuales
sobre perodos de varios aos, un promedio mvil
de tres aos (promedio mvil de los promedios
anuales) habr de suavizar mucho la variacin
que se produce de ao a ao.

Parece natural suponer que la opinin personal de
los que intervienen en este proceso de estudio y
anlisis de las mediciones efectuadas pudiera
llevar a una distorsin sobre la magnitud de las
tendencias. Para evitar hasta donde sea posible
que esto ocurra, se recomienda seguir una tcnica
cuantificable cuando se tenga que hacer un juicio
estrictamente cualitativo. Una de estas tcnicas
que utiliza el anlisis de correlacin de rangos de
Spearman es la prueba de Daniel para tendencias
en las que se hace uso del coeficiente de
Spearman de correlacin de rangos. Condicin
para utilizar este procedimiento es la de tener
disponibilidad por lo menos de 4 periodos de
tiempo.

LIMITACIONES DE LOS CONJUNTOS
INCOMPLETOS DE DATOS.

El que un conjunto de datos de calidad del aire
sea incompleto puede ser el resultado de
fenmenos muy diferentes. Primero, un conjunto
de datos puede ser incompleto debido al mal
funcionamiento de la red de vigilancia, lo cual
puede dar como resultado que algunos datos se
pierdan. Si esto acontece sistemticamente (por
ejemplo, durante los fines de semana), o sobre
extensos periodos de tiempo, la interpretacin de
los datos requiere de especial cuidado. De otro
lado, si los vacos existentes en el conjunto de
datos ocurren al azar, puede aplicarse sin temor la
mayora de tcnicas estadsticas. El mismo
principio tiene validez cuando los vacos en el
conjunto de datos son intencionales verbigracia,
una red puede programarse para determinar un
promedio diario de cada 5 das. Si se va a
computar promedios anuales, el nmero de
mediciones en cada trimestre del ao deber ser
sensiblemente igual.

Una regla prctica puede ser asumir que una
muestra se equilibra adecuadamente si cada
trimestre del calendario contiene por lo menos el
20% del nmero total de observaciones. Los
perfiles estacinales que existen para ciertos
contaminantes muestra por que la adopcin de
esta regla esencial.

Muchos investigadores han tratado de enfrentar el
problema de los conjuntos incompletos de datos
adoptando un punto de vista pragmtico. En
cualquier enfoque estadstico que se escoja, es
esencial tener un conocimiento acusado de la
leyes de distribucin de poblacin.

Se hace claro que la precisin de los indicadores
estadsticos calculados (la media aritmtica o
promedio, la media geomtrica, la desviacin
estndar, etc.) habr de decrecer si la frecuencia
del muestreo decrece y si se incrementa la
variabilidad de la poblacin de la cual se toman las
muestras. Si se toman muestras de 24 horas cada
dos das, la desviacin que se produce, con
relacin al promedio anual obtenido si las
muestras se toman diariamente, es, en la
prctica, frecuentemente menor que +/- 2%. En
forma similar, si se toman las muestras cada doce
das, la desviacin con respecto al promedio anual
es +/- 5%.

Es claro que el control de las normas de calidad
del aire establecidas en la legislacin ambiental,
valores que se han establecido como nivles que
no se deben sobrepasar por sus efectos marcados
en la salud de la poblacin expuesta, puede
ocasionar problemas en la prctica. Por ejemplo
cuando se trabaja con valores incompletos de
datos de calidad del aire, las concentraciones
mximas, son generalmente subestimadas. Pese
a lo anterior, existen dos posibles soluciones para
el problema de los datos incompletos.

incrementar el nmero de mediciones del
parmetro en estudio
usar ecuaciones matemticas para estimar
los valores mximos deducidos de los datos
proporcionados.

EL ANLISIS COMO UNA FUNCIN DE LAS
CONDICIONES METEOROLGICAS
La interpretacin de las mediciones hechas para
cuantificar la contaminacin del aire requiere que
se tenga informacin sobre las caractersticas de
la atmsfera. Para este propsito se utilizan
comnmente datos referentes a condiciones
meteorolgicas y climatolgicas. La asesora
tcnica y el apoy que preste el servicio nacional
del tiempo o un instituto nacional de meteorologa
es muy conveniente si no esencial en la mayora
de los casos.
El anlisis real de los datos de la contaminacin
del aire como una funcin de uno o ms
parmetros meteorolgicos es posible de hacerse
en muy diferentes niveles. Se ha mencionado ya
que el anlisis de las mediciones individuales de
contaminacin del aire como funcin de un
conjunto de parmetros meteorolgicos medidos
simultneamente no slo es interesante sino de
apreciable utilidad. Por ejemplo, la graficacin de
la serie cronolgica de datos meteorolgicos y de
contaminacin del aire puede ilustrar ciertas
relaciones funcionales o estadsticas. Los
antecedentes fsicos en que se basa lo anterior
son a menudo, bastante complicados debido al
hecho de que la mayora de los fenmenos son el
resultado de una combinacin de la emisin de
contaminantes y de las condiciones
meteorolgicas prevalentes factores estos que se
influencian uno a otro simultneamente. Las
tcnicas de anlisis de correlacin y regresin son
tiles para confirmar estas relaciones. Si se
combinan los datos meteorolgicos y los de
contaminacin del aire en una llamada rosa de
contaminacin atmosfrica", se est utilizando una
tcnica de "deteccin e identificacin de fuentes"
que es de bastante uso y aplicacin.
Se obtiene una "rosa de contaminacin
atmosfrica" para un sitio contaminante y perodo
especfico, mediante el ordenamiento y
agrupamiento de mediciones de contaminacin del
aire de acuerdo a la direccin promedio del que
ocurra durante las mediciones. Cuando esto se
hace sobre un perodo tiempo (por ejemplo, un
ao) cada clase de direccin del viento tiene un
nmero suficiente de valores de concentracin
para justificar el arranque de un anlisis
estadstico. Para cada clase, se determina la
distribucin de frecuencias acumulativas, los
valores extremos, los promedios y las
desviaciones estndar. Ciertos parmetros
estadsticos especficos (por ejemplo, el promedio
aritmtico, y el nmero de percentilos que se
necesiten para anlisis o interpretaciones
adicionales) son registrados bajo la forma de un
cuadro como una funcin de las clases de
direccin del viento.
La tabla 4 ilustra lo anterior para un conjunto de
promedios de S02 de media hora, medidos sobre
el perodo de un ao. No se han incluido en este
anlisis los datos de contaminacin del aire que
corresponden a velocidades de viento demasiado
lentas para que puedan definir una direccin del
viento claramente configurada. La velocidad y la
direccin del viento se midieron a uno 15 metros
sobre el nivel del terreno, en el sitio de vigilancia
para S02. Se determinaron las clases de direccin
del viento con 10 de angularidad.

Tabla 4.Contaminacin por anhdrido sulfuroso en
mol, como una funcin de la direccin del viento.
D
i
r
e
c
c
i

n

d
e
l

v
i
e
n
t
o

N
u
m
e
r
o

d
e

M
u
e
s
t
r
a
s

5
0
m
o

P
e
r
c
e
n
t
i
l
o

(

g
/
m
3
)

M
e
d
i
a

a
r
i
t
m

t
i
c
a

(

g
/
m
3
)

9
5
m
o

p
e
r
c
e
n
t
i
l
o

(

g
/
m
3
)

10 204 13 28 107
20 156 13 41 163
30 219 13 40 168
40 215 13 33 125
50 228 30 48 164
60 486 58 84 241
70 245 124 161 428
80 221 93 126 328
90 314 63 78 190
100 230 67 80 200
110 200 71 81 182
120 195 40 58 164
130 149 31 40 132
140 146 25 30 82
150 278 13 31 69
160 280 13 24 60
170 303 13 19 44
180 369 13 22 66
190 387 13 22 74
200 520 13 25 70
210 598 28 40 118
220 786 81 109 298
230 708 53 74 233
240 665 30 40 105
250 466 26 33 82
260 364 33 39 89
270 412 25 31 77
280 237 13 30 71
290 139 13 28 87
300 192 13 27 87
310 100 13 20 67
320 156 13 22 72
330 265 13 22 66
340 305 13 19 46
350 226 13 19 59
360 269 13 23 72
Aunque la tabla 4 muestra que existen dos
direcciones diferentes (70 y 220) que llevan
importante contaminacin por S02 hacia el sitio de
vigilancia, los datos se hacen mucho ms claros
cuando son graficados, como se ilustra en la
Figura 11. Para cada uno de los parmetros
estadsticos seleccionados (x50, mx, x95) los
valores se grafican como una funcin de la
direccin del viento, de la misma manera que se
hace para las rosas de los vientos (valores de
contaminacin del aire en la direccin en que
viene el viento). Esto explica el trmino "rosa de
contaminacin atmosfrica", y la importancia de
ligar la contaminacin por SO2 con las diferentes
direcciones del viento se hace obvia. Una rosa de
los vientos normal, basada en los valores
numricos dados en la segunda columna de la
tabla 4 completa la imagen. Esta informacin se
requiere para interpretaciones posteriores desde
que ella muestra la frecuencia con que ocurren las
diferentes direcciones de los vientos. Revela as
mismo la relativa importancia de los niveles de
concentracin que se da en las rosas de
contaminacin. Por ejemplo si aparece un gran
mximo que viene de una direccin que no ocurre
frecuentemente esto se considera como que tiene
menos importancia que si el mismo mximo
viniera de la direccin ,dominante del viento.

Antes de utilizar la tcnica de la rosa de
contaminacin atmosfrica uno debe estar seguro
de que los datos de direccin de viento son
representativos para el sitio o sitios de vigilancia
de la contaminacin del aire. Es posible que
dependiendo de la complejidad topogrfica y de la
extensin de la regin donde se ejerce la
vigilancia, se pueda necesitar uno o ms sitios en
los que se instalen instrumentos meteorolgicos.
Debe tambin prestarse atencin a las
condiciones meteorolgicas locales tal como la
frecuente ocurrencia, esto, sin embargo, no afecta
el porcentaje de cambio.


Figura 11. Rosas de contaminacin por anhdrido
sulfuroso para los niveles del 50mo percentilo
(mediana), la media aritmtica, y el 95mo
percentilo.


CARTAS DE CONTROL

CONTROL ESTADSTICO DE PROCESOS E
INFORMACIN.

El control de calidad consiste en medir las
caractersticas de calidad del un producto
compararlas con las especificaciones o requisitos
y, cuando existe discrepancia, realizar las
correcciones necesarias.

Se considera como proceso como la combinacin
de mquinas, materiales, mtodos, personal,
entorno y mantenimiento, que intervienen en la
produccin de informacin. Este proceso se
caracteriza por cierto grado de variabilidad que no
es posible eliminar. Dentro del concepto general
de variabilidad, se conoce como variacin natural
a la producida por innumerables pequeas causas
no asignables, comunes o aleatorias, que son
ligeras y que no pueden considerarse
individualmente como razn nica de la
desviacin. Pero existen variaciones denominadas
accidentales producidas por causas asignables o
atribuibles, que pueden investigarse para obtener
la razn que la produce.

El control del proceso empieza con la
comprensin de su variabilidad. Pretende
encontrar las causas atribuibles para tomar las
acciones correctivas pertinentes y determinar la
variabilidad de las causas aleatorias.

De acuerdo al tipo de variable se distinguen dos
tipos: uno basado en variables cualitativas,
denominada control de atributos y la segunda que
trabaja sobre variables cuantitativas, llamada de
variables. Esta ltima se soporta sobre las
mediciones precisas de dimensiones o
magnitudes. Permite adicionalmente, vigilar y
cuantificar por separado la tendencia de los
valores y su dispersin.

Para el anlisis se aplican varias herramientas
estadsticas dentro de las que se destacan los
histogramas de frecuencia, grficos de control,
lmites de tolerancia entre otros.

Diagrama de control.

Los diagrama de control es una tcnica de control
de procesos en lnea para la correccin
preventiva y para evaluar parmetros del proceso
y partir de esta informacin para evaluar la
capacidad del proceso. Estos han sido usados en
el control de la produccin en la industria a nivel
de control preventivo. Evitan ajustes innecesarios
a procesos debido a procesos derivados de
variaciones supuestamente anormales.

Es una representacin grfica de una
caracterstica de calidad, medida o calculada en
funcin del nmero de muestras o en funcin del
tiempo. El grfico tiene una lnea central que
representa el valor medio de la caracterstica de
calidad bajo control. En la parte superior aparece
una lnea llamada lnea superior de control (LSC) y
la parte inferior (LIC) aparece otra lnea llamada
lnea inferior de control. Se escoge estos lmites
de tal manera que si el proceso est bajo control
casi todos los puntos se encuentren en esta franja.
Mientras las observaciones se encuentren dentro
de los lmites, el proceso se encuentra controlado.
Sin embargo si un punto est por fuera de la franja
se dice que el sistema est fuera de control. Aun
si todos los puntos se encuentran dentro de la
franja, pero se comportan de manera sistemtica o
no aleatoria, esto indica que el proceso est fuera
de control.

Esencialmente un diagrama de control es un
contraste de hiptesis, donde se considera como
hiptesis nula H0 que el proceso est bajo control
estadstico. La hiptesis alternativa, H1, ser que
se encuentra fuera de control. El hecho de que un
punto se encuentre dentro se acepta la hiptesis
nula. En el caso que se encuentre por fuera se
acepta la hiptesis alternativa.

En el diseo de la grfica de un diagrama de
control son factores importantes la seleccin de
los lmites de control, la seleccin del tamao de la
muestra y la frecuencia de muestreo. En el caso
de las series de datos tomar la totalidad de los
datos para establecer el valor de tendencia
central. Respecto a las caractersticas de calidad,
es de prctica normalizada en los Estados Unidos
determinar los lmites de control como un mltiplo
de la desviacin estndar, casi siempre 3 sigmas.
En Europa se usan los lmites de control en
funcin de la probabilidad con el nivel de
probabilidad estndar de 0.001.

Modelos de grficos de control.

Modelo de Shewart:
Sea T un estadstico muestral que mide algunas
caractersticas de la calidad, supngase que la
media de T es T, y su desviacin estndar es T.
Entonces la linea central y los lmites superior
(LSC) e inferior (LIC) del grfico de control son:

LSC
T
k
T
Linea central
T
LIC
T
k
T

Donde k es la distancia entre los lmites de control
y la lnea central que representa la media. La
condicin bsica de este modelo es que parte que
la distribucin de frecuencia de las observaciones
es normal.

LIC
T
k
T
Linea central
T
LSC
T
k
T

You might also like