Métodos

Informe Tarea
Johan Steven Aparicio Arce

Diego Fernando Soto Sarria
AJUSTE DE UN MODELO DE REGRESION LINEAL PARA
LOS DATOS DEL SISTEMA DE VIGILANCIA DE LA
CALIDAD DEL AIRE
Grupo 01
Profesor: Javier Olaya
19 de mayo de 2017
1. Introduccion
En muchas ciudades se ha visto la necesidad de monitorear las partculas de P M2,5 y
P M10 disueltas en el aire, pues segun estimaciones de 2012, la contaminacion atmosferica en
las ciudades y zonas rurales de todo el mundo provoca cada ano 3 millones de defunciones
prematuras; esta mortalidad se debe a la exposicion a estas pequenas partculas que pueden
causar cardiopatas, neumopatas y cancer. Por otro lado algunos estudios internacionales han
demostrado que las partculas mas finas tienen una mayor asociacion de con los indicadores
de mortalidad y morbilidad de la poblacion, pues son mas faciles de inhalar. La fraccion
P M2,5/P M10 son usadas en estudios de salud publica y en la determinacion de la efectividad
de diversas medidas para mejorar la calidad del aire. Por tal motivo vemos la necesidad
de la construir un modelo que permita estimar esta relacion o fraccion para poder predecir
concentraciones de P M2,5 de la ciudad.
2. Descripcion de las variables de interes

Los datos corresponden a las mediciones simultaneas a lo largo de una semana en la
estacion Compartir del sistema de vigilancia de la calidad del aire de Cali.
P M2,5 : Es una concentracion masica de partculas suspendidas en el aire, de un tamano

inferior a 2.5 micras, en g de partculas /m3 de aire.
P M10 : Es una concentracion masica de partculas suspendidas en el aire, de un tamano

mayor a 2.5 micras e inferior a 10 micras, en en g de partculas /m3 de aire.
3. Distribucion del P M2,5 y P M10

La variabilidad de los datos de P M10 y P M2,5 , tomados por separado, esta relacionada
con la actividad de las fuentes antropicas, tanto industriales como moviles, as como de la
variabilidad meteorologica. La relacion entre los parametros, no obstante, podra emplear-
se para evaluar la posibilidad predecir las concentraciones de P M2,5 a partir de los datos
existentes de P M10 [4]. Para lo cual veremos inicialmente el comportamiento de estas dos
variables de interes.
1
Figura 1. Distribucion del PM 2.5 Y el PM 10
120

150
90

100
g/m3
g/m3

60

30
50
0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4
PM2.5 PM10
Vemos entonces que el Material Particulado P M10 presenta 4 puntos alejados del resto,
sin embargo tan solo dos, superan la norma de 100/mg 3 (Segun lo establecido en el Articulo
Segundo de la Resolucion 610 de 2010 del Ministerio de Ambiente que modifico la Resolucion
601 de 2006), al igual que en el caso del P M2,5 tres puntos se encuentran por encima del
tercer cuartil, de los cuales los ultimo dos superan el umbral establecido de 50/mg 3 .
3.1. Modelo de regresion

De acuerdo con lo mencionado en la Seccion 1, vemos que se tiene la necesidad de mo-
nitorear las partculas de P M2,5 , sin embargo la instalacion de estos equipos es bastante
costoso, pues se deberian de instalar en cada una de las estaciones de la ciudad, lo cual es
complicado, pues, posiblemente no se cuente con los recursos suficientes, o sea mas priori-
tario hacer inversiones en otro tipo de estudios o mediciones. Con las mediciones obtenidas
en la estacion Compartir de estos dos materiales particulados, se encontro un coeficiente de
correlacion positivo de 0.728, con lo que se ve conveniente ajustar un modelo de regresion
simple.
Tabla 1. Resumen modelo con intercepto
Coeficientes Estimacion EE Valor t Pr (> |t|)

0 -4.03 1.33 -3.04 0.00272
1 0.43 0.03 14.048 <2e-16
Podemos apreciar entonces, de acuerdo con el cuadro Tabla1, que para este modelo el
0 y el 1 son significativos a un nivel de significancia de 5 %, por otro lado el ANOVA para
este modelo obtuvo de igual manera un valor p menor a 5 %(< 2,2e 16), por lo que el
modelo tambien es significativo para explicar el P M2,5 .Por otro lado el 1 , nos representa
que el g/m3 promedio del P M2,5 se incrementa en 0,43, en promedio, por cada g/m3
adicional de P M10 . Finalmente el R2 nos indica de que el 53 %de la variabilidad del P M2,5
es explicada por el modelo.
2
3.2. Modelo de regresion por el origen
Este caso, debido a que las observaciones parecen estar muy cerca al origen, pareciera
implicar que una recta sin intercesion se ajustara bien a los datos.
Tabla 2. Resumen modelo sin intercepto
Coeficiente Estimacion EE Valor t Pr (> |t|)

1 0.342 0.01234 27.7 <2e-16
Entonces el R2 en este caso nos indica de que el 81 % de variabilidad respecto al origen

(cero) es explicada por el modelo. Por otra parte el 1 es significativo, y nos representa que el
g/m3 promedio del P M2,5 se incrementa en 0,342, en promedio, por cada g/m3 adicional
de P M10 .
Figura 2. Modelo con intercepto Vs Modelo por el origen

120

^
90 PM2.5 = 4.03 + 0.4267 P M 10, R 2 = 0.53
^
PM2.5 = 0.3419 P M 10, R 2 = 0.81
PM2.5 (g/m3)
60

30

0
50 100 150
PM10 (g/m3)
3.3. Analisis de puntos influyentes

Al analizar los registros de una base de datos, pueden encontrarse valores muy inusuales
tanto en las variable de respuestas, como en las covariables (ya sean valores muy pequenos o
muy grandes), lo cual tiene una implicacion en los resultados y coeficientes de la regresion,
donde los puntos de balanceo, son un valor desacostumbrado de X, y que puede controlarse
bajo ciertas propiedades del modelo, mientras que los puntos de influencia, es un valor
influyente que tiene un impacto notable sobre los coeficientes del modelo, porque jala al
modelo de regresion en su direccion. Por tanto haremos usos de las medidas de influencias de
los coeficientes del modelo para detectar dichos puntos como lo son la Distancia de Cook,
DFBETAS, medidas de influencia sobre las predicciones como el DFFITS, medidas de
influencia sobre la precision de las estimaciones como el COVRATIO y finalmente los
Leverage como medidas de balanceo.
3
Tabla 3. Resumen medidas de influencia para el modelo con intercepto
i DF BET A(0,i) DF BET A(1,i) DF F IT Si COV RAT IOi D.COOKi hii
1 -5.93 * 6.88 * 6.94 * 0.54 * 14.82 * 0.30 *
2 -0.54 0.68 0.72 * 0.99 0.25 0.06 *
72 0.32 -0.26 0.33 * 0.95 * 0.05 0.02
82 -0.09 0.12 0.13 1.05 * 0.01 0.04 *
140 1.71 * -2.04 * -2.08 * 0.90 * 1.90 * 0.14 *
166 0.07 -0.10 -0.11 1.03 * 0.01 0.03
Con lo obtenido en la Tabla3, podemos ver que la observacion 1 y 140, son valores
bastante grandes que estan alterando todas las medidas del modelo, mientras que los demas
observaciones solo estan afectando precision de las estimaciones del P M2,5 .
Tabla 4. Resumen medidas de influencia para el modelo sin intercepto
i DF BET A(1,i) DF F IT Si COV RAT IOi D.COOKi hii

1 3.28 * 3.28 * 0.65 * 6.39 * 0.08 *
2 0.54 0.54 * 0.97 * 0.28 0.03 *
72 0.06 0.06 0.98 * 0.00 0.00
82 0.15 0.15 1.02 * 0.02 0.02 *
140 -0.79 -0.79 * 0.98 0.58 * 0.05 *
166 -0.04 -0.04 1.02 * 0.00 0.02
Ahora bien para el analisis de puntos influyentes del modelo sin intercepto, a comparacion
con la Tabla4, las seis observaciones mas influyentes, siguen siendo los mismos, sin embargo
con la diferencia de que ahora la observacion 140 ya no es un punto de influencia sobre la
precision de las estimaciones y los coeficientes del modelo. Por otro lado la observacion 1
sigue teniendo la mas alta probabilidad de ser un punto atpico
3.4. Comparacion de modelos

Como podemos ver con los resultados obtenidos en la subseccion 3.1 y 3.2, pareciera
que el modelo de regresion por el origen explica mejor la fraccion P M2,5 /P M10 , al menos
basandonos simplemente con la comparacion de los R2 de ambos modelos, sin embargo
algunos autores, prefieren usar el M SRES como base de comparacion entre los dos modelos.
Aparte de esta comparacion tambien haremos uso del AIC (Criterio de Informacion de
Akaike) y una prueba de ANOVA.
Tabla 5. Comparacion y seleccion de modelo

Criterio de seleccion
Modelo M SRES AIC ANOVA
Con intercepto 7.0067 1195.488 0.00272
Sin intercepto 7.169 1202.603
De acuerdo con lo obtenido en el Cuadro Tabla6 vemos que el modelo con intercepto
tiene un M SRES (Cuadrado Medio de los Residuales) mas pequeno en comparacion con el
modelo sin intercepto, al igual que con el AIC. Por ultimo la prueba de ANOVA arrojo un
valor p de 0.00272, lo cual nos indica que el aporte de 0 si es relevante en la explicacion del
P M2,5 . En conclusion los 3 criterios nos indican que el modelo con el intercepto es mejor en
este caso para explicar la fraccion P M2,5 /P M10 .
4
Ahora, para observar la influencia que tienen dentro del modelo de regresion las obser-
vaciones 1 y 140 (los cuales tienen mayor posibilidad de ser puntos atpicos) se comparo los
resultados obtenidos en en modelo con y sin intercepto eliminado estas dos observaciones.
Tabla 6. Comparacion de modelo sin posibles atpicos
Criterio de seleccion Coeficientes

Modelo M SRES AIC R2 0 P-Valor 1 P-Valor
Con intercepto 5.34 1086.529 0.368 0.3797 0.7656 0.31057 <2e-16
Sin intercepto 5.32 1084.620 0.859 - - 0.3193 <2e-16
Inicialmente observamos que ahora el coeficiente de correlacion entre las dos variables de
interes paso de ser 0.728 a 0.606, el coeficiente de determinacion R2 es mas pequeno para
el modelo con intercepto y mas grande para el modelo con regresion por le origen, que como
ya hemos mencionado no son comparables, por tanto basandonos en los demas criterios,
encontramos que como en el M SRES y en el AIC, el modelo sin intercepto es mejor. En
cuanto a los coeficientes dle modelo, el 0 tuvo un cambio grande y dejo de ser significativo
dentro del modelo de regresion, mientras que con respecto a 1 siguen siendo parecido y
significativo en todos los casos.
Finalmente se debe presentar estos resultados a un especialista de las mediciones de

P M2,5 y P M10 con el fin de que bajo su experiencia, tome la decision de eliminar o tratar
las observaciones 1 y 140 que obtuvieron una alta posibilidad de ser puntos atpicos con
las pruebas, o si por el contrario se deben dejar para las estimaciones del modelo, ya que
podran ser observaciones que se hayan dado por cosas externas. Supondremos entonces que
las dos observaciones que presentaron una gran influencia dentro de las estimaciones del
modelo son realmente puntos atpicos que ocurrieron por problemas de digitacion o ya sea
por errores de medicion de los equipos, esto ademas basandonos en el hecho de que estas
mediciones estan por encima de la norma establecidas para los dos materiales particulados
y de que segun los registros presentados por los boletines de calidad de aire en los ultimos
3 meses no se han presentado valores tan altos como estos. Por otro lado, elegiremos el
modelo sin intercepto, pues parece ser adecuado debido a que el material particulado de
P M2,5 se encuentran contenido en las mediciones de P M10 , nos indica de que cuando no
hay concentracion masica de partculas suspendidas en el aire, de un tamano inferior a 10
micras, claramente no encontraramos partculas de un tamano inferior a 2.5 micras tampoco,
ademas de que la prueba de hipotesis sobre B0 , mostro de que este no es significativo dentro
del modelo, pues el valor p fue de 0,7656.
3.5. Supuestos en el modelo de regresion

El exito del ajuste de un modelo de regresion y la validez de los hallazgos y conclusio-
nes obtenidas, dependen de lo razonable de las simplificaciones asociadas con los modelos
usados, es decir, de los supuestos del modelo(Behar,2003).Partiendo del modelo elegido en
la subseccion 3.4, haremos la validacion de supuestos, los cuales analizaremos la Correcta
especificiacion del modelo (E() = 0), Homogeneidad de varianza (V ar(j ) = 2 ), Au-
tocorrelacion (Cov(j , j ) = 0), y la Normalidad de los errores ( N ormal(0, 2 )).
5
Tabla 7. Validacion de supuestos para el modelo de regresion elegido
Supuesto Ho Prueba Estadstico Valor-P
Correcta especificiacion E() = 0 Petest -1.3051 0.1936
No correlacion en los errores Cov(j , j ) = 0 Breusch-Godfrey 7,4787 0.006243
Normalidad N ormal(0, 2 )) Shapiro-Wilk 0,9691 0,000618
Figura 3. Homogeneidad de varianza y autocorrelacion de los errores
2.5
2.5
Residuales estandarizados
Residuales estandarizados

0.0

0.0

2.5
2.5
10 20 30
0 50 100 150
Observacin y^
De acuerdo con el analisis de la Tabla7, y la Figura3, podemos determinar de que el

modelo no resulta ser util para estimar el la fraccion P M2,5 /P M10 pues de acuerdo con las
pruebas formales el modelo elegido viola los supuestos de Normalidad, No correlacion de los
errores y , lo cual indica que los intervalos y las pruebas de hipotesis no son exactas y pueden
llegar a ser invalidas, ademas la prueba Breusch-Godfrey arrojo un Valor-p < 0,05, es decir
que los errores estan autocorrelacionados lo que no nos garantiza que los estimadores sean
optimos y las pruebas estadsticas (ANOVA, prueba t) usadas en las anteriores secciones
sean validas. Sin embargo en analisis grafico permitio detectar que si existe una homogenei-
dad de varianza y la prueba Pestest, nos permitio asumir que el modelo se encuentra bien
especificado.
4. Conclusiones
Vemos la importancia de realizar un analisis de puntos atpicos, pues generan un cambio
drastico en las estimaciones y predicciones del modelo de regresion. Por otro lado, hay que
resaltar que en estos casos donde se detectan estos puntos, siempre se debe contar con el
acompanamiento de un experto pues este conoce las variables de estudio, su comportamiento
habitual y las maneras en que fueron medidas, esto con el fin de determinar de que manera
tratar a estos puntos. Para la validacion de suspuestos debido a que algunos no se cumplieron
no es correcto realizar estimaciones con el modelo elegido pues estas no seran confiables, al
igual que las predicciones. Tambien es importante destacar que la utilizacion de un modelo
de regresion por el origen suele ser en algunas ocasiones mejor que un modelo con intercepto
como por ejemplo lo ocurrio en este estudio.
6
Referencias
[1] Juan Aparicio, M Martinez, and Javier Morales. Modelos lineales aplicados en r. Dto.
Estadstica, Matematicas e Informatica, 2004.
[2] Gangadharrao S Maddala and Kajal Lahiri. Introduction to econometrics, volume 2.

Macmillan New York, 1992.
[3] Douglas C Montgomery, Elizabeth A Peck, and G Geoffrey Vining. Introduction to linear
regression analysis. John Wiley & Sons, 2015.
[4] Nestor Rojas and Boris Galvis. Relacion entre pm2. 5 y pm10 en la ciudad de bogota.
Revista de Ingeniera, (22):5460, 2005.
[5] Cesar Augusto Arciniegas Suarez and Cesar Augusto. Diagnostico y control de mate-
rial particulado: partculas suspendidas totales y fraccion respirable pm10. Luna Azul,
1(34):195213, 2012.
[6] Hadley Wickham. ggplot2: elegant graphics for data analysis. Springer, 2016.

Métodos

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Métodos

Uploaded by

Copyright:

Available Formats

Informe Tarea

Johan Steven Aparicio Arce

2. Descripcion de las variables de interes

P M2,5 : Es una concentracion masica de partculas suspendidas en el aire, de un tamano

P M10 : Es una concentracion masica de partculas suspendidas en el aire, de un tamano

3. Distribucion del P M2,5 y P M10

3.1. Modelo de regresion

Tabla 1. Resumen modelo con intercepto

Coeficientes Estimacion EE Valor t Pr (> |t|)

Tabla 2. Resumen modelo sin intercepto

Coeficiente Estimacion EE Valor t Pr (> |t|)

Entonces el R2 en este caso nos indica de que el 81 % de variabilidad respecto al origen

Figura 2. Modelo con intercepto Vs Modelo por el origen

3.3. Analisis de puntos influyentes

Tabla 4. Resumen medidas de influencia para el modelo sin intercepto

i DF BET A(1,i) DF F IT Si COV RAT IOi D.COOKi hii

3.4. Comparacion de modelos

Tabla 5. Comparacion y seleccion de modelo

Tabla 6. Comparacion de modelo sin posibles atpicos

Criterio de seleccion Coeficientes

Finalmente se debe presentar estos resultados a un especialista de las mediciones de

3.5. Supuestos en el modelo de regresion

Figura 3. Homogeneidad de varianza y autocorrelacion de los errores

De acuerdo con el analisis de la Tabla7, y la Figura3, podemos determinar de que el

[2] Gangadharrao S Maddala and Kajal Lahiri. Introduction to econometrics, volume 2.

You might also like