7–10 de noviembre de 2023
Asunción
America/Asuncion zona horaria

Análisis de contaminantes atmosféricos durante la pandemia COVID-19 a través de técnicas computacionales de Data Mining.

No programado
20m
Sociedad Científica del Paraguay (Asunción )

Sociedad Científica del Paraguay

Asunción

Andrés Barbero 230 casi Avenida Artigas
Poster Ciencias Fisicomatématicas e Ingenierías

Ponente

Diego Fermín Palacios Riquelme (Facultad de Ingeniería - Universidad Nacional de Asunción)

Descripción

En el presente trabajo se aplican técnicas computacionales bajo el concepto de Minería de Datos para obtener conocimiento relevante sobre la calidad del aire a partir de una base de datos de mediciones de gases contaminantes atmosféricos y variables meteorológicas obtenida en Asunción, Paraguay durante la pandemia COVID-19, a través de estaciones telemétricas automáticas. Se aplicaron técnicas de Correlación de Spearman, Análisis de Asociaciones, y estudios estadísticos temporales para obtener conocimientos significativos y se llegó a la conclusión de que ambientes más húmedos y fríos tienden a tener una mejor calidad de aire, que los niveles más altos de contaminación se dan entre las 10 y las 22 hs. y que las correlaciones de los niveles de contaminantes con los datos de la pandemia COVID-19 (nuevos casos y fallecimientos por día) son en su gran mayoría correlaciones negativas, a excepción del Ozono. También se concluye que la contaminación atmosférica, principalmente por carbono y azufre, es de origen antropogénico, debido principalmente a actividades humanas de movilidad, con fuente en el tráfico automotor basado en combustibles fósiles, ya que el Monóxido de Carbono disminuyó en promedio hasta un 31% durante la pandemia y el Dióxido de Azufre disminuyó en un 73.2% en zonas con alto tráfico automotor. Los procesamientos arrojaron también aumentos de hasta 100% en niveles de Ozono y de 32.2% en niveles de material particulado respecto a sus valores normales pre pandémicos.

Introducción

La Minería de Datos es una técnica computacional cuya función principal es la de extraer conocimiento a partir del procesamiento de una gran base de datos. En este trabajo se procesa computacionalmente un dataset de gases contaminantes. Conocer el estado de la calidad del aire es fundamental para llegar a tener una buena calidad de vida y es un indicador importante para saber si se está implementando una actividad económica sustentable y un estilo de vida amigable con el medio ambiente. La adquisición de datos se realizó en un período de tiempo bastante peculiar: durante la pandemia del COVID-19. Una parte del dataset contiene datos de contaminantes antes de la pandemia, y otra parte durante la misma, pudiéndose definir distintos períodos de tiempo a lo largo del año entero de mediciones. Este análisis temporal permite dimensionar cómo se relacionan los contaminantes con el desarrollo de una enfermedad respiratoria que tuvo registros de datos sin precedentes a nivel mundial; además, la alteración brusca del comportamiento humano debido al confinamiento permite conocer la forma en que se relacionan los contaminantes del aire con la actividad humana, y permite ver hasta qué punto el ser humano tiene un impacto en el medio ambiente.

Objetivo

Aplicar técnicas de Data Mining en un dataset de contaminantes atmosféricos para conocer su comportamiento durante la pandemia de COVID-19.

Metodología

Las mediciones fueron adquiridas a partir de dos estaciones telemétricas ubicadas en puntos estratégicos. Estas estaciones son sistemas computacionales cuyas especificaciones técnicas e implementación están definidas en el proyecto 14-INV-386 del programa PROCIENCIA de CONACYT - Paraguay, que fue revisado por especialistas internacionales, tanto para su aceptación como para su evaluación final.
Los datos obtenidos están comprendidos temporalmente entre el 26/11/2019 y el 6/12/2020, poco más de un año de mediciones que incluyen el inicio y desarrollo de la pandemia COVID-19, con cuatro meses de mediciones pre pandémicas, dos meses de mediciones durante el confinamiento estricto y seis meses durante el confinamiento flexible en plena pandemia. El dataset incluye mediciones simultáneas de contaminantes y variables atmosféricas cada dos horas en forma ininterrumpida y automática. En cada registro, se establecen la fecha y la hora y se miden en forma simultánea CO2, O3, NO2, SO2, Material Particulado, Temperatura , Humedad Relativa y Presión Atmosférica.
Para los datos de nuevos casos y fallecimientos diarios por COVID-19 se utilizaron datos proveídos por el Ministerio de Salud Pública y Bienestar Social de la República del Paraguay.
El análisis computacional se realizó con KNIME, un software libre de procesamiento computacional de datos orientado a Data Mining en su versión 4.4.2.
Los datos antes mencionados son sometidos a tres análisis principales: Análisis de Correlaciones de Spearman, Análisis Temporal, y un Análisis de Asociaciones.
El Análisis de Asociaciones es útil para encontrar relaciones ocultas interesantes y patrones interrelacionados entre las variables en una gran base de datos. Las relaciones descubiertas se representan en forma de reglas de asociación de la forma:
X->Y
Siendo X e Y dos conjuntos disjuntos de elementos, etiquetas, o categorías presentes en la base de datos. Se define entonces tres indicadores relacionados a la asociación: el Soporte (S), la Confianza (C) y el Lift (L).
S(X->Y)=count(X U Y) / N;
C(X->Y)=count(X U Y) / count(X);
L(X->Y)=C(X->Y) / S(Y).
El Soporte contabiliza el número de ocurrencia en la base de datos del conjunto unión X U Y en relación al número total de registros N, es decir el porcentaje de aparición de ese conjunto asociado respecto al total de los datos. La Confianza en cambio mide la fiabilidad de la inferencia hecha por la regla, mientras más alta sea la confianza, es más probable que Y se encuentre en el registro cuando esté presente X, provee una estimación de la probabilidad condicional de Y dado X. El Lift es un indicador de significancia, ya que establece la relación entre la probabilidad de ocurrencia de Y dado que X respecto a la ocurrencia de Y en la base de datos en relación de independencia de X. Mientras más alejado en valor a la unidad se encuentre, más significativa será la regla, y menos producto del azar. Los valores continuos de las mediciones se discretizan utilizando rangos etiquetados definidos por los cuartiles.

Resultados

Se procesaron los promedios por día de cada contaminante y variable meteorológica desde el 7 de marzo de 2020 hasta el 6 de diciembre de 2020 junto con registros de nuevos casos diarios de COVID-19 y los fallecimientos por día. En la Tabla 1 adjunta se muestran las correlaciones que tuvieron un valor de correlación superior a |0.3| y solo aquellas con una significancia relevante (p < 0.01).
Las correlaciones entre los contaminantes atmosféricos y los datos de la pandemia COVID-19 son en general correlaciones negativas, esto se debería principalmente al efecto de confinamiento, la correlación negativa muestra que los niveles en los contaminantes iban disminuyendo a medida que los datos de la pandemia iban incrementándose con el paso del tiempo, lo que implica que la contaminación atmosférica tiene orígenes antropogénicos, principalmente con fuente en las actividades de movilidad humana. Se destaca además la correlación positiva entre contaminantes y la temperatura, y la correlación negativa entre contaminantes y la humedad relativa, lo que refleja que ambientes más húmedos y fríos tienden a tener una mejor calidad del aire.
En la Tabla 2 adjunta se muestran los promedios totales para cada contaminante en cada uno de los tres períodos temporales pre establecidos, se muestra además entre paréntesis el porcentaje de variación del promedio respecto a los valores normales de contaminación pre pandémicos.
La mayoría de los contaminantes aumentaron en promedio a comienzos del confinamiento y luego iban decayendo en sus niveles a medida que avanzaba la pandemia y el confinamiento se prolongaba, a excepción del O3 que tuvo una dinámica inversa, llegando incluso a duplicarse en promedio durante el pleno desarrollo de la pandemia, luego de haber decaído hasta un 77.5% durante el confinamiento estricto. Entre los contaminantes que mejoraron sus niveles, principalmente por efectos del confinamiento, están el CO que disminuyó hasta un 31.5% menos respecto a sus valores normales, y el SO2 que tuvo un decrecimiento sostenido llegando a medir hasta un 73.2% menos en zonas de alto tráfico vehicular. El material particulado vio sus niveles desmejorados durante el confinamiento. Se realizó un t-test para analizar las variaciones de los promedios de los niveles contaminantes en los tres marcos temporales y los resultados arrojaron que las diferencias son significativas con un 99% de confianza y un p-value (2-tailed) < 0.01.
En el gráfico de Box Plot adjunto se muestra la distribución de percentiles de los valores máximos diarios del SO2 y del CO en los tres períodos pre establecidos. Se ve claramente la disminución de los niveles contaminantes por efecto del confinamiento.
En el adjunto de Asociaciones.png se muestran las asociaciones relevantes encontradas y sus explicaciones.

Conclusión

Como conclusión se puede establecer que las correlaciones de los niveles de contaminantes atmosféricos con los datos de la pandemia son en su gran mayoría correlaciones negativas, esto se debe principalmente a un factor gravitante: el confinamiento, que hizo que muchos niveles de contaminantes disminuyan a medida que avanzaba la pandemia y los números de casos nuevos y fallecimientos por COVID-19 iban aumentando, lo que implica que la contaminación atmosférica, principalmente por carbono y azufre, sean de origen antropogénico, debido principalmente a actividades de movilidad, con fuente en el tráfico automotor basado en combustibles fósiles. El CO disminuyó en promedio un 31% y el SO2 disminuyó un 73.2% durante la pandemia en zonas con alto tráfico automotor. Además, también se puede concluir que ambientes más húmedos y fríos tienden a tener una mejor calidad de aire, y que los niveles más altos de contaminación se dan entre las 10 y las 22 hs, rango horario con mayor actividad humana.
A través de Data Mining se obtuvo conocimiento relevante que servirá para conocer mejor la dinámica de la contaminación atmosférica, y establecer así efectivas políticas públicas ambientales que mejoren la calidad de vida.

Area Ciencias Agrarias y Ambientales

Autor primario

Diego Fermín Palacios Riquelme (Facultad de Ingeniería - Universidad Nacional de Asunción)

Coautores

Sra. Carolina Recalde (Facultad de Ingeniería UNA) Dr. Derlis Gregor (Facultad de Ingeniería UNA) Mario Arzamendia Lopez (Facultad de Ingeniería Universidad Nacional de Asuncion)

Materiales de la presentación