天河新一代超级计算机应用成果报道—利用机器学习优化空气污染健康影响评估

国家超级计算天津中心 910 阅读 0 点赞

导读

空气污染是全球环境与健康领域的重大研究问题。为了更精准地评估空气污染对健康的影响，南开大学环境科学与工程学院宋少洁教授团队基于天河新一代超级计算机，利用气象因素驱动的机器学习模型，对国际上常用的空气污染健康风险评估模型BenMAP的方法进行了优化。该研究依托天津市多年的气象和空气污染数据，提出了一种新型评估方法，提升了评估的准确性和可靠性。

研究团队通过引入多种数据增量策略和多种机器学习模型，系统地探讨了数据量、时间步长和气象因素对模型预测性能的影响。结果表明，增加训练数据量显著提升了随机森林（RF）和决策树（DT）模型的预测性能，尤其在 CO、NO₂ 和 PM2.5 的预测中表现尤为突出。在最佳预测时间步长方面，DT 模型在 CO 和 O₃ 的预测中表现出最优的解释力（R² = 0.99）。此外，通过结合多种气象因素（如气压、相对湿度和露点温度），显著提高了模型的预测精度。

该研究不仅在天津市取得了良好的预测效果，还通过在成都市的数据验证，证明了方法的适用性。这一创新方法为空气污染健康影响评估提供科学依据，并为环境政策的制定提供参考。

数据增量与时间步长优化的应用方法

研究团队通过引入多种数据增量策略和多种机器学习模型，探讨了数据量、时间步长和气象因素对模型预测性能的影响。具体包括增加训练数据量以提升模型预测性能、优化时间步长以提高预测准确性、结合多种气象因素（如气压、相对湿度和露点温度等）以提高模型的预测精度。结果表明，随着训练数据量的增加，RF和DT模型在 CO、NO₂ 和 PM2.5 的预测性能显著提升。在优化时间步长方面，研究团队发现，不同污染物的最佳预测时间步长各不相同。DT 模型在 CO 和 O₃ 的预测中表现出最高的解释力（R² = 0.99）。通过适当的数据增量策略和时间步长优化，模型的预测性能得到了显著提升。

图1 不同污染物和模型的R²、RMSE和MAPE的热图。(a-c)分别表示R²、RMSE和MAPE的热图。

多气象因素结合对模型预测性能的影响

在研究气象因素对模型预测性能的影响方面，研究团队系统地探讨了不同气象因子组合及其数量对预测准确性的影响。研究结果显示，不同气象因素的组合直接影响预测的准确性，尤其是在使用机器学习技术结合 BenMAP 时，可能会遇到不完整的气象数据。因此，确定在气象数据有限的情况下，哪种机器学习模型能够提供更准确的预测至关重要。通过综合考虑多种气象因素（如气压、相对湿度和露点温度等），模型的预测精度显著提升。具体来说，包含大气压力、相对湿度和露点温度三种气象因素的组合，在预测 CO、NO₂、PM10、PM2.5 和 SO₂ 浓度时，提供了非常高的解释力（R² = 0.99）。研究表明，综合多种气象因素能够显著提高机器学习模型的预测精度和可靠性，特别是在复杂的空气污染情景下。

图2基于不同数量的气象因素，最优机器学习模型对不同污染物预测结果与实际结果的比较。

(a-f)表示基于不同数量的气象因素对CO、NO₂、O₃、PM2.5、PM10和SO₂的预测值与实际值的比较

BenMAP 健康影响评估与方法的广泛应用

研究团队将机器学习模型与BenMAP相结合，不仅在天津市取得了优异的预测效果，还通过将方法应用于成都市的数据，验证了其广泛适用性。研究结果显示，结合机器学习模型和BenMAP的方法可以精确预测空气污染物浓度，并准确评估其对健康的影响。通过在成都的数据中验证，这一方法表现出色，证明其在不同城市环境中的广泛应用价值。该方法为空气污染健康影响评估提供了科学依据，并为环境政策的制定提供了重要参考。

图3 扩展研究：BenMap预测和实际健康评估结果。

(a-f)表示CO、NO₂、O₃、PM2.5、PM10和SO₂的预测值与实际值的比较。

该项工作得到了国家自然科学基金、天津市自然科学基金以及天河青索计划开放研究基金的资助。

本项目的数据增量和多种机器学习模型的运行工作在国家超级计算天津中心的天河新一代超级计算机上完成，其稳定的计算资源，高效的计算速度以及专业的技术团队极大地加快了研究进展。

（如有版权问题，请联系删除）

天河新一代超级计算机应用成果报道—利用机器学习优化空气污染健康影响评估