賽題總結：NASA 空氣質量預測

文章目錄[隱藏]

賽題背景

空氣汙染是過早死亡的首要環境風險因素，但全球數百萬(wan) 人無法獲得有關(guan) 其當前當地空氣質量的可靠數據。

目前沒有任何一種衛星儀(yi) 器能夠提供地表空氣汙染物的信息，而現有的高質量地麵監測儀(yi) 價(jia) 格昂貴，且覆蓋範圍存在很大差距。

利用廣泛可用的衛星數據的模型有可能提供當地的每日空氣質量信息。本次挑戰賽的目標是使用遙感數據和其他地理空間數據源，來估算具有高空間分辨率（5 公裏乘 5 公裏）的每日空氣汙染水平。

本次比賽側(ce) 重於(yu) 兩(liang) 項關(guan) 鍵的空氣質量指標：小於(yu) 2.5 微米的顆粒物 (PM2.5) 和二氧化氮 (NO2)。

為(wei) 了訓練和評估解決(jue) 方案，我們(men) 提供了三個(ge) 城市地區的數據：洛杉磯、德裏和台北。這些地點有現成的衛星數據，但汙染程度和曆史數據各不相同。

小於(yu) 2.5 微米的顆粒物 (PM2.5)可以在大氣中持續數天至數周，並深入人體(ti) 肺部，增加患心髒病、下呼吸道感染和不良妊娠結局的風險。

https://www.drivendata.org/competitions/88/competition-air-quality-pm/

煤、石油或天然氣等化石燃料燃燒會(hui) 在大氣中形成二氧化氮 (NO2) ，在地表附近的生命周期很短，約為(wei) 數小時。它會(hui) 導致呼吸係統問題，同時還會(hui) 促進臭氧和硝酸鹽氣溶膠（PM2.5 的組成部分）的產(chan) 生。

https://www.drivendata.org/competitions/91/competition-air-quality-no2/

賽題提取的測量值來自衛星儀(yi) 器的數據，任務是預測地表 PM2.5 和 NO2 水平。提供了高分辨率、每天更新和多個(ge) 城市的衛星數據（觀測指標包括：氣溶膠光學深度、NO2 垂直柱密度）。

在比賽過程中總共來自 1,000 多名參與(yu) 者的 1,200 多份參賽作品，與(yu) 基準方案相比，優(you) 勝模型取得了顯著的進步。盡管參賽者使用的方法略有不同，但存在一些共性：

賽題總結：NASA 空氣質量預測

https://github.com/drivendataorg/nasa-airathon/tree/main/pm25/1st%20Place

首先，對原始數據進行處理，然後使用網格方式均值插補法對數據進行插補。之後我們(men) 生成時間差異特征

賽題總結：NASA 空氣質量預測

我們(men) 使用了樹模型作為(wei) 基礎模型，然後使用線性模型作為(wei) 第二層模型進行了Stacking，整體(ti) 的結構如下圖所示。

https://github.com/drivendataorg/nasa-airathon/tree/main/pm25/2nd%20Place

最初我試驗了原始競賽數據集和各種模型。我很快就達到了得分穩定狀態。我將注意力轉移到外部數據集上，並選擇了一個(ge) 樹模型來加速我的實驗。

我閱讀了參考文獻，發現類似於(yu) 空氣濕度、土壤溫度、土壤濕度、氣溫、風速、風向和降雨量/降水量，與(yu) 標簽相關(guan) 比較大。

我也對比了按照位置單獨建模 vs 一個(ge) 模型的情況，最終按照位置進行單獨建模。最終的解決(jue) 方案是 45 個(ge) 模型的平均集成。

https://github.com/drivendataorg/nasa-airathon/tree/main/pm25/3rd%20Place

我從(cong) 衛星數據中提取了每個(ge) 網格的信息，並按照日期提取了年、月、日和派生特征。我還加入了風速、風向、平均編碼和標簽編碼等位置信息。最終的模型是隨機森林和梯度提升樹，最終模型的參數使用optuna進行確定。

https://github.com/drivendataorg/nasa-airathon/tree/main/no2/1st%20Place

在閱讀比賽介紹之後，我發現這是一個(ge) 經典的時間序列預測情況，隻有約 200 個(ge) 獨立數據點。核心是確保穩健的交叉驗證、非常高的正則化和模型平均。

我使用了KFold進行交叉驗證，間隔約30天，每次訓練迭代中的折疊和參數輪換。LightGBM中的linear_tree參數，適合樹進行線性回歸，在本次比賽中效果比較好。

【競賽報名/項目谘詢+微信：mollywei007】

本文由 Molly 轉載發布在伟德的官网平台，版權歸原作者所有，如有侵權，請直接聯係微信進行處理。