NAS機場配置變化預測賽題總結

文章目錄[隱藏]

賽題背景
賽題目標
賽題數據
優勝方案

賽題總結：NAS機場配置變化預測

簡介

賽題背景

協調航空運輸是國家空域係統（NAS）的職責。NAS可以說是世界上最複雜的運輸係統。NAS重要部分是機場配置，用於(yu) 到達和離開的跑道組合以及這些跑道上的氣流方向。空中交通官員可能會(hui) 根據天氣、交通或其他輸入改變機場配置。

機場配置可能會(hui) 導致航班延誤，在到達機場之前可能需要改變飛行路線，以進入正確的航線，或者在氣流改變時進入空中等待模式。改變機場配置的決(jue) 定是由數據和觀察結果決(jue) 定的，這意味著可以提前預測這些變化，並給航班運營商調整時間表的時間，以減少延誤和燃油浪費。

在比賽中DrivenData開發了兩(liang) 個(ge) 基準：No change forecast和Recency-weighted historical forecast。

No change forecast賽題：https://www.drivendata.org/competitions/89/competition-nasa-airport-configuration/

Recency-weighted historical forecast賽題：https://www.drivendata.org/competitions/92/competition-nasa-airport-configuration-prescreened/

賽題目標

賽題目標是通過包括空中交通和天氣在內(nei) 的實時數據源自動預測機場配置變化。預測未來機場配置的更好算法可以支持關(guan) 鍵決(jue) 策，降低成本，節約能源，並緩解國家空域網絡的延誤。

賽題數據

在這項挑戰中，參與(yu) 者利用捕捉空中交通和天氣狀況的功能，預測未來6小時內(nei) 機場的配置方式。我們(men) 的目標是建立一個(ge) 模型，預測未來6小時內(nei) 每30分鍾一次的可能配置的概率。參與(yu) 者可以獲得一年的數據，包括觀察到的單個(ge) 航班的流量、對到達和離開的精細估計以及最新的天氣預報。

優勝方案

參與(yu) 者測試了350多種解決(jue) 方案。在最終的評估數據集中，頂級模型的平均累計日誌損失為(wei) 0.074，比無變化基準測試有顯著改進。在配置確實發生變化的困難情況下，當提前兩(liang) 小時預測時，該模型能夠預測41%的時間變化，準確率為(wei) 49%。

獲勝的解決(jue) 方案采用了一係列技術。大部分是使用基於(yu) 樹的模型，如CatBoost和XGBoost，以及精心設計功能時間表，以生成機場配置的有用預測。

NAS機場配置變化預測賽題總結。

影響性能的最大因素之一是前瞻性。毫不奇怪，預測6小時後的機場配置比30分鍾後的更難。平均而言，第一名和第二名的獲獎者在更長的時間內(nei) 表現出比我們(men) 的基準大幅提高。性能的另一個(ge) 主要因素是機場本身，每個(ge) 機場都有自己獨特的特點。首先，機場可能在可用配置的數量上有所不同，或者可能會(hui) 經曆不同的天氣模式，從(cong) 而導致機場配置更頻繁和/或更不可預測的變化。

性能的另一個(ge) 重要觀點是模型預測機場配置變化的能力。盡管能夠預測當前配置在未來數小時內(nei) 仍將保持不變，但重要的操作考慮因素是配置何時更改。

第一名：Kristin Mullaney & Alejandro Sáez

https://github.com/drivendataorg/nasa-airport-config/tree/main/1st%20Place

Kristin Mullaney：我是紐約大學即將入學的二年級研究生。我正在攻讀數據科學學士學位。我對所有的數據科學都很感興(xing) 趣，想參加比賽來測試我的技能。

Alejandro Sáez：紐約大學數據科學係學生，具有電網預測維護和零售銀行分析用例的經驗。

有三個(ge) 原因讓我們(men) 參與(yu) 了本次比賽：

從NASA獲取真實世界的數據。
正在處理的問題的相關性。
實踐技術的機會。

我們(men) 清理了原始數據，在機場時間戳期間創建了一個(ge) 主表，每次觀測之間的采樣率為(wei) 15分鍾，並從(cong) 所提供的12個(ge) 原始數據塊中添加了過去的特征。也就是說，主表的每一行都包含在給定時間戳之前可用的給定機場時間戳的數據（過去的信息）。

在本例中，機場配置提前30分鍾、60分鍾……以及每個(ge) 提前期。接下來，我們(men) 構建了總共120個(ge) CatBoost多類分類器，使我們(men) 能夠預測每個(ge) 配置在機場預測級別的可能性，即10個(ge) 機場x 12個(ge) 預測周期=120個(ge) 模型。

最後，我們(men) 創建了一組功能，允許DrivenData運行時環境使用這些模型，以便從(cong) 先前開發的模型中檢索實時預測。我們(men) 遵循這種方法，因為(wei) 它是清理、特征提取、訓練/測試拆分和建模的典型數據科學管道。

第二名：Spencer McDonald & Marek Travnik

https://github.com/drivendataorg/nasa-airport-config/tree/main/2nd%20Place

特征篩選的目的是找到一個(ge) 更小的（潛在的）特征空間，以封裝與(yu) 當前問題相關(guan) 的信息。在繼續我們(men) 的集成方法之前，我們(men) 首先想考慮一種隱馬爾可夫模型類型的方法來解決(jue) 這個(ge) 問題。我們(men) 可以用它作為(wei) 預測它確實發生變化的概率。

第三名：Azin Al Kajbaf & Kaveh Faraji

https://github.com/drivendataorg/nasa-airport-config/tree/main/3rd%20Place

對於(yu) 比賽，我們(men) 隻使用了過去的機場配置和訓練標簽數據。我們(men) 對數據和每個(ge) 數據點進行了預處理。我們(men) 提取了關(guan) 於(yu) 過去配置、當前配置和最近10個(ge) 配置的分布以及每個(ge) 過去配置處於(yu) 活動狀態的持續時間的信息。

們(men) 創建了一個(ge) DataFrame（train_labels）作為(wei) 機器學習(xi) 算法的輸入。在主代碼中，我們(men) 為(wei) 每個(ge) 機場訓練了XGBoost模型。然後，我們(men) 對測試數據特征進行預處理，並使用預處理的XGBoost模型預測每個(ge) 配置的概率。

第四名：Normen Yu & Mehrdad Mahdavi

https://github.com/drivendataorg/nasa-airport-config/tree/main/4th%20Place

我們(men) 測試了許多算法。最終使用了Logistic回歸，因為(wei) 它的目標函數最接近問題陳述的目標函數。它也不太容易過度擬合。

對於(yu) 每個(ge) 機場，以下工作都是相互獨立完成的：首先，每個(ge) 機場的預計起飛和預計著陸數據被處理成4列：預計著陸/起飛1小時到30分鍾前、30分鍾到0分鍾前、0分鍾到30分鍾後以及30到1小時後。然後，這些數據被添加到其他需要較少處理的數據中：風速、陣風、雲(yun) 霧、能見度、雲(yun) 、光照概率、風向、降水量，以及我們(men) 試圖預測的小時數。

【競賽報名/項目谘詢+微信：mollywei007】