文章目錄[隱藏]
- Deep adaptive input normalization for time series forecasting(2019)
- Adarnn: Adaptive learning and forecasting of time series(CIKM 2021)
- REVERSIBLE INSTANCE NORMALIZATION FOR ACCURATE TIME-SERIES FORECASTING AGAINST DISTRIBUTION SHIFT(ICLR 2022)
- Dish-TS: A General Paradigm for Alleviating Distribution Shift in Time Series Forecasting(2023)
- OUT-OF-DISTRIBUTION REPRESENTATION LEARNING FOR TIME SERIES CLASSIFICATION(ICLR 2023)
- 總結
時間序列中的Distribution Shift問題解決(jue) 頂會(hui) 方法匯總!
在真實的應用場景中,很多情況下時間序列都呈現出Distribution Shift的現象,即時間序列分布,如均值和方差等統計信息,比如均值和方差,是隨著時間變化的。這種分布的變化,會(hui) 嚴(yan) 重影響時間序列預測的效果,對模型的泛化性提出了很高的要求。
為(wei) 了解決(jue) 這個(ge) 問題,業(ye) 內(nei) 出現了針對Distribution Shift問題的研究。解決(jue) 這個(ge) 問題的核心在於(yu) ,如何從(cong) 數據中抽取不變性,讓模型主要對這些穩定部分進行擬合,以此提升模型的泛化性。這篇文章就給大家梳理業(ye) 內(nei) 的相關(guan) 工作,匯總了近年來5篇頂會(hui) 中Distribution Shift的解決(jue) 方案。
Deep adaptive input normalization for time series forecasting(2019)
在以往的時間序列預測中,通常需要對時間序列進行標準化處理,也被常稱作z-normalization,即統計每個(ge) 時間序列可觀測到的部分的均值和方差,利用這個(ge) 均值和方差對原序列做標準化。然而,當時間序列存在distribution shift問題時,這種標準化方法就失效了,在未來的序列中,均值和方差會(hui) 發生變化,使用靜態的z-normalization影響了模型效果。
為(wei) 了解決(jue) 這個(ge) 問題,本文提出了利用一個(ge) NN網絡動態學習(xi) z-normalization的均值和方差的方法。具體(ti) 的,對於(yu) 每個(ge) 序列,首先求這個(ge) 序列的均值,並使用一個(ge) 全連接,得到平移項。然後根據這個(ge) 平移項和原始序列求類似方差的scale係數,也使用全連接進行映射。兩(liang) 個(ge) 全連接參數都是根據數據自動訓練的,以此實現動態的標準化參數生成。然後利用這個(ge) 參數,對原始序列進行標準化,輸入到模型中。此外,文中還使用了gate結構,對序列中無用的特征進行過濾。整個(ge) 模型結構如下圖所示:
其實,這個(ge) 過程是讓模型在預測未來序列的同時,也根據曆史序列來預測未來的均值和方差可能是什麽(me) 樣的,以此實現動態的標準化參數調整。
Adarnn: Adaptive learning and forecasting of time series(CIKM 2021)
這篇文章提出了AdaRNN模型,來解決(jue) 時間序列分布變化的問題。本文的核心思路是,將曆史時間序列分成多段,各段代表的是完全不同的分布,然後基於(yu) 這些不同分布的序列,讓模型學習(xi) 共性信息,這樣模型在預測有分布變化的數據時,能夠更好地根據共性信息實現泛化。
文中的核心點有2個(ge) ,一個(ge) 是我們(men) 需要提取出原始序列中有多少個(ge) 不同分布的片段,另一個(ge) 是根據提取出的片段讓模型學習(xi) 共性信息。針對第一個(ge) 問題,文中提出了Temporal distribution characterization(TDC)模塊,利用熵最大化的方法,尋找將序列劃分成哪K個(ge) 片段,能使得整體(ti) 熵最大化,也就是找到序列中最不相似的片段。這樣劃分後,不同片段的分布差異很大,模型的優(you) 化必須提取各個(ge) 分布的共性信息,才能讓所有片段的預測效果達到最好,以此提升模型的泛化能力。
在得到了熵最大化的劃分方法後,使用Temporal distribution matching(TDM)對序列不同分布片段的共性信息進行學習(xi) ,核心是利用domain adaptation的思路,讓模型能夠在不同的分布上實現泛化。
REVERSIBLE INSTANCE NORMALIZATION FOR ACCURATE TIME-SERIES FORECASTING AGAINST DISTRIBUTION SHIFT(ICLR 2022)
這篇文章的核心思路是在輸入序列中將均值、方差等序列不穩定的信息去掉,再在輸出階段利用這些被去掉的不穩定的序列個(ge) 性化的信息對序列進行還原,模型重點處理去掉均值和方差後的平穩序列的預測任務。整體(ti) 的模型結構如下圖。對於(yu) 輸入序列,先統計出每個(ge) 序列均值和方差,然後用這些統計量對序列做標準化,並配合一個(ge) 全連接層進行映射。模型對這個(ge) 序列進行擬合,其輸出結果,會(hui) 再利用之前的統計量進行還原,得到最終的預測輸出。這個(ge) 標準化和反標準化過程是完全鏡像的。
文中將其提出的框架應用到了Informer、Nbeats等模型中,模型對於(yu) 分布的預測有了非常明顯的改善。
Dish-TS: A General Paradigm for Alleviating Distribution Shift in Time Series Forecasting(2023)
本文將時間序列中的shift問題分成兩(liang) 類,一類是inter-shift,另一類是intra-shift。Inter-shift指的是在觀測數據內(nei) 部就出現了shift線上,intra-shift指的是預測窗口和曆史觀測值之間出現shift。
本文提出對曆史窗口和未來窗口的標準化參數分別建模。這裏使用兩(liang) 個(ge) CONET網絡,這兩(liang) 個(ge) 網絡輸入的都是曆史序列,但是一個(ge) 的目標是預測曆史序列的標準化參數,另一個(ge) 的目標是預測未來序列的標準化參數。在得到曆史序列和未來序列的標準化參數後,對曆史序列使用曆史序列標準化參數進行標準化,標準化後的序列輸入到深度學習(xi) 模型中預測未來。模型預測的輸出結果,再使用未來序列標準化參數進行反標準化,得到最終輸出。整體(ti) 得到模型結構如下圖所示。
此外,文中還在模型中引入了人工的先驗知識,幫助模型學習(xi) 。通過讓曆史窗口的均值參數朝著曆史序列的實際均值擬合,來加入人工的先驗信息。最終整體(ti) 的loss,一方麵是時間序列預測的MSE,另一方麵是對於(yu) 曆史窗口均值參數的先驗知識:
OUT-OF-DISTRIBUTION REPRESENTATION LEARNING FOR TIME SERIES CLASSIFICATION(ICLR 2023)
這篇文章主要解決(jue) 在時間序列分類中的分布變化問題。時間序列隨著時間的變動,分布會(hui) 發生變化,如果預測序列和訓練數據中的分布差異很大,可以理解為(wei) out-of-distribution(OOD)問題,這種情況下在訓練數據中訓練好的分類模型,很難應用傲測試集上。
針對上述問題,本文提出了適用於(yu) 時間序列場景的域外表示學習(xi) 工作。利用對抗學習(xi) 到的思路,一方麵讓模型自動學習(xi) 如何將時間序列切分屬於(yu) 多個(ge) 域的片段,最大化各個(ge) 域片段的分布差異;另一方麵,學習(xi) 域無關(guan) 的共性表征。整體(ti) 的建模思路和AdaRNN有一些類似(作者是同一批人),都是找分布差異最大的片段後,讓模型能在這種最壞情況都保持良好性能,再借助domain adptation的思路尋找各個(ge) 分布下的共性信息,增強模型的泛化能力。
總結
本文匯總了解決(jue) 時間序列預測中Distribution Shift問題的5篇頂會(hui) 工作。Distribution Shift這類問題在實際的時間序列數據中很常見,解決(jue) 好這類問題,對於(yu) 準確的業(ye) 務數據預測很有幫助。
評論已經被關(guan) 閉。