哈佛大學提出的無監督時間序列預訓練方法

哈佛大學在NeurlPS 2022提出的無監督時間序列預訓練方法

今天給大家解讀一篇NeurlPS 2022中哈佛大學在時間序列無監督預訓練的工作。這篇工作我認為(wei) 非常有價(jia) 值,為(wei) 時間序列表示學習(xi) 找到了一個(ge) 很強的先驗假設,是時間序列預測表示學習(xi) 方向的一個(ge) 突破性進展。

本文的核心思路為(wei) :無監督預訓練的核心是將先驗引入模型學習(xi) 強泛化性的參數,本文引入的先驗是同一個(ge) 時間序列在頻域的表示和在時域的表示應該相近,以此為(wei) 目標利用對比學習(xi) 進行預訓練。

對於(yu) 時間序列表示學習(xi) 感興(xing) 趣的同學,可以參考時間序列分析的表示學習(xi) 時代來了?這篇文章,詳細匯總了各類時間序列表示學習(xi) 方法。

哈佛大學提出的無監督時間序列預訓練方法

論文標題:Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency

下載地址https://arxiv.org/pdf/2206.08496.pdf

1、Motivation

無監督預訓練在時間序列中的應用越來越多,但是和NLP、CV等領域不同的是,時間序列中的預訓練沒有一個(ge) 特別合適的,在所有數據上都一致的先驗假設。例如在NLP中,一個(ge) 先驗假設是不管是什麽(me) 領域的文本,或者什麽(me) 語種的文本,都遵循相同的語法規律。但是在時間序列中,不同數據集的頻率、周期性、平穩性差異都很大。以往的預訓練方法現在一些數據集pretrain再在目標數據集finetune。如果預訓練的數據集和finetune數據集的時間序列相關(guan) 特征差異很大,就會(hui) 出現遷移效果不好的問題。

為(wei) 了解決(jue) 這個(ge) 問題,本文找到了一種不論在什麽(me) 樣的時間序列數據集中都存在的規律,那就是一個(ge) 時間序列的頻域表示和時域表示應該相似。在時間序列中,時域和頻域就是同一個(ge) 時間序列的兩(liang) 種表示,因此如果存在一個(ge) 時域頻域共享的隱空間,二者的表示應該是相同的,在任何時間序列數據中都應該有相同的規律。

基於(yu) 上述思考,本文提出了Time-Frequency Consistency (TF-C)的核心架構,以對比學習(xi) 為(wei) 基礎,讓時域和頻域的序列表示盡可能接近。

哈佛大學提出的無監督時間序列預訓練方法

2、基礎模型結構

基於(yu) 上述思路,本文構建的整體(ti) 模型結構如下圖。首先利用多種時間序列數據增強手段,生成每個(ge) 時間序列的不同增強版本。然後將時間序列輸入到Time Encoder和Frequency Encoder,分別得到時間序列在時域和頻域的表示。損失函數包括時域對比學習(xi) loss、頻域對比學習(xi) loss、時域和頻域的表式對齊loss。

哈佛大學提出的無監督時間序列預訓練方法

在時域上,使用的數據增強手段包括jittering、scaling、time-shifts、neighborhood segments等時間序列對比學習(xi) 中的經典操作(對於(yu) 時間序列數據增強,後續會(hui) 出一個(ge) 單獨的文章係統性介紹)。經過Time Encoder後,讓一個(ge) 時間序列和其增強的結果表示相近,和其他時間序列遠離:

哈佛大學提出的無監督時間序列預訓練方法

在頻域上,本文是首次研究了如何進行頻域中的時間序列數據增強。文中通過隨機抹除或增加frequency components實現頻域上的數據增強。同時為(wei) 了避免頻域的繞道對原始序列噪聲大的變化,導致增強後的序列和原始序列不相似,會(hui) 對增刪的components和增刪幅度做限製。對於(yu) 刪除操作,會(hui) 隨機選擇不超過E個(ge) 頻率進行刪除;對於(yu) 增加操作,會(hui) 選擇那些振幅小於(yu) 一定閾值的頻率,並提升其振幅。得到頻域數據增強的結果後,使用Frequency Encoder得到頻域表示,並利用和時域類似的對比學習(xi) 進行學習(xi) 。

3、時域頻域一致性

上述的基礎模型結構隻是分別在時域和頻域內(nei) 利用對比學習(xi) 拉近表示,還沒有引入時域和頻域表示的對齊。為(wei) 了實現時域和頻域的一致性,本文設計了一種一致性loss拉近同一個(ge) 樣本在時域和頻域的表示。

具體(ti) 的損失函數如下,主要借鑒了triplet loss的思想。其中STF是同一個(ge) 時間序列經過時域Encoder和頻域Encoder生成表示的距離,其他帶波浪線上標的,表示使用該樣本的某種增強樣本得到的序列。這裏的假設是,一個(ge) 樣本的時域編碼和頻域編碼應該更接近,離其增強後樣本的時域編碼或頻域編碼更遠。

哈佛大學提出的無監督時間序列預訓練方法

最終模型通過上述3個(ge) loss聯合進行預訓練。

4、實驗結果

在實驗方麵,文中主要對比了one-to-one和one-to-many兩(liang) 種遷移效果。在ont-to-one實驗中,是在一個(ge) 數據集上使用不同的方法預訓練,對比在另一個(ge) 數據集上finetune後的效果。可以看到本文提出的TF-C方法效果由於(yu) 其他的遷移學習(xi) 方法。

哈佛大學提出的無監督時間序列預訓練方法

One-to-many驗證的是在一個(ge) 數據集上預訓練,在多個(ge) 數據集上finetune的效果,TF-C效果也非常顯著。

哈佛大學提出的無監督時間序列預訓練方法

最後文中還可視化了是否加入一致性loss對時域、頻域表示學習(xi) 的影響。不加一致性loss,時域和頻域表示被學成兩(liang) 個(ge) 簇,同一個(ge) 樣本兩(liang) 個(ge) 表示距離比較遠。而引入一致性loss後,拉近了同一個(ge) 樣本時域和頻域的表示。

哈佛大學提出的無監督時間序列預訓練方法

5、總結

本文提出的時間序列預訓練方法,解決(jue) 了一個(ge) 非常核心的問題:在時間序列中,什麽(me) 樣的規律是所有數據集都遵循的。時域和頻域一致性這一先驗假設,在不同數據集上都成立,類似於(yu) NLP中的語法,讓時間序列預訓練方法更加合理。

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

提交ED還需要注意的5個事項

下一篇

招生官最討厭看到的四大文書主題!

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部