文章目錄[隱藏]
賽題背景
本次比賽提供華為(wei) 5G真實業(ye) 務場景數據集,同時提供一張由專(zhuan) 家繪製的因果圖。由於(yu) 數據采集的限製,一些實際問題諸如少標簽樣本、數據缺失、時間序列分析、因果推斷等,亟待來自不同背景學者和實踐者共同解決(jue) !
比賽官網:https://www.aiops.sribd.cn
根因定位
移動網絡中故障根因定位是網絡運維中一個(ge) 重要環節,通過準確快速地判斷網絡的故障根因,可以及時采取措施對核心問題進行修複。實際網絡具有複雜的無線通信環境和網絡部署結構,存在故障出現的樣本數較少、不同的場景下故障現象有所差異等等問題。如何根據現有的知識,推導已經出現或者後續即將出現的故障,是運維過程中的巨大挑戰。
根因定位主要根據變量之間的影響程度確定主要的影響因素,從(cong) 而推斷導致當前現象的主要原因。因此,正確衡量變量之間的關(guan) 係是根因定位的關(guan) 鍵。如下圖所示,受變量,,影響,當出現故障時,需要分析,,哪個(ge) 變量對於(yu) 的影響最大,從(cong) 而判斷主要原因。當前運維過程中,主要通過人工總結經驗的方法得到,從(cong) 而存在以下幾點問題:
- 所有的因素之間的影響程度嚴重依賴於專家經驗,靈活性較低;
- 對一個現象的多個原因進行判斷時通常采用獨立判斷的原則,即缺乏聯合考慮,如同時影響了,因此考慮對於的影響時需要聯合考慮X3的影響。
通信網絡中變量之間的影響關(guan) 係複雜,我們(men) 提供變量之間的關(guan) 係作為(wei) 參考,本賽題希望通過給出的變量之間的因果關(guan) 係,結合采集的變量數據,學習(xi) 用於(yu) 多個(ge) 不同的場景下進行根因定位的模型,以降低對於(yu) 業(ye) 務專(zhuan) 家的依賴。
賽題描述
電信網絡中feature0值偏低一直是客戶關(guan) 注的問題,本賽題重點解決(jue) feature0值偏低的根因定位問題。在已知其值小於(yu) 200的情況下,我們(men) 需要通過分析feature0的影響因素,從(cong) 而得到其值偏低的原因。
feature0的影響關(guan) 係如下圖所示,每一個(ge) feature可以理解為(wei) 電信網絡中的一個(ge) 關(guan) 鍵績效指標(KPI),這些KPI的取值隨時間變化且相互影響。因此,需要通過圖中提供的影響關(guan) 係,推理出feature0值偏低的最終原因。
圖中的橢圓形表示變量,其中無顏色表示可以采集觀測到的數據,灰顏色表示中間計算變量(不可觀測),方框表示對根因的描述。最上層feature0表示用戶關(guan) 心的結果變量。此關(guan) 係圖不隨時間、地點位置發生改變,屬於(yu) 標準的通信協議關(guan) 係。變量之間的關(guan) 係大多為(wei) 非線性關(guan) 係。有的是確定性關(guan) 係,有的為(wei) 概率性關(guan) 係。
數據描述
本數據集包括:
變量因果關(guan) 係圖。在此數據集中,我們(men) 提供了一張專(zhuan) 家繪製的變量因果關(guan) 係圖(已脫敏處理)作為(wei) 先驗。
變量特征數據。本數據集共包含2984個(ge) 樣本,每個(ge) 樣本為(wei) 采自不同的5G路測場景的時間片段(長度不固定),其包含23個(ge) 可觀測特征變量(圖1無色橢圓形)在該時間片段內(nei) 隨時間變化的信息。在這2984個(ge) 樣本中,隻有少數數據(45%)是標注根因的已知異常數據,其餘(yu) 數據未知。
提交格式
測試時給出多個(ge) 時間段數據,要求選手給出每個(ge) 時段的根因及其概率,並設定閾值給出相應的根因集合。選手需提交如下的csv格式文件,選手需將其認為(wei) 的根因標記為(wei) 1。
數據段編號 | 根因1 | 根因2 | 根因3 | 根因4 | 根因5 | 根因6 |
---|---|---|---|---|---|---|
時間片段1 | 0 | 1 | 1 | 0 | 0 | 0 |
時間片段2 | 0 | 1 | 1 | 1 | 0 | 0 |
…… | …… |
評估方法
初始階段,我們(men) 將先抽取其中600條樣本作為(wei) 評估,參賽者給出每個(ge) 根因是否存在(1 表示存在,0表示不存在)給出的結論 我們(men) 將結果與(yu) 標準結果 比對。
優勝方案
第1名:MindOps
作者單位:DAMO Academy, Alibaba Group, Hangzhou, China
方案綜述
我們(men) 提出了NetRCA的模型,考慮了時間、方向、歸因、交互特征。采用多元時間序列相似度和標簽傳(chuan) 播,從(cong) 標記和未標記數據中生成新的訓練數據,以克服了標簽樣本缺乏的問題。
最終設計了一個(ge) 結合了XGBoost、規則集學習(xi) 、歸因模型和圖算法的集成模型,以充分利用所有的數據信息,提高性能。
方案框架
所提出的NetRCA算法主要有三個(ge) 步驟:
- 特征工程
- 數據增強
- 模型集成
1. 特征工程
由於(yu) 每個(ge) 樣本中的時間戳數量不同,直接使用所有的時間戳來訓練模型可能會(hui) 導致偏差。我們(men) 基於(yu) 從(cong) 每個(ge) 樣本中提取的特征來訓練我們(men) 的模型。生成的特征大致可以分為(wei) 四類:時間特征、方向相關(guan) 特征、屬性特征和交互特性。
我們(men) 使用的一些時間特征是基於(yu) 數據的統計,其中每個(ge) 時間戳中的數據被假定為(wei) 獨立的,包括平均值、最小值、最大值、中位數、十分位數和偏數,時間序列的形狀。這些特征部分來自於(yu) tsfresh庫。
根據因果圖,我們(men) 推導出除特征0外的所有節點的歸因特征。如問題描述中所述,這些根本原因最終導致特性0的值較低。我們(men) 還對相關(guan) 性比較高的特征進行了特征交叉。
2. 數據增強
我們(men) 采用Eros算法來計算時序序列的相似度。Eros利用主成分和基於(yu) 特征向量計算相似性。
我們(men) 發現超過一半的訓練數據是沒有標記的,而簡單地刪除這些數據就會(hui) 錯過許多有價(jia) 值的信息。使用Eros測量任何兩(liang) 者之間的相似性,我們(men) 就可通過相似度來標記未標注的數據。
另一個(ge) 重要的增強是相似時間戳的訓練樣本,對應的標簽也基本相似。這裏不同類型的標簽存在不同的標簽對齊細節,可以參考我們(men) 的論文。
3. 模型集成
NetRCA采用集成模型來預測根本原因,采樣XGBoost獲得初始結果,然後結合規則集學習(xi) 、歸因模型和圖算法來得到最後的結果。
第2名:DMIRLAB
作者單位:School of Computer Science, Guangdong University of Technology, Guangzhou, China
方案綜述
我們(men) 提出了一個(ge) 基於(yu) 因果對齊的根本原因定位(CARCL)框架,包括因果對齊和多階段分類器的分類方法。
步驟1:因果對齊
我們(men) 首先進行因果對齊,來產(chan) 生一個(ge) 對齊的訓練數據集。具體(ti) 來說對齊的目標是對齊根本原因的分布。
我們(men) 首先使用基於(yu) 貝葉斯網絡的方法將測試數據集分為(wei) 有故障部分和無故障部分。然後使用KL散度來計算訓練集和測試集分布距離。
步驟2:多階段分類器
在現實場景中,對齊方法很難完美地對齊訓練集和測試集的數據分布。因此,我們(men) 提出了多個(ge) 分類器模型來補充上述對齊方法。通過這樣做,我們(men) 發現它可以產(chan) 生更好的結果。
我們(men) 使用LightGBM進行初步訓練,然後使用偽(wei) 標簽的思路進行了二次訓練。
第3名:0000000
作者單位:Beijing Jiaotong Unviersity,Beijing Baolande Software Corporation
我們(men) 設計了特定的特征工程方法,然後搭建了分類模型和集成模型。我們(men) 也將TextCNN引入多元時間序列分類,以獲得較高的精度。
我們(men) 首先分析一個(ge) 樣本的時間序列特征,以推斷一個(ge) 樣本中是否存在多種根本原因。為(wei) 了利用這些空間特征,我們(men) 設計了兩(liang) 類特征,具體(ti) 細節可以參考我們(men) 的論文。
評論已經被關(guan) 閉。