在數學建模競賽中,無論是優(you) 化模型、分類模型、預測模型、規劃模型、評價(jia) 模型等都離不開數據處理,那麽(me) 常見的數據處理問題都有哪些?相應的處理方法是什麽(me) ?今天就給大家整理一份資料。
01
數據預處理
所謂數據預處理,就是指在正式做題之前對數據進行的一些處理。在有些情況下,出題方提供的數據或者網上查找的數據並不能直接使用,比如缺少數據甚至是異常數據,如果直接忽略缺失值,或者沒發現異常數據,都會(hui) 嚴(yan) 重地影響結果的正確性。此外,帶單位的數據也需要通過無量綱處理以減少單位對計算的影響。因此正確的數據預處理是前期值得關(guan) 注的任務。
02
缺失數據
1、均值填充法
如果缺失值是數值型的,就根據該屬性在其他所有對象的取值的平均值來填充該缺失的屬性值,比如年齡、距離等屬性。
如果缺失值是非數值型的,就根據統計學中的眾(zhong) 數原理,用該屬性在其他所有對象的取值次數最多的值(即出現頻率最高的值)來補齊該缺失的屬性值。比如性別、類別等屬性。
2、就近補齊法
對於(yu) 一個(ge) 包含缺失值的對象,就近補齊法在完整數據中找到一個(ge) 與(yu) 它最相似的對象,然後用這個(ge) 相似對象的值來進行填充。不同的問題可能會(hui) 選用不同的標準來對相似進行判定。該方法的難度在於(yu) 如何定義(yi) 相似標準,主觀因素較多。
3、聚類填充法
聚類是按照某個(ge) 特定標準(如距離、密度等)把一個(ge) 數據集分割成不同的類或簇,使得同一個(ge) 簇內(nei) 的數據對象的相似性盡可能大,同時不在同一個(ge) 簇中的數據對象的差異性也盡可能地大。也即聚類後同一類的數據盡可能聚集到一起,不同類數據盡量分離。把數據分好類後可以在每個(ge) 類別中處理缺失值。最經典的聚類算法是K-近鄰算法(KNN),建議同學們(men) 在使用時根據數據屬性合理選擇距離和K(類別)個(ge) 數。
4、回歸方程法
用不含缺失值的數據集建立回歸方程,把缺失值的點代入回歸方程即可預測缺失值,在具體(ti) 使用時應該注意要留出一部分數據驗證你的回歸方程的準確性(建議測試數據比例20%)。
03
異常值處理
異常值是指樣本中的個(ge) 別值,其數值明顯異於(yu) 其他觀測值,異常值也叫離群點。在比賽中,出題方可能會(hui) 故意提供異常數據,考察參賽選手的數據分析和處理能力。首先介紹異常值的檢測方法,之後介紹異常值的處理方法。
04
檢測方法
1、 基於(yu) 實際問題
在一些實際問題中,一方麵可以用物理模型剔除一些異常值,比如用圓周運動的臨(lin) 界條件篩選速度異常值。另一方麵,可以根據生活常識剔除異常值,比如車速有上限。
2、基於(yu) 統計學原理
若數據服從(cong) 正態分布,根據正態分布的定義(yi) 可知,距離平均值之外的概率為(wei) ,這屬於(yu) 極小概率事件,在默認情況下我們(men) 可以認定,距離超過平均值3δ的樣本是不存在的。因此,當樣本距離平均值大於(yu) 3δ,認為(wei) 該樣本為(wei) 異常值。
3、箱線圖法
分位數:把數據分布劃成4個(ge) 相等的部分,每個(ge) 部分表示數據分布的四分之一,稱為(wei) 四分位數,100-分位數通常稱為(wei) 百分位數,即劃為(wei) 100個(ge) 大小相等的部分。中位數、四分位數和百分位數是使用最廣泛的分位數。
四分位極差:第1個(ge) 和第3個(ge) 四分位數之間的距離稱為(wei) 四分位數極差,定義(yi) 為(wei) :
五數概括由中位數()、四分位數
,最大值和最小值組成。
異常值識別的通常規則:挑選落在第3個(ge) 四分位數之上或第1個(ge) 四分位數之下至少 處的值。箱線圖的斷點一般在四分位數上,盒的長度是四分位數極差
,中位數用盒內(nei) 的線標記,盒外的兩(liang) 條線(胡須)延申到最小和最大觀測值。僅(jin) 當最大和最小觀測值超過四分位數不到
時,胡須擴展,否則胡須再出現在四分位數的
之內(nei) 的最極端觀測值處終止,剩下的情況個(ge) 別列出。
該方法的優(you) 點在於(yu) 既能對數據進行統計學描述,了解數據的整體(ti) 特征,又能可視化展示結果,簡潔清晰。
05
處理方法
1、為(wei) 了避免異常值影響結果的正確性,直接刪除。
2、在總體(ti) 樣本量較少的情況下,不能簡單地刪除異常值,因為(wei) 樣本量也很影響結果,因此可以將異常值視為(wei) 缺失值,使用缺失值處理方法來處理異常值。
06
無量綱化處理
無量綱化,也稱為(wei) 數據的規範化,是指不同指標之間由於(yu) 存在量綱不同致其不具可比性,故首先需將指標進行無量綱化,消除量綱影響後再進行接下來的分析。
常見的無量綱化處理方法主要有標準化(各指標均值為(wei) 0,標準差為(wei) 1)、均值化(各指標數據構成協方差矩陣)和歸一化(將一列數據“拍扁”到某個(ge) 固定區間(常為(wei) [0,1]),和最大/小值有關(guan) )
如歸一化公式:
07
數據量問題
數據樣本量不夠或者查不到數據,可以在一定約束條件下用隨機數生成,模型適用即可。但切記要對模型做靈敏性分析和誤差分析,來證明隨機生成的數據對模型的影響非常小。
數據不夠確實令人做題時無從(cong) 下手,但物極必反,數據太多也不是什麽(me) 好事,如果某個(ge) 賽題提供了很多數據,需要對多維數據做降維處理,減少數據冗餘(yu) ,常見的方法有主成分分析法(PCA)、線性判別分析等。
08
預測模型
預測模型要根據題目所給數據樣本量的大小,選擇合適的方法。
1、灰色預測模型(樣本量<15)
數據樣本點個(ge) 數少,一般建議為(wei) 6-15個(ge) ,或者數據呈現指數或曲線的形式。
2、微分方程預測(樣本量<100)
無法直接找到原始數據之間的關(guan) 係,但可以建立微分方程,利用推導出的公式預測數據。
3、回歸預測(100<樣本量<1000)
回歸預測就是把預測的相關(guan) 性原則作為(wei) 基礎,把影響預測目標的各因素找出來,然後找出這些因素和預測目標之間的函數關(guan) 係的近似表達,並且用數學的方法找出來。依據相關(guan) 關(guan) 係中自變量的個(ge) 數不同分類,可分為(wei) 一元回歸分析預測法和多元回歸分析預測法。
09
插值與(yu) 擬合
擬合與(yu) 插值在數學建模競賽中非常常見,很多同學都知道它們(men) 主要用於(yu) 對數據的補全和基本的趨勢分析。但有以下幾點需要留意。
1、擬合與(yu) 插值區別:插值是離散函數逼近的重要方法,利用它可通過函數在有限個(ge) 點處的取值狀況,估算出函數在其他點處的近似值;擬合是指將平麵上的一係列點與(yu) 光滑曲線連接起來。
2、靈活掌握不同插值方法的適用條件:
拉格朗日插值(一維)
分段線性插值(多條件)
三次樣條插值(空間中的點)
3、靈活選擇擬合函數
比如一道經典的數模國賽車流量預測問題,對於(yu) 車流量,每個(ge) 點代表每一小時的平均值,而且車流量可以看作是以天為(wei) 周期的周期函數。再聯係不規則的函數曲線,我們(men) 可以考慮用傅裏葉級數擬合。
10
推薦工具
數據分析離不開專(zhuan) 業(ye) 工具的幫助,建議同學們(men) 掌握以下數據處理工具:
Excel:越簡單,越強大。你可能忽略了這個(ge) 最常見的軟件,但在數據處理方麵,它毫不遜色專(zhuan) 業(ye) 軟件,在數據可視化方麵也方便操作。
SPSS:用於(yu) 統計分析,圍繞統計學知識的一些基本應用,包括描述統計,方差分析,因子分析,主成分分析,基本的回歸,分布的檢驗等等,我們(men) 前邊提到的箱線圖就可以用SPSS一鍵生成!
Python:熟練掌握Numpy,Pandas,Matplotlib庫。python的強大無需多言,綜合且高效!
Tableau :主要用於(yu) 數據可視化展示。操作簡單,可以直接用鼠標來選擇行、列標簽來生成各種不同的圖形圖表。而且Tableau的設計、色彩及操作界麵簡單清新,做出來的圖更美觀。
最後提醒一點,工具在精不在多,熟練掌握一個(ge) 工具遠遠好過每個(ge) 工具隻掌握一點。
評論已經被關(guan) 閉。