2025國際數學建模競賽IMMC冬季賽已經開啟報名!想參加的同學們(men) 可以開始準備啦~
2024 IMMC比賽日程時間線
報名注冊 | 秋季賽報名截止:
2024 年 11 月 21 日 冬季賽報名: 2024 年 11 月 25 日至 2025 年 1 月 22 日 |
秋季賽/
冬季賽 |
2024 年 11 月 21 晚 8 時至 11 月 25 日晚 8 時(秋季賽)
2025 年 1 月 22 日晚 8 時至 1 月 26 日晚 8 時(冬季賽) |
國際賽 | 2025 年 3 月 6 日晚 8 時至 3 月 11 日晚 8 時 |
答辯決(jue) 賽 | 2025年4月下旬,香港 |
國際峰會(hui) | 2025 年暑期,香港 |
要申請理工科專(zhuan) 業(ye) 的同學可以重點關(guan) 注一下該競賽,想要參加的同學也可以盡早谘詢報名,合理規劃學習(xi) 時間!
還有不到半個(ge) 月就要開賽啦!對於(yu) 數據分析的新手小白,提升隊伍競爭(zheng) 力的關(guan) 鍵就是對模型有一定的掌握和了解,並且能夠熟練地運用軟件工具。今天將帶領大家學習(xi) 一下常見的模型!
數學建模模型大致可分為(wei) 五類:
預測模型,評價(jia) 模型,分類模型,優(you) 化模型,統計分析模型
本文將對預測模型、評價(jia) 模型、分類模型、統計分析模型的一些常用算法模型的分析原理和軟件操作進行詳細介紹。
一、預測模型
預測模型是數學建模中利用數學、統計和算法,基於(yu) 曆史數據、趨勢及外部因素,構建模型以預測未來現象、趨勢或結果的工具。它廣泛應用於(yu) 經濟、金融、市場、氣象、環境等領域,旨在提供準確預測,輔助決(jue) 策者製定有效策略。本文將詳細介紹其中3種數學建模中常用的預測模型。
01、時間序列ARIMA模型
ARIMA模型,全稱為(wei) 自回歸差分移動平均模型,是時間序列數據分析和預測的強大工具。它由自回歸(AR)、差分(I)和移動平均(MA)三部分組成。ARIMA模型適用於(yu) 平穩或非平穩但可轉化為(wei) 平穩的時間序列數據,能夠捕捉長期趨勢和季節性變化。
模型創新點
模型理論
ARIMA模型的一般形式為(wei) ARIMA(p, d, q),其中:
p:自回歸項數,表示模型中使用的過去觀測值的數量。
d:差分的階數,表示為(wei) 了使序列平穩而進行的差分次數。
q:移動平均項數,表示模型中用於(yu) 預測誤差的過去誤差項的數量。
ARIMA(p, d, q)的公式可以表示
為(wei) :
是自回歸多項式,L是滯後算子
表示對原始時間序列
進行d階查分
是移動平均多項式
是白噪聲序列
代表誤差項c是常數項(在某些情況下可以為(wei) 0)
SPSSPRO軟件操作
案例:基於(yu) 1985-2021 年某雜誌的銷售量,預測某商品的未來五年的銷售量。
部分結果展示
02、灰色預測模型GM(1,1)
灰色預測模型GM(1,1)利用累加生成算子使數據具備指數規律,然後建立一階微分方程求解,最後將結果累減還原得到預測值。該模型對數據要求不高,計算簡便,適合短期預測,但對長期預測和非單調變化的數據序列效果較差。
模型理論
在建立灰色預測模型之前必須要保障建模方法的可行性,即需要對已知的原始數據進行級比檢驗 ,設初始非負數據序列為(wei) :
,隻有當所有的 σ(k) 全部落入計算範圍內(nei) 才可以進行模型的建立。
級比的計算和判斷公式分別為(wei) :
通過累加運算後得到的
一階累加序列可以弱化
的擾動:
是
的緊鄰均值生成的序列:
故可以求得 GM(1,1)模型對應微分方程為(wei) :
為(wei) GM(1,1)模型的背景值。
構建數據矩陣 B 及數據向量 Y ,分別為(wei) :
則灰色微分方程的最小二乘估計參數列滿足
,其中,a主要控製係統發展態勢,被稱為(wei) 發展係數;b的大小反映數據變化的關(guan) 係,被稱為(wei) 灰色作用量。建立模型並求解生成值與(yu) 還原值。依據公式求解, 可得到預測模型 :
經過累減,得到還原預測值。
SPSSPRO軟件實現
案例:基於(yu) 某雜誌 2006-2021 年某產(chan) 品的年銷售量,使用灰色預測模型對未來三年銷售量進行預測。
部分結果展示:
03、BP神經網絡
BP神經網絡,即反向傳(chuan) 播神經網絡,是一種多層前饋神經網絡。它由輸入層、隱藏層和輸出層組成,通過反向傳(chuan) 播算法調整權重和偏置,以最小化預測誤差。輸入層接收數據,隱藏層進行複雜處理,輸出層給出預測結果。BP神經網絡能夠處理非線性關(guan) 係,具有強大的學習(xi) 和適應能力,但也存在模型複雜度高、易陷入局部最優(you) 解等缺點。
模型理論
BP神經網絡的核心是反向傳(chuan) 播算法,該算法用於(yu) 調整網絡中的權重和偏置,以最小化預測誤差。在訓練過程中,網絡首先根據輸入數據前向傳(chuan) 播得到預測結果,然後計算預測誤差,接著利用梯度下降法等優(you) 化算法反向傳(chuan) 播誤差,更新網絡中的權重和偏置,以減小誤差。這個(ge) 過程會(hui) 不斷迭代,直到達到預設的停止條件(如誤差小於(yu) 某個(ge) 閾值、迭代次數達到上限等)。
以一個(ge) 三層 BP 神經網絡舉(ju) 例:
隱含層的輸出量設為(wei) Fj,輸出層的輸 m 量設為(wei) Ok, 係統 的激勵函數設為(wei) G, 學習(xi) 速率設為(wei) β,則其三個(ge) 層之間有如下數學關(guan) 係:
係統期望的輸出量設為(wei) Tk,則係統的誤差 E 可由 實際輸出值和期望目標值的方差表示,具體(ti) 關(guan) 係表達式:
並令
利用梯度下降原理, 則係統權值和偏置的更新公式如下:
SPSSPRO軟件實現
案例:研究“幸福感”的影響因素,有四個(ge) 變量可能對幸福感有影響,他們(men) 分別是:經濟收入、受教育程度、身體(ti) 健康、情感支持。建立支持 bp 神經網絡模型來預測幸福度。
部分結果展示:
二、評價(jia) 模型
評價(jia) 模型是數學建模中用於(yu) 對某個(ge) 係統、方案或決(jue) 策進行評估的數學工具,它結合了定性和定量的分析方法,通過構建評價(jia) 指標體(ti) 係、確定權重、計算得分等步驟,對評價(jia) 對象進行綜合評價(jia) ,從(cong) 而幫助決(jue) 策者做出科學合理的選擇。
本節將詳細介紹以下3種數學建模中常用的評價(jia) 模型,包括:層次分析法(AHP)、模糊綜合評價(jia) (FCE)、優(you) 劣解距離法(TOPSIS)
01、層次分析法(AHP)
ARIMA模型,全稱為(wei) 自回歸差分移動平均模型,是時間序列數據分析和預測的強大工具。它由自回歸(AR)、差分(I)和移動平均(MA)三部分組成。ARIMA模型適用於(yu) 平穩或非平穩但可轉化為(wei) 平穩的時間序列數據,能夠捕捉長期趨勢和季節性變化。
模型原理
步驟 1:建立層次結構模型。
步驟 2:構造判斷(成對比較)矩陣。
步驟 3:求解判斷矩陣的特征向量。
步驟 4:對判斷矩陣的一致性進行檢驗。
SPSSPRO軟件實現
案例:通過構建評價(jia) 指標(景色、費用,居住,飲食、旅途)對候選旅遊地(桂林、黃山,北戴河)量化評價(jia) ,進行選擇。(這裏層次分析法簡化版主要針對評價(jia) 指標(景色、費用,居住,飲食、旅途)的權重建立分析)
部分結果展示:
02、模糊綜合評價(jia) (SCE)
模糊綜合評價(jia) 借助模糊數學的一些概念,對實際的綜合評價(jia) 問題提供評價(jia) ,即模糊綜合評價(jia) 以模糊數學為(wei) 基礎,應用模糊關(guan) 係合成原理,將一些邊界不清、不易定量的因素定量化,進而進行綜合性評價(jia) 的一種方法。
模型理論
步驟1:明確評價(jia) 因素集
步驟2:設定評語等級集
步驟3:構建模糊關(guan) 係矩陣
步驟4:分配評價(jia) 因素的權重
步驟5:實施模糊綜合評價(jia)
SPSSPRO軟件實現
案例:某飲食行業(ye) 品牌發布一款新零食,欲了解消費者對該種零食的接受程度。一共有五個(ge) 評價(jia) 指標(分別是價(jia) 格、味道、包裝、營養(yang) 與(yu) 性價(jia) 比),以及評語共有四項(分別是很歡迎,歡迎,一般,不歡迎)。
部分結果展示:
03、優(you) 劣解距離法(TOPSIS)
TOPSIS 法是一種常用的組內(nei) 綜合評價(jia) 方法,能充分利用原始數據的信息,其結果能精確地反映各評價(jia) 方案之間的差距。基本過程為(wei) 基於(yu) 歸一化後的原始數據矩陣,采用餘(yu) 弦法找出有限方案中的最優(you) 方案和最劣方案,然後分別計算各評價(jia) 對象與(yu) 最優(you) 方案和最劣方案間的距離,獲得各評價(jia) 對象與(yu) 最優(you) 方案的相對接近程度,以此作為(wei) 評價(jia) 優(you) 劣的依據。
模型原理
步驟1:原始數據的正向化與(yu) 趨勢統一
步驟2:確定最優(you) 解與(yu) 最劣解
步驟3:計算評價(jia) 對象與(yu) 最優(you) 、最劣解的距離
步驟4:評價(jia) 對象與(yu) 最優(you) 方案的接近程度
SPSSPRO軟件實現
案例:為(wei) 了客觀地評價(jia) 各風景地點的性價(jia) 比,根據風景、人文、擁擠程度、票價(jia) 等因素對各風景地點進行評估。
部分結果展示:
三、分類模型
分類模型是數學建模中一種根據數據特征將數據集中的實例劃分為(wei) 不同類別或組的模型。這些模型在機器學習(xi) 、數據挖掘、統計分析等領域有著廣泛的應用,能夠解決(jue) 許多實際問題。
01、邏輯回歸
邏輯回歸是一種線性回歸分析模型,屬於(yu) 有監督學習(xi) 的分類模型,主要用於(yu) 二分類問題,即研究二分類因變量與(yu) 一些影響因素之間關(guan) 係的一種多變量分析方法,如果是多分類問題,則要用到多分類邏輯回歸去研究因變量與(yu) 一些影響因素之間的關(guan) 係。邏輯回歸直接建模分類可能性,無需假設數據分布,避免了假設分布不準確的問題。
模型原理
模型原理邏輯回歸模型采用了對數幾率函數(也稱為(wei) sigmoid函數),該函數提供了一個(ge) 平滑且可微的過渡,使得模型能夠逐漸地從(cong) 預測一個(ge) 類別轉變為(wei) 預測另一個(ge) 類
別:
即
其中, y 視為(wei) x 為(wei) 正例的概率, 1-y 為(wei) x 為(wei) 其反例的概率,兩(liang) 者的比值稱為(wei) 幾率(odds),所以,邏輯回歸中事實上因變量值應是 odds。將 y 視為(wei) 類後驗概率估計,重寫(xie) 公式有:
SPSSPRO軟件實現
案例:根據年齡、月收入、性別、家庭人口等影響因素(自變量)來研究工薪群體(ti) 的上下班交通工具是公交地鐵、自行車、還是私家車(因變量)。
部分結果展示:
02、決(jue) 策樹
決(jue) 策樹就像一棵從(cong) 根部長出的樹,每個(ge) 節點代表一個(ge) 決(jue) 策點,根據某個(ge) 特征的取值將數據集分裂成不同的子集,這個(ge) 過程一直進行下去,直到滿足某個(ge) 停止條件,每個(ge) 葉節點代表了一個(ge) 最終的分類結果。
在構建決(jue) 策樹時,通常會(hui) 選擇能夠最大化信息增益的特征進行分裂,即選擇那個(ge) 能夠使得分裂後的數據集“更純淨”(即同類樣本更集中)的特征。熵是一個(ge) 衡量數據集“純淨度”的指標,熵越小表示數據集越純淨。
模型理論
首先,從(cong) 整個(ge) 訓練集出發,尋找最佳的初始分裂點,這一步驟涉及對所有潛在特征的評估,通過量化每個(ge) 特征作為(wei) 分裂標準的優(you) 劣,確定當前最優(you) 的分類指標。
隨後,基於(yu) 選定的最優(you) 特征進行數據集劃分,並遞歸地在每個(ge) 新生成的子集上重複上述過程,直至滿足停止條件,如所有葉節點內(nei) 的記錄均屬於(yu) 同一類別。
之後,進行測試屬性的選擇。
SPSSPRO軟件實現
案例:根據紅酒的顏色強度,苯酚,類黃酮等變量,生成一個(ge) 能夠區分琴酒,雪莉,貝爾摩德三種品種的紅酒的決(jue) 策樹。
部分結果展示:
03、隨機森林
隨機森林是一種集成學習(xi) 方法,它構建了多棵決(jue) 策樹,並通過匯總這些樹的預測結果來進行分類。
每棵決(jue) 策樹都是獨立構建的,並且它們(men) 之間沒有直接的交互,在構建每棵樹時,隨機森林采用了裝袋(Bagging)的策略,即通過有放回地隨機抽樣來生成訓練集,使得每棵樹的訓練集都是不同的。此外,隨機森林還在特征選擇時引入了隨機性,即在每個(ge) 分裂點隨機選擇一部分特征進行考察,而不是考慮所有特征,這樣做可以增加模型的多樣性,從(cong) 而提高整體(ti) 的分類性能。
模型原理
步驟1:數據集準備與(yu) 抽樣
步驟2:決(jue) 策樹構建
步驟3:集成決(jue) 策
步驟4:模型評估與(yu) 選擇
SPSSPRO軟件實現
案例:根據紅酒的顏色強度,脯氨酸,類黃酮等變量,生成一個(ge) 能夠區分琴酒,雪莉,貝爾摩德三種品種的紅酒的隨機森林。
部分結果展示:
四、分類模型
除了數學建模中常見的預測、評價(jia) 、分類模型,還會(hui) 涉及一些簡單的統計分析方法,例如差異性分析、相關(guan) 性分析、聚類分析等。常用的差異性分析方法主要包括參數檢驗和非參數檢驗兩(liang) 大類,常用的參數檢驗方法包括t檢驗和方差分析。常用的相關(guan) 性分析方法有皮爾遜相關(guan) 係數、斯皮爾曼等級相關(guan) 係數和肯德爾等級相關(guan) 係數等。
01、Pearson相關(guan) 係數
Pearson相關(guan) 係數是一種衡量兩(liang) 個(ge) 連續變量之間線性相關(guan) 程度的統計指標。它評估當一個(ge) 變量發生變化時,另一個(ge) 變量也隨之發生變化的程度。取值範圍在-1到+1之間,其中+1表示完全正相關(guan) ,-1表示完全負相關(guan) ,0表示沒有線性相關(guan) 。
模型原理
兩(liang) 個(ge) 變量之間的Pearson相關(guan) 係數定義(yi) 為(wei) 兩(liang) 個(ge) 變量之間的協方差與(yu) 它們(men) 各自標準差乘積的商。公式如下:
對於(yu) 樣本數據,我們(men) 使用 r 的樣本估計值,通常用小寫(xie) r 表示:
其中,n 是樣本大小,xi 和 yi 是樣本觀測值,xˉ 和 yˉ 分別是 X 和 Y 的樣本均值。
SPSSPRO軟件實現
案例:人的身高和體(ti) 重之間的相關(guan) 性研究。
部分結果展示:
02、Spearman等級相關(guan) 係數
Spearman等級相關(guan) 係數是一種非參數統計方法,用於(yu) 衡量兩(liang) 個(ge) 變量之間等級或排名的相關(guan) 性。它不需要變量數據服從(cong) 正態分布,也不要求變量之間具有線性關(guan) 係。
模型理論
1.對每個(ge) 變量的觀測值進行排序,並賦予等級(通常是排名,即第1小的為(wei) 1,第2小的為(wei) 2,依此類推)。
2.使用這些等級數據計算Pearson相關(guan) 係數。
SPSSPRO軟件實現
Spearman相關(guan) 係數在SPSSPRO的操作方法與(yu) 上述Pearson相關(guan) 係數的操作相似,指定兩(liang) 個(ge) 變量(連續或有序),係統將根據數據的等級排序計算相關(guan) 係數並輸出統計量,這裏就不再贅述。
03、Kendall's tau b相關(guan) 係數
Kendall等級相關(guan) 係數是另一種用於(yu) 評估兩(liang) 個(ge) 有序變量之間相關(guan) 性的非參數統計方法。與(yu) Spearman等級相關(guan) 係數類似,但它更適用於(yu) 處理存在結(即兩(liang) 個(ge) 或多個(ge) 觀測值具有相同的等級)的情況。
模型原理
Kendall's tau-b 係數是用於(yu) 反映兩(liang) 個(ge) 有序分類變量相關(guan) 性的指標。其計算公式為(wei) :
其中 P 是一致對的數量,Q 是不一致對的數量,T 是在 x 中但不在 y 中形成結的數量,U 是在 y 中但不在 x 中形成結的數量。如果 x 和 y 中有相同的分組且數量相同,則不計入 T 或 U。
SPSSPRO軟件實現
Kendall's tau b相關(guan) 係數在SPSSPRO的操作方法與(yu) 上述Pearson相關(guan) 係數的操作相似,指定兩(liang) 個(ge) 有序變量,係統將根據數據的等級和是否存在結來計算相關(guan) 係數並輸出統計量,這裏就不再贅述。
評論已經被關(guan) 閉。