2023年數學建模美賽春季賽Y題
1、問題描述與(yu) 要求
背景
和許多奢侈品一樣,帆船的價(jia) 值也會(hui) 隨著年齡和市場條件的變化而變化。所附的“2023_MCM_Problem_Y_Boats.xlsx”文件包括2020年12月在歐洲、加勒比地區和美國銷售的大約3500艘36至56英尺長的帆船的數據。一位劃船愛好者向COMAP提供了這些數據。像大多數真實世界的數據集一樣,它可能有缺失的數據或其他問題,需要在分析之前進行一些數據清理。
Excel文件包括兩(liang) 個(ge) 選項卡,一個(ge) 用於(yu) 單體(ti) 帆船,另一個(ge) 用於(yu) 雙體(ti) 船。在每個(ge) 選項卡中,列被標記為(wei) 製造、變體(ti) 、長度(英尺)、地理區域、國家/地區/州、標價(jia) (美元)和年份(製造)。
對於(yu) 給定的製造商、變體(ti) 和年份,除了提供的Excel文件之外,還有許多其他來源可以提供特定帆船特征的詳細描述。您可以選擇任何其他數據來補充所提供的數據集;但是,您必須在建模中包含“2023_MCM_Problem_Y_Boats.xlsx”中的數據。確保充分識別並記錄所使用的任何補充數據的來源。
要求
帆船經常通過經紀人出售。為(wei) 了更好地了解帆船市場,中國香港(特區)的一家帆船經紀人委托您的團隊準備一份關(guan) 於(yu) 二手帆船定價(jia) 的報告。經紀人希望您:
開發一個(ge) 數學模型,解釋所提供的電子表格中每艘帆船的標價(jia) 。包括任何你認為(wei) 有用的預測因素。您可以利用其他來源來了解給定帆船的其他特征(如橫梁、吃水、排水量、索具、帆麵積、船體(ti) 材料、發動機小時數、睡眠容量、淨空、電子設備等)以及按年份和地區劃分的經濟數據。識別並描述所使用的所有數據來源。包括對每艘帆船變種價(jia) 格估計精度的討論。
用你的模型來解釋地區對上市價(jia) 格的影響(如果有的話)。討論是否所有帆船變體(ti) 的區域效應是一致的。說明所注意到的任何區域影響的實際意義(yi) 和統計意義(yi) 。
討論您對給定地理區域的建模如何在香港(SAR)市場中有用。從(cong) 提供的電子表格中選擇一個(ge) 信息豐(feng) 富的帆船子集,分為(wei) 單船體(ti) 和雙體(ti) 船。在香港(SAR)市場查找該子集的可比上市價(jia) 格數據。建模香港(SAR)對您的子集中帆船的每艘帆船價(jia) 格的區域影響(如果有的話)。雙體(ti) 帆船和單體(ti) 帆船的效果是一樣的嗎?
確定並討論您的團隊從(cong) 數據中得出的任何其他有趣且有信息的推論或結論。
為(wei) 香港(SAR)帆船經紀人準備一至兩(liang) 頁的報告。包括一些精心挑選的圖表,以幫助經紀人理解你的結論。
不超過25頁的PDF解決(jue) 方案應包括:
一頁總結表,清楚地描述你解決(jue) 問題的方法,以及你在問題的背景下分析得出的最重要的結論。
目錄。
你的完整解決(jue) 方案。
給經紀人一到兩(liang) 頁的報告。
參考清單。
注意:
MCM競賽有25頁的限製。您提交的所有內(nei) 容均計入25頁的限製(匯總表、目錄、報告、一至兩(liang) 頁的經紀人報告、參考清單和任何附錄)。你必須為(wei) 你的觀點、數據、圖像和在你的報告中使用的任何其他材料引用來源。
術語表
橫梁:船最寬處的寬度。
經紀人:作為(wei) 房產(chan) 買(mai) 賣代表為(wei) 賣方和/或買(mai) 方提供服務的專(zhuan) 家。對於(yu) 這個(ge) 問題,房產(chan) 就是一艘帆船。
雙體(ti) 船:一種多體(ti) 船,有兩(liang) 個(ge) 大小相等的平行船體(ti) 。
排水量:船所排水量的重量。
吃水:使船在不觸底的情況下浮起來所需要的最小水深。
發動機小時數:船舶發動機自新船以來運行的小時數。
淨空高度:機艙內(nei) 站立的高度。
船體(ti) :船或其他船隻的主體(ti) 或外殼,包括底部、側(ce) 麵和甲板。
船體(ti) 材料:製造船體(ti) 的材料。所用材料包括玻璃纖維、鋼鐵、木材和複合材料。
Make:船舶製造商的名稱。
變體(ti) :標識特定船型的名稱。
長度(英尺):船的長度,以英尺為(wei) 單位。
地理區域:船所在的地理區域(加勒比海、歐洲、美國)。
國家/地區/州:船隻所在的具體(ti) 國家/地區/州。
掛牌價(jia) 格(美元):以美元購買(mai) 該船的廣告價(jia) 格。
年份:船製造的年份。
2、解題思路和分析結果
針對問題1
思路:該問題主要是預測價(jia) 格的回歸模型預測問題。而且可以使用的預測算法有很多種,例如:多元回歸分析、Lasso回歸、決(jue) 策樹回歸、隨機森林回歸、GBDT回歸、支持習(xi) 那裏感激回歸等模型。但是使用這些模型時和結合數據的特點進行分析,並且還需要對原始的數據進行很多的預處理與(yu) 變換操作,提取更有用的特征,方可建立較準確的回歸預測模型。如果能夠收集到更多的相關(guan) 數據集,可以增強預測精度。
所以該問題的解決(jue) 路徑應該為(wei) :數據清洗——>數據可視化探索性分析——>數據特征工程(篩選與(yu) 變換)——>建立回歸分析模型——>對結果進行分析。
經過對數據集的相關(guan) 探索和分析,得出使用隨機森林回歸預測模型的預測效果較準確。相關(guan) 數據集的預測效果如下圖:
monohulled sailboats價(jia) 格預測效果
catamarans價(jia) 格預測效果
針對問題2
思路:該問題主要是要結合問題1的分析結果,進行進一步的分析。分析一些分類變量(例如區域、製造商、年份等)與(yu) 價(jia) 格之間的的關(guan) 係。可以使用定量分析與(yu) 可視化分析相結合的方式,主要可參考的方法有:方差分析、卡方檢驗等。經過我對數據的探索和分析,一些可參考的結果如下圖:
地區和價(jia) 格的多重檢驗結果
不同區域的價(jia) 格分布情況
針對問題3
思路:該問題屬於(yu) 一個(ge) 數據相似性對比,然後建立回歸模型進行預測的問題。例如:根據收集的而外GDP數據,找到和香港GDP情況相似的地區,然後根據區域找到數據子集,然後對自己進行建模與(yu) 分析從(cong) 而作為(wei) 香港的售價(jia) 參考模型。如果數據樣本較多,可使用聚類分析,將找到的子集劃分為(wei) 更細的子集,對數據進行詳細分組和分析。因為(wei) 最終還是需要建立價(jia) 格預測模型,所以可以嚐試一些回歸模型的算法,對數據進行預測,然後作為(wei) 香港的預測結果。經過我的一些數據真理與(yu) 分析,一些可參考的結果示例如下所示:
經濟數據變化趨勢的相似性分析
定價(jia) 模型的預測值和真實值的對比效果圖
針對問題4
思路:討論您的團隊從(cong) 數據中得出的任何其他有趣且信息豐(feng) 富的推論或結論。該問題是一個(ge) 開放性的問題,可以進行一些數據可視化分析等,便於(yu) 發現數據的關(guan) 係。並且可以結合前麵的結果進行分析。下麵真實一些發現的數據規律:
不同地區GDP和價(jia) 格高低之間的相關(guan) 性
不同地區下長度和價(jia) 格之間的關(guan) 係
查找資料和數據的網站
找數據:
眾(zhong) 所周知,國賽需要的數據都會(hui) 以Excel或其他的形式放入附件中,而美賽與(yu) 國賽不同的是,這幾年的比賽幾乎都不給數據,就算是給了參考數據的ICM,其網站也會(hui) 因為(wei) 某種原因導致打不開,這裏推薦一些數據的查詢地址:
美國統計局:
https://www.census.gov/
美國農(nong) 業(ye) 部數據:
https://www.usda.gov/topics/data
世界衛生組織數據:
https://www.who.int/data/gho
美國政府網站:
https://www.usa.gov/
美國勞工部勞動統計局:
https://www.bls.gov/
美國商務部:
https://www.commerce.gov/
美國國際貿易協會(hui) :
https://www.usitc.gov/
美國交通統計局:
https://www.bts.gov/
美國國家統計局:
https://www.fedstats.gov/
缺數據:
部分情況下,真實數據不易找到,可以嚐試以下兩(liang) 個(ge) 解決(jue) 辦法:
第一,如果這道題並沒有限定國家,可以考慮以中國作為(wei) 研究對象,找自己國家的數據還是相對較為(wei) 簡單。
第二,利用數據挖掘的能力,需要一定的技術手段去收集數據,比如爬蟲技術,自己去爬一些可能用得到的內(nei) 容。或者可以去一些數據科學競賽平台上去找一些現成可用的數據集,如:
天池大數據數據集:
https://tianchi.aliyun.com/dataset/?spm=5176.12281905.0.0.358b5699IjonJQ
UCI機器學習(xi) 數據庫:
https://archive.ics.uci.edu/ml/index.php
評論已經被關(guan) 閉。