2022年數學建模美賽C題
--Data Paralysis? Use Our Analysis!
背景
市場交易員經常買(mai) 賣波動性資產(chan) ,目的是收益最大化。每一次買(mai) 賣通常都會(hui) 產(chan) 生一筆手續費。黃金和比特幣是其中兩(liang) 種波動性資產(chan) 。
圖 1:黃金日價(jia) 格(美元/盎司)。資料來源:倫(lun) 敦黃金市場協會(hui) ,2021 年 11 月 9 日
圖 2:比特幣每日價(jia) 格(美元/比特幣)。
資料來源:納斯達克,2021 年 11 月 9 日
要求
交易員要求你們(men) 建立一個(ge) 模型,該模型僅(jin) 使用過去的每日價(jia) 格來確定交易員每天是否應該買(mai) 入、持有或出售其投資組合中的資產(chan) 。
你於(yu) 2016 年 11 月 9 日以 1000 美元開始。您的交易期為(wei) 五年,從(cong) 2016 年 11 月 9 日至 2021 年 10 月 9 日。在每個(ge) 交易日,交易員將有一個(ge) 投資組合,包括現金、黃金和比特幣 ,單位分別為(wei) 美元、盎司和比特幣。三種資產(chan) 初始持有量為(wei) 。每筆交易(買(mai) 或賣)的手續費成本為(wei) 交易金額的 %。假設= 1%, = 2%。持有資產(chan) 沒有成本。
注意,比特幣可以每天進行交易,但黃金隻在開市的日子進行交易,詳見價(jia) 格數據文件 LBMA-GOLD.csv 和 BCHAIN-MKPRU.csv。
建立模型過程中,你們(men) 隻能使用本題所提供的兩(liang) 個(ge) 電子表格中的數據,即 LBMA-GOLD.csv 和 BCHAIN-MKPRU.csv
開發一個(ge) 模型,僅(jin) 基於(yu) 截止到當天的價(jia) 格數據,給出每日最佳的交易策略。通過使用你的模型和策略,給出 1000 美元的初始投資,到 2021 年 10 月 9 日時的資產(chan) 價(jia) 值?
提供證據以證明您的模型為(wei) 最佳策略。
確定該策略對交易成本(手續費)的敏感度。即交易成本是如何影響策略和結果的?
與(yu) 一份兩(liang) 頁以內(nei) 的備忘錄,向交易員展示你們(men) 的策略、模型和結果。
最終提交的 PDF 論文的總長度不要超過 25 頁,並且應包括:
▲一頁摘要
▲目錄
▲完整解題方案
▲1~2 頁的備忘錄
▲參考文獻列表
注意:MCM 比賽的參賽論文有 25 頁的限製。你們(men) 隊提交的論文中所有內(nei) 容(包括摘要、目錄、參考文獻和任何附錄)需控製在 25 頁以內(nei) 。論文中所用到的(別人的)想法、圖片和以及任何其他材料都需要注明來源。
附件
提供的兩(liang) 個(ge) 數據文件包含了解決(jue) 此問題的唯一數據。
LBMA-GOLD.csv
BCHAIN-MKPRU.csv
數據描述
1、LBMA-GOLD.csv
日期格式:mm-dd-yyyy(月-日-年)
美元(PM):指定日期每盎司黃金的收盤價(jia) (單位:美元)
2、BCHAIN-MKPRU.csv
日期格式:mm-dd-yyyy(月-日-年)
價(jia) 格:指定日期單個(ge) 比特幣的價(jia) 格(單位:美元)
解題思路與(yu) 問題分析
市場交易者頻繁買(mai) 賣波動性資產(chan) ,目標是最大化他們(men) 的總回報。每次買(mai) 賣通常都會(hui) 有傭(yong) 金。兩(liang) 種這樣的資產(chan) 是黃金和比特幣。您需要開發一種模型,該模型僅(jin) 使用迄今為(wei) 止的每日價(jia) 格流來確定交易員每天是否應該購買(mai) 、持有或出售其資產(chan) 配置。
問題一共四問,拋開最後的建議信不談那就是三個(ge) 子問題。而問題二是驗證問題一結論的正確性,問題三是對問題一結果的靈敏性檢驗,所以隻需要破解問題一即可破解整個(ge) 問題。問題一是需要我們(men) 求解在2021年9月10日的最大收益,這個(ge) 最大收益怎麽(me) 求?很顯然,這是一個(ge) 投資組合與(yu) 時間序列的綜合問題,需要基於(yu) 整個(ge) 數據進行分析與(yu) 挖掘。
而幸運的是,問題所涉及的可選資產(chan) 配置並不多,隻有黃金和比特幣兩(liang) 種產(chan) 品。一般的如果碰上了多支股票進行配置那麽(me) 還需要基於(yu) 它們(men) 的統計特性進行一輪投資選股。對於(yu) 這種時間序列+投資組合的問題,我們(men) 一般把它分解為(wei) “預測”+“優(you) 化”兩(liang) 步走。這個(ge) 地方如果使用動態規劃則需要謹慎,因為(wei) 在這種投資組合問題下使用動態規劃是無法預判未來發生的情況的,隻有在開啟上帝視角的投資問題中才可以使用動態規劃,所以就我了解的情況而言,使用動態規劃的同學普遍做的比較差。
就預測的部分來講,這是個(ge) 典型的數據驅動過程。數據驅動的背景之下,命題人想要考察的本質上還是學生對數據的敏感度和處理基本功。那麽(me) 對於(yu) 時間序列數據而言,這種麵板數據的重要性要高於(yu) 常規數據,因為(wei) 麵板數據中每一條樣本它是有序的,是分了曆史和未來的。
你永遠不可能用未來信息推曆史,因為(wei) 你根本不會(hui) 知道未來。而就時間序列的處理方法,僅(jin) 僅(jin) 是一個(ge) 預測,也會(hui) 有很多的一題多解的策略。那麽(me) 就方法選擇而言,不少同學可能會(hui) 盲目的使用灰色係統這一新晉之秀,而忽略了這個(ge) 問題是否滿足灰色係統的條件和特征。時間序列預測的方法需要取決(jue) 於(yu) 數據的條目和平穩性,小體(ti) 量數據可以用回歸做長而粗的趨勢預測,中體(ti) 量數據可以用灰色係統做中而穩的趨勢預測,大體(ti) 量數據可以用神經網絡或者ARIMA做短而精的精確預測。
這個(ge) 問題中有五年數據,以日作為(wei) 頻率再考慮休盤也就是將近1600餘(yu) 條數據,體(ti) 量算中大型數據,可以使用ARIMA係列。而不少同學問這個(ge) 問題用神經網絡可不可以預測呢,其實是可以的,但是神經網絡的預測其實實驗以後就知道並沒有那麽(me) 好。
就優(you) 化的部分來講,優(you) 化模型是基於(yu) 之前的預測結果進行。比如,如果投資者可以每日調倉(cang) (也就是每天都可以改變我的資產(chan) 配置),那麽(me) 很顯然,模型隻需要對明天的價(jia) 格做預估就可以知道把錢投在誰身上才會(hui) 賺(或者趕緊套現出來就不會(hui) 虧(kui) 很多)。這是短期預測的目的,盈利也就隻需要算明天預計價(jia) 格減去今天的購買(mai) 價(jia) 格就可以算出升值了多少。
那麽(me) 投資的第一個(ge) 思路有了,就是用預測代替上帝視角;而第二個(ge) 思路是用什麽(me) 來預測呢?馬科維茨理論給了我們(men) 很好的解釋:投資無非是兩(liang) 個(ge) 要點,第一要利潤大,第二要風險小,所以在投資之前就要先選擇好發展潛力好的產(chan) 品,投資的時候不要把雞蛋都放在一個(ge) 籃子裏,套現以後隻要賺到了錢就不用過分追責認為(wei) 自己是不是少賺了錢。那麽(me) 這個(ge) 問題就被抽象為(wei) 一個(ge) 多目標優(you) 化問題,即:構造風險函數使其最小,同時構造收益函數使其最大,約束條件有三個(ge) :
第一,二者配置的權重不能超過100%也就是1000美元;
第二,比特幣如果虧(kui) 損不能虧(kui) 光投在比特幣裏麵的錢;
第三,黃金如果虧(kui) 損不能虧(kui) 光投在黃金裏麵的錢。
條件二和條件三也就保證了即使虧(kui) 損我不能虧(kui) 損過本金。可以這麽(me) 構造模型:
D也就是風險,可以用組合投資的方差表示;E為(wei) 收益,可以用組合投資的數學期望表示。但是注意一個(ge) 問題,這裏我的投資收益是扣除了手續費的,所以計算並不是簡單的數學期望,而是:
D的表達式同樣可以寫(xie) :
這個(ge) 問題是一個(ge) 多目標優(you) 化問題,那麽(me) 解決(jue) 這種問題完全可以再引入權重係數綜合E和D構造新的目標函數求極值。
第二問需要驗證問題一的策略是否正確可行,其實可以旁敲側(ce) 擊,用其他的優(you) 化方案來證明“ARIMA+馬科維茲(zi) ”的配置是最優(you) 即可。
關(guan) 於(yu) 預測的準確性問題在問題一中已經通過實驗可以對比,而關(guan) 於(yu) 優(you) 化的方案筆者還可以提供兩(liang) 個(ge) 好的方案:第一個(ge) 是最大夏普比率,這一方法的思想其實與(yu) 馬科維茲(zi) 有著異曲同工之妙,但是在對E函數和D函數的綜合上使用夏普比率進行融合:
其中RF是無風險利率,按照美聯儲(chu) 標準取0.04即可。第二種是風險平價(jia) 模型,這一類模型則考察的對象是使得投資後黃金的風險和比特幣的風險等價(jia) 化,模型形如:
通過對不同模型的比較可以完成靈敏性和正確性的分析。
查找資料和數據的網站推薦
美國統計局:https://www.census.gov/
美國農(nong) 業(ye) 部數據:https://www.usda.gov/topics/data
世界衛生組織數據:https://www.who.int/data/gho
美國政府網站:https://www.usa.gov/
美國勞工部勞動統計局:https://www.bls.gov/
美國商務部:https://www.commerce.gov/
美國國際貿易協會(hui) :https://www.usitc.gov/
美國交通統計局:https://www.bts.gov/
美國國家統計局:https://www.fedstats.gov/
部分情況下,真實數據不易找到,可以嚐試以下兩(liang) 個(ge) 解決(jue) 辦法:
第一,如果這道題並沒有限定國家,可以考慮以中國作為(wei) 研究對象,找自己國家的數據還是相對較為(wei) 簡單。
第二,利用數據挖掘的能力,需要一定的技術手段去收集數據,比如爬蟲技術,自己去爬一些可能用得到的內(nei) 容。或者可以去一些數據科學競賽平台上去找一些現成可用的數據集,如:
天池大數據數據集:https://tianchi.aliyun.com/dataset/?spm=5176.12281905.0.0.358b5699IjonJQ
UCI機器學習(xi) 數據庫:https://archive.ics.uci.edu/ml/index.php
評論已經被關(guan) 閉。