摘要
數據驅動類問題是學生在參加MCM/ICM競賽中經常會(hui) 遇到的一類問題,也是選題占比較大的一類問題。而在美國大學生數學建模競賽中,此類問題會(hui) 以何種形式考察學生的數據思維與(yu) 數據能力,在進行建模的過程中需要注意何種事項,也是備賽過程中的一項重點。 本文以2022年MCM的C題《黃金與(yu) 比特幣的價(jia) 格預測》為(wei) 案例,進一步展開對美國大學生數學建模競賽中數據驅動問題核心要領的探討。
問題背景
市場交易者頻繁買(mai) 賣波動性資產(chan) ,目標是最大化他們(men) 的總回報。每次買(mai) 賣通常都會(hui) 有傭(yong) 金。兩(liang) 種這樣的資產(chan) 是黃金和比特幣。
您需要開發一種模型,該模型僅(jin) 使用迄今為(wei) 止的每日價(jia) 格流來確定交易員每天是否應該購買(mai) 、持有或出售其資產(chan) 配置。
Figure1:Gold daily prices, U.S. dollars per troy ounce. Source: London Bullion Market Association, 9/11/2021
Figure2:Bitcoin daily prices, U.S. dollars per bitcoin. Source: NASDAQ, 9/11/2021
從(cong) 2016年9月11日,您的本金為(wei) 1000 美元。
您將使用從(cong) 2016 年 9 月 11 日到 2021 年 9 月 10 日的五年交易期數據。
在每個(ge) 交易日,交易者將擁有一個(ge) 由現金、黃金和比特幣 [C, G, B] 分別以美元、金衡盎司和比特幣組成的投資組合。初始狀態為(wei) [1000, 0, 0]。每筆交易(購買(mai) 或銷售)的傭(yong) 金成本為(wei) 交易金額的 α%。
假設 αgold = 1% 和 αbitcoin = 2%。持有資產(chan) 沒有成本。
請注意,比特幣可以每天交易,但黃金僅(jin) 在開市日交易,定價(jia) 數據文件 LBMA-GOLD.csv 和 BCHAIN-MKPRU.csv 反映了這一點。你的模型應該考慮到這個(ge) 交易時間表。要開發您的模型,您隻能使用提供的兩(liang) 個(ge) 電子表格中的數據:LBMA-GOLD.csv 和 BCHAIN-MKPRU.csv。
您需要解決(jue) 的問題包括:
• 開發一個(ge) 模型,該模型僅(jin) 根據截至當天的價(jia) 格數據提供最佳每日交易策略。使用您的模型和策略,在 2021 年 9 月 10 日,最初的 1000 美元投資價(jia) 值多少?
• 提供證據證明您的模型提供了最佳策略。
• 確定策略對交易成本的敏感程度。交易成本如何影響策略和結果?
• 在最多兩(liang) 頁的備忘錄中向交易者傳(chuan) 達您的策略、模型和結果。
總頁數不超過 25 頁的 PDF 解決(jue) 方案應包括:
• 一頁摘要表。
• 目錄。
• 您的完整解決(jue) 方案。
• 一到兩(liang) 頁的備忘錄。
• 參考文獻列表。
注意:MCM 有 25 頁的限製。您提交的所有方麵都計入 25 頁的限製(摘要表、目錄、參考列表和任何附錄)。您必須引用您的想法、圖像和報告中使用的任何其他材料的來源。提供的兩(liang) 個(ge) 數據文件包含您應該用於(yu) 此問題的唯一數據。數據附件見電子資源或美賽官網。
1. LBMA-GOLD.csv 2. BCHAIN-MKPRU.csv
數據說明
1. LBMA-GOLD.csv - 日期:mm-dd-yyyy(月-日-年)格式的日期。 - USD (PM):一金衡盎司黃金在指定日期的美元收盤價(jia) 。
2. BCHAIN-MKPRU.csv - 日期:mm-dd-yyyy(月-日-年)格式的日期。 - 價(jia) 值:指定日期單個(ge) 比特幣的美元價(jia) 格。
建模思路
這個(ge) 問題我們(men) 從(cong) 以下幾個(ge) 方麵思考:
問題一共四問,拋開最後的建議信不談那就是三個(ge) 子問題。而問題二是驗證問題一結論的正確性,問題三是對問題一結果的靈敏性檢驗,所以隻需要破解問題一即可破解整個(ge) 問題。問題一是需要我們(men) 求解在2021年9月10日的最大收益,這個(ge) 最大收益怎麽(me) 求?很顯然,這是一個(ge) 投資組合與(yu) 時間序列的綜合問題,需要基於(yu) 整個(ge) 數據進行分析與(yu) 挖掘。
而幸運的是,問題所涉及的可選資產(chan) 配置並不多,隻有黃金和比特幣兩(liang) 種產(chan) 品。一般的如果碰上了多支股票進行配置那麽(me) 還需要基於(yu) 它們(men) 的統計特性進行一輪投資選股。對於(yu) 這種時間序列+投資組合的問題,我們(men) 一般把它分解為(wei) “預測”+“優(you) 化”兩(liang) 步走。
這個(ge) 地方如果使用動態規劃則需要謹慎,因為(wei) 在這種投資組合問題下使用動態規劃是無法預判未來發生的情況的,隻有在開啟上帝視角的投資問題中才可以使用動態規劃,所以就我了解的情況而言,使用動態規劃的同學普遍做的比較差。 就預測的部分來講,這是個(ge) 典型的數據驅動過程。數據驅動的背景之下,命題人想要考察的本質上還是學生對數據的敏感度和處理基本功。
那麽(me) 對於(yu) 時間序列數據而言,這種麵板數據的重要性要高於(yu) 常規數據,因為(wei) 麵板數據中每一條樣本它是有序的,是分了曆史和未來的。 你永遠不可能用未來信息推曆史,因為(wei) 你根本不會(hui) 知道未來。而就時間序列的處理方法,僅(jin) 僅(jin) 是一個(ge) 預測,也會(hui) 有很多的一題多解的策略。那麽(me) 就方法選擇而言,不少同學可能會(hui) 盲目的使用灰色係統這一新晉之秀,而忽略了這個(ge) 問題是否滿足灰色係統的條件和特征。
時間序列預測的方法需要取決(jue) 於(yu) 數據的條目和平穩性,小體(ti) 量數據可以用回歸做長而粗的趨勢預測,中體(ti) 量數據可以用灰色係統做中而穩的趨勢預測,大體(ti) 量數據可以用神經網絡或者ARIMA做短而精的精確預測。
這個(ge) 問題中有五年數據,以日作為(wei) 頻率再考慮休盤也就是將近1600餘(yu) 條數據,體(ti) 量算中大型數據,可以使用ARIMA係列。而不少同學問這個(ge) 問題用神經網絡可不可以預測呢,其實是可以的,但是神經網絡的預測其實實驗以後就知道並沒有那麽(me) 好。
就優(you) 化的部分來講,優(you) 化模型是基於(yu) 之前的預測結果進行。比如,如果投資者可以每日調倉(cang) (也就是每天都可以改變我的資產(chan) 配置),那麽(me) 很顯然,模型隻需要對明天的價(jia) 格做預估就可以知道把錢投在誰身上才會(hui) 賺(或者趕緊套現出來就不會(hui) 虧(kui) 很多)。這是短期預測的目的,盈利也就隻需要算明天預計價(jia) 格減去今天的購買(mai) 價(jia) 格就可以算出升值了多少。
那麽(me) 投資的第一個(ge) 思路有了,就是用預測代替上帝視角;而第二個(ge) 思路是用什麽(me) 來預測呢?馬科維茨理論給了我們(men) 很好的解釋:投資無非是兩(liang) 個(ge) 要點,第一要利潤大,第二要風險小,所以在投資之前就要先選擇好發展潛力好的產(chan) 品,投資的時候不要把雞蛋都放在一個(ge) 籃子裏,套現以後隻要賺到了錢就不用過分追責認為(wei) 自己是不是少賺了錢。
那麽(me) 這個(ge) 問題就被抽象為(wei) 一個(ge) 多目標優(you) 化問題,即:構造風險函數使其最小,同時構造收益函數使其最大,約束條件有三個(ge) :
第一,二者配置的權重不能超過100%也就是1000美元;
第二,比特幣如果虧(kui) 損不能虧(kui) 光投在比特幣裏麵的錢;
第三,黃金如果虧(kui) 損不能虧(kui) 光投在黃金裏麵的錢。 條件二和條件三也就保證了即使虧(kui) 損我不能虧(kui) 損過本金。
可以這麽(me) 構造模型:
|
(1) |
|
(2) |
|
(3) |
|
(4) |
其中RF是無風險利率,按照美聯儲(chu) 標準取0.04即可。第二種是風險平價(jia) 模型,這一類模型則考察的對象是使得投資後黃金的風險和比特幣的風險等價(jia) 化,模型形如:
(5)
(6)
通過對不同模型的比較可以完成靈敏性和正確性的分析。
核心要領
那麽(me) 根據上麵的思考,筆者指出一些問題的核心要領:
第一,就預測的選擇上,不應使用沒有指數增長特征的GM係列模型,而應該使用ARIMA係列模型或LSTM模型。但筆者對比過機器學習(xi) 模型、灰色預測模型、自回歸和ARIMA等模型的效果,發現在價(jia) 格預測當中神經網絡模型的表現是最差的,機器學習(xi) 係列次之,ARIMA係列表現最好。反而是沒有那麽(me) 花裏胡哨、廣受吹捧的模型用到了點子上,這不可不稱作一種模型架構的藝術。
第二,在預測的過程中,其實有一定經濟學了解或者查過文獻的同學可以發現一個(ge) 現象:比特幣與(yu) 黃金市場二者相互關(guan) 聯,經常是你方唱罷我登場,所以可以用另一方價(jia) 格作為(wei) 自變量輸入ARIMA係統中作為(wei) 外部輸入。
第三,在計算過程中究竟是每一天調倉(cang) 還是一周調節一次,因為(wei) 通常是一周。這個(ge) 地方因為(wei) 它確定的是每天的投資策略,所以也就暗含了每天調倉(cang) 的意思在裏麵。
第四,在解答過程中一定要注意模型和結果的可視化,用清晰的圖表展示出來,但不需要太花哨。
第五,有同學使用馬爾可夫模型進行價(jia) 格預測,是可以的,馬爾可夫模型的表現也很不錯。這一隊來源於(yu) 我在2022年指導的F獎論文。但就優(you) 化模型的情況來看,雖然也有用動態規劃拿到M的隊伍,但優(you) 化過程使用動態規劃的同學普遍不太理想,因為(wei) 它需要上帝視角而問題中不一定會(hui) 存在這個(ge) 條件(問題需要趨勢外推)。
作答點評
就問題的作答情況來看,選擇C題的人是比較多的,但真正說做的特別好很出色的隊伍並不多。問題核心還是出現在對模型的偏差認知上,認為(wei) “一定要盡量多用機器學習(xi) 和神經網絡”,殊不知,這正觸碰了命題人的雷區。廣大的學生和教師朋友在準備美賽的過程中一定要糾正一個(ge) 誤區,就是盲目認為(wei) “隻要蹭了所謂機器學習(xi) 我的這篇論文無論如何差不到哪裏去”,這是一種錯誤的想法。
在解題過程中一定不能出現“泛機器學習(xi) 化”的思維.而在解題過程中,2022年的美賽閱卷組似乎並沒有像以前一樣把美賽搞成一場“美術大賽”,即使是一些質樸的科學作圖,沒有用PS等高端的廣告學技巧,它也是容易成功的。所以美賽從(cong) 22年的閱卷風格來看,有逐漸回歸模型本質而削弱報告書(shu) 美感權重的這樣一個(ge) 傾(qing) 向上來。但這並不是說數據可視化不重要,素雅的可視化風格、嚴(yan) 謹而務實的科研繪圖作風同學們(men) 在備賽比賽過程中還是要注意重點體(ti) 現的。
總結
數據驅動類問題的理論雖然並不一定是參賽者提出,很多情況也是使用前人的理論經驗,但就2022美賽C的例子來看,問題逐漸回歸了模型本質,考察學生對題目的理解與(yu) 基本功。是否能夠看出問題隻有一個(ge) ,而一個(ge) 問題又分解為(wei) 多步,多步可以用哪些方法作為(wei) 對比,這些都是學生建模能力和底氣的體(ti) 現。該問題體(ti) 現了“大道至簡”的建模思想,是一道很值得探究的問題。
作者簡介
馬世拓,男,湖北武漢人,曾在華中科技大學數模基地進行數學建模競賽的教學培訓與(yu) 競賽指導工作,在2022美賽中指導多名學生獲得F獎、M獎,錄製有課程《數學建模導論》。
評論已經被關(guan) 閉。