2023美國大學生數學建模競賽C題——預測Wordle結果
背景
Wordle是由《紐約時報》每天推出的一種受歡迎的益智遊戲。玩家們(men) 需要在六次或更少的猜測中猜出一個(ge) 由五個(ge) 字母組成的單詞,並在每次猜測後得到反饋。在這個(ge) 版本中,每個(ge) 猜測必須是英語中的一個(ge) 實際單詞。比賽中不被認可為(wei) 單詞的猜測是不允許的。Wordle在人們(men) 中不斷增長的流行度中,現在有60多種語言的遊戲版本可供選擇。
《紐約時報》網站上關(guan) 於(yu) Wordle的說明指出,在提交單詞後,瓷磚的顏色會(hui) 發生變化。黃色的瓷磚表示該瓷磚中的字母在單詞中,但位置不正確。綠色的瓷磚表示該瓷磚中的字母在單詞中,位置正確。灰色的瓷磚表示該瓷磚中的字母根本不包含在單詞中(見附件2)。圖1是一個(ge) 示例解決(jue) 方案,其中在三次嚐試中找到了正確答案。
玩家可以在常規模式或“困難模式”下玩。Wordle的困難模式通過要求一旦玩家在單詞中找到正確的字母(瓷磚為(wei) 黃色或綠色),就必須在隨後的猜測中使用這些字母來使遊戲更加困難。圖1中的示例是在困難模式下玩的。
許多(但並非所有)用戶會(hui) 在Twitter上報告他們(men) 的得分。對於(yu) 這個(ge) 問題,MCM已經生成了一個(ge) 文件,記錄了2022年1月7日至2022年12月31日的每日結果(見附件1)。該文件包括日期、比賽編號、當天的單詞、當天報告得分的人數、在困難模式下的玩家人數,以及猜出單詞的百分比,包括一次、兩(liang) 次、三次、四次、五次、六次或無法解決(jue) 的謎題(表示為(wei) X)。例如,圖2中的單詞是“TRITE”,日期是2022年7月20日,結果是通過在Twitter上收集得到的。盡管圖2中的百分比總和為(wei) 100%,但在某些情況下,由於(yu) 四舍五入,這可能不是真實的。
要求
紐約時報要求您對該文件中的結果進行分析,以回答幾個(ge) 問題。
問題1:
報告的結果數量每天都有所不同。開發一個(ge) 模型來解釋這種變化,並使用您的模型創建一個(ge) 關(guan) 於(yu) 2023年3月1日報告結果數量的預測區間。是否有單詞的屬性會(hui) 影響報告的得分中在困難模式下玩的比例?如果有,是怎樣的?如果沒有,為(wei) 什麽(me) ?
問題2:
對於(yu) 未來日期的給定解決(jue) 方案單詞,開發一個(ge) 模型,使您可以預測報告結果的分布。換句話說,預測未來日期的相關(guan) 百分比(1、2、3、4、5、6、X)的分布。您的模型和預測有哪些不確定性?請舉(ju) 一個(ge) 關(guan) 於(yu) 2023年3月1日單詞EERIE的預測的具體(ti) 例子。您對您模型的預測有多自信?
問題3:
開發並總結一個(ge) 模型,通過難度分類解決(jue) 方案單詞。確定與(yu) 每個(ge) 分類相關(guan) 聯的給定單詞的屬性。使用您的模型,單詞EERIE有多難?討論您的分類模型的準確性。
問題4:
列出並描述該數據集的其他有趣特征。
最後,用一頁至兩(liang) 頁的信函,對紐約時報的謎題編輯總結您的結果。
您的PDF解決(jue) 方案總頁數不超過25頁,其中包括:
▲一頁摘要。
▲目錄表。
▲您的完整解決(jue) 方案。
▲一頁至兩(liang) 頁的信函。
▲參考文獻列表。
*注意:MCM競賽有25頁的限製。您的所有提交內(nei) 容都計入25頁限製(總結表、目錄表、報告、參考文獻列表以及任何附錄)。您必須引用您報告中使用的想法、圖片和其他材料的來源。
術語表
紐約時報:一份總部位於(yu) 美國紐約市的日報,以印刷和在線出版為(wei) 主。Twitter:一種社交網絡網站,允許用戶發布不超過 280 個(ge) 字符的短消息(最初是 140 個(ge) 字符)。解決(jue) (Wordle 拚圖):按正確的順序輸入正確的字母以形成當天的 Wordle 單詞。
參考資料
注:我們(men) 提供以下引文以支持問題陳述。我們(men) 從(cong) 這些資源中提取了重要的想法。這些網站上沒有解決(jue) MCM問題所需的其他信息。解決(jue) 這個(ge) MCM 問題不需要訪問紐約時報或 Twitter 網站。
[1] Wordle logo from The New York Times website. Accessed on December 13, 2022 at https://nytco-assets.nytimes.com/2022/08/cropped-Screen-Shot-2022-08-24-at-8.49.39-AM.png.
[2] “Wordle-The New York Times.” The New York Times, 2022. Accessed December 13, 2022 at https://www.nytimes.com/games/wordle/index.html.
[3] “Wordle-The New York Times.” The New York Times, July 21, 2022.
[4] “Wordle Stats.” Twitter, July 20, 2022.
解題思路和分析
問題1
思路:
該問題主要是預測一個(ge) 序列的變化趨勢,而且該數據的變化趨勢是統計的每天的數據,所以可認為(wei) 是一個(ge) 時間序列。
數據的波動如下:
待預測數據的波動情況
分析該數據的隨時間的變化趨勢,可以發現是先上升、然後在下降的趨勢,比較符合一個(ge) 熱點產(chan) 生後,迅速得到關(guan) 注,然後在逐漸降低熱度,最後關(guan) 注度保持穩定的情況。
針對該數據中末尾的最低點如何處理:該點可能是正確的數據(也可能是錯誤的,比如:錄入錯誤)。所以可以做處理,也可以不錯處理。處理方法,最簡單的方法是使用最低點前後N(n=1,2,...)個(ge) 數值的均值進性改進。
針對序列的預測方法:
(1)時間序列累預測方法:建議忽略到前半段,對下降的趨勢進行時間序列建模與(yu) 分析(也可用群不數據),可能效果較好。模型可以是:ARIMA、prophet等預測算法,prophet效果會(hui) 好於(yu) ARIMA。
prophet算法預測
(2)考慮非線性回歸方程:可以使用全部的數據建立,也可以使用數據下降趨勢的後半段。
非線性回歸方程
對於(yu) 分析詞的任何屬性是否會(hui) 影響報告的在困難模式下播放的分數的百分比的情況。主要的檢驗方法就是單因素方差分析,而且也要對詞語一行清洗與(yu) 與(yu) 處理的改正操作。
問題2
目的1:
預測未來日期 (1, 2, 3, 4, 5, 6, X) 的相關(guan) 百分比。
目的2:
對2023年3月1日EERIE這個(ge) 詞進行預測。
該問題是一個(ge) 典型的有監督的數據回歸問題,可以使用的方法有很多,而且針對數據的情況,可以先對數據進行特征工程,可以使用的特征例如:時間信息、每個(ge) 位置的字母信息、詞的屬性信息等。可使用的預測算法也很多,例如:決(jue) 策樹、隨機森林、GBDT、SVM、神經網絡等。經過我的驗證,使用隨機森林或者GBDT的預測效果較好。
在數據與(yu) 處理操作階段,可以剔除一個(ge) 累計正確率較離譜的樣本,入下麵的圖所示:
累計正確率
對2023年3月1日EERIE這個(ge) 詞,一個(ge) 可以參考的預測結果為(wei) :
(1, 2, 3, 4, 5, 6, X) 的相關(guan) 百分比預測值分別為(wei) (1, 5, 17, 32, 27, 12, 3)
問題3
目的1:
按難度對解決(jue) 方案單詞進行分類,並且根據單詞的相關(guan) 特征,為(wei) 分類結果進行定級。
目的2:
對2023年3月1日EERIE這個(ge) 詞進行預測。
該問題屬於(yu) 一個(ge) 無監督的聚類問題。而且針對該問題進行聚類是,使用的特征很關(guan) 鍵。可以使用(1, 2, 3, 4, 5, 6, X) 的相關(guan) 百分比作為(wei) 特征建立聚類模型,而且聚類的算法有很多,例如:K均值、K中值、模糊聚類、係統聚類等。而且聚類的數量也有講究。經過我的詳細研究,聚類為(wei) 3類,可能效果跟好一些。
聚了i結果可視化
聚類模型確定好後,對EERIE這個(ge) 詞進行預測即可。
問題4
該問題是一個(ge) 開放性的問題,可以進行一些數據可視化分析等,便於(yu) 發現數據的關(guan) 係。並且可以結合前麵三問的到的結果進行分析。例如:使用關(guan) 聯規則,可以發現單詞中有哪些字母的情況下,屬於(yu) 哪個(ge) 難度類別等。
發現的一些規則
查找資料和數據的網站推薦
美國統計局:
https://www.census.gov/
美國農(nong) 業(ye) 部數據:
https://www.usda.gov/topics/data
世界衛生組織數據:
https://www.who.int/data/gho
美國政府網站:
https://www.usa.gov/
美國勞工部勞動統計局:
https://www.bls.gov/
美國商務部:
https://www.commerce.gov/
美國國際貿易協會(hui) :
https://www.usitc.gov/
美國交通統計局:
https://www.bts.gov/
美國國家統計局:
https://www.fedstats.gov/
查找資料和數據的網站推薦
美國統計局:
https://www.census.gov/
美國農(nong) 業(ye) 部數據:
https://www.usda.gov/topics/data
世界衛生組織數據:
https://www.who.int/data/gho
美國政府網站:
https://www.usa.gov/
美國勞工部勞動統計局:
https://www.bls.gov/
美國商務部:
https://www.commerce.gov/
美國國際貿易協會(hui) :
https://www.usitc.gov/
美國交通統計局:
https://www.bts.gov/
美國國家統計局:
https://www.fedstats.gov/
部分情況下,真實數據不易找到,可以嚐試以下兩(liang) 個(ge) 解決(jue) 辦法:
第一,如果這道題並沒有限定國家,可以考慮以中國作為(wei) 研究對象,找自己國家的數據還是相對較為(wei) 簡單。
第二,利用數據挖掘的能力,需要一定的技術手段去收集數據,比如爬蟲技術,自己去爬一些可能用得到的內(nei) 容。或者可以去一些數據科學競賽平台上去找一些現成可用的數據集,如:
天池大數據數據集:
https://tianchi.aliyun.com/dataset/?spm=5176.12281905.0.0.358b5699IjonJQ
UCI機器學習(xi) 數據庫:
https://archive.ics.uci.edu/ml/index.php
評論已經被關(guan) 閉。