2022年國賽C題相對於(yu) 其他題目而言比較簡單,因此去年選擇C題的隊伍更多,如何在眾(zhong) 多論文中脫穎而出?這需要相比其他隊伍更優(you) 的模型和求解方法以及更清晰的行文邏輯。讓我們(men) 一起來看看去年的國賽C題吧!
原題重現
附件表單1
附件表單2
附件表單3
評閱要點
本題通過對古代玻璃製品的化學成分數據分析,研究有無風化玻璃製品成分的變化規律,以及高鉀、鉛鋇兩(liang) 種玻璃類型的化學成分統計規律,並探索亞(ya) 分類的方法,進而可以依據未知分類的文物化學成分對文物進行準確的分類。
本題數據的主要特點是成分性,即各化學成分比例的累加和應100%,具有定和約束,在統計學上稱為(wei) “成分數據”。同時由於(yu) 定和約束,成分數據各變量之間具有明顯的共線性,使得常規的統計分析方法失效。通常需要通過適當的變換解決(jue) 這類問題,比如:中心對數比變換(CenteredLog-ratio,CLR)等。
問題 1
對玻璃文物表麵風化與(yu) 其類型、紋飾和顏色的關(guan) 係進行分析,這是離散變量和連續變量的相關(guan) 性分析、由風化點和未風化點的檢測數據預測其風化前的化學成分含量的問題,需要分析風化與(yu) 未風化兩(liang) 個(ge) 總體(ti) 的統計規律,通過總體(ti) 之間的匹配進行預測。
(1) 數據預處理:無效數據去除,應避免對有效數據的刪除;數據誤差修正。
(2) 如果使用卡方檢驗,應注意其適用條件。
(3)於(yu) 沒有風化前後匹配的數據,采用簡單的線性回歸模型是不合適的。
(4) 應該充分考慮到成分數據的特點,簡單地取均值不滿足成分性的約束。
問題 2
依據表單1、表單2 數據,分析高鉀玻璃、鉛鋇玻璃的分類規律,這是一個(ge) 有監督的分類問題:亞(ya) 類劃分是一個(ge) 無監督分類問題:敏感性分析是考察分類方法的穩定性。
(1)按高鉀、鉛鋇兩(liang) 大類或者按四類(高鉀無風化、高鉀風化、鉛鋇無風化、鉛鋇風化)進行分類規律的討論均可。
(2) 對分類效果應給出相應的評價(jia) ;對亞(ya) 類劃分結果應能明確闡述其亞(ya) 類特征,解釋其重要成分。
(3) 鼓考慮成分變量的選擇對分類結果的影響。
(4) 應該充分考慮到成分數據特點,關(guan) 注樣本之間距離的合理性。
問題 3
對附表單3中未知類別玻璃文物的化學成分進行分析,鑒別其所屬類型,這是一個(ge) 判別問題。敏感性分析是考察判別方法的穩定性。
(1)基於(yu) 高鉀、鉛鋇兩(liang) 類或者按四類(高鉀無風化、高鉀風化、鉛鋇無風化、鉛鋇風化)進行判別均可。
(2) 應該充分考慮到成分數據特點,關(guan) 注判別方法的合理性。
問題4
針對不同類別的玻璃文物樣品,分析其化學成分之間的關(guan) 聯關(guan) 係,並比較不同類別之間的化學成分關(guan) 聯關(guan) 係的差異性,這是一個(ge) 化學成分的相關(guan) 性分析問題。
針對不同類別的玻璃文物樣品,分析其化學成分之間的關(guan) 聯關(guan) 係,並比較不同類別之間的化學成分關(guan) 聯關(guan) 係的差異性,這是一個(ge) 化學成分的相關(guan) 性分析問題。
注:
(1)該問題是一個(ge) 小樣本的統計分析問題,應注意機器學習(xi) 方法的適用性。
(2)對圍繞成分數據特點來研究問題的,應該重點關(guan) 注,鼓勵加分。
思路解析01問題一
壹、數據的預處理
⑴剔除異常值
由於(yu) 題目將成分比例累加和介於(yu) 85%~105%之間的數據視為(wei) 有效數據,因此對表單2與(yu) 表單3的成分比例加和,剔除不介於(yu) 85%~105%之間的數據。
⑵剔除無效數據
由於(yu) 玻璃易受風化影響,會(hui) 影響到對種類的判斷,因此將表單中無顏色標注的數據剔除,視為(wei) 無效數據。
⑶處理空值
為(wei) 了簡化建模,將空值均視為(wei) 0處理。
貳、建模方法
首先,題目要求對這些玻璃文物的表麵風化與(yu) 其玻璃類型、紋飾和顏色的關(guan) 係進行分析,因此可以選擇利用卡方檢驗對玻璃文物的表麵風化與(yu) 這三者做相關(guan) 性分析,根據得出的結論對風化與(yu) 否做出分類的判斷,並得出體(ti) 現風化的具體(ti) 元素指標。在這一步推薦使用SPSS,可以避免求解代碼,對於(yu) 編程能力欠缺的隊伍十分友好。
其次,利用灰色關(guan) 聯分析判斷表麵風化程度與(yu) 各化學元素的關(guan) 聯程度,根據結果將表麵風化大致分成高鉀風化、高鉀未風化、鉛鋇風化和鉛鋇未風化四類,對這四類數據分別求取平均值,繪製風化前後的折線圖,探究風化前後元素變化,得到統計規律,對於(yu) 預測,利用風化前後的均值數據做差得到理想差值,後將實際風化後的化學成分含量減理想差值即得風化前各化學成分含量。
02問題二
首先,對數據進行處理,分別篩選高鉀玻璃和鉛鋇玻璃紋飾和顏色情況從(cong) 而進行分類。 然後,使用典型相關(guan) 性找出對高鉀玻璃和鉛鋇玻璃影響比較大的元素。根據各元素含量可以製定一個(ge) 判定高鉀玻璃和鉛鋇玻璃的界限標準,由此將玻璃劃分為(wei) 高鉀玻璃和鉛鋇玻璃,這個(ge) 標準建立的依據可以考慮相關(guan) 係數正負,從(cong) 而寫(xie) 出計算方法。 為(wei) 了對於(yu) 每個(ge) 類別選擇合適的化學成分對其進行亞(ya) 類劃分,第一步,需要找出主要元素,選擇主成分分析法和因子分析法都是不錯的選擇。第二步,利用主要元素含量與(yu) 類別內(nei) 的數據進行聚類分析,完成亞(ya) 分類。最後,可以利用 ROC 曲線對亞(ya) 分類的合理度和敏感度進行分析。
03問題三
由於(yu) 需要預測未知類別玻璃的類型,這裏首先考慮多元線性回歸模型對表單 3 的玻璃類型進行預測,以SiO2為(wei) 因變量,其他元素為(wei) 自變量進行多元回歸,將實際值和預測值進行比較,即可得到表單3的玻璃類型。利用決(jue) 策樹模型學習(xi) 問題二的分類結果,得到每個(ge) 類別下的亞(ya) 分類。再根據靈敏度分析公式R=TP/ (TP+ FN),得到模型敏感性。
04問題四
利用灰色關(guan) 聯度分析可以得出高鉀玻璃和鉛鋇玻璃對於(yu) 哪些微量元素的差異性較為(wei) 明顯;然後利用卡方檢驗和方差檢驗比較不同類別之間的化學成分關(guan) 聯關(guan) 係的差異性。
模型假設
①嚴(yan) 重風化點和風化點對模型的影響不相同;
②樣本數據足夠支撐模型的建立與(yu) 求解;
③玻璃的化學成分種類隻含有附件中所給 14 個(ge) ;
④表中空白處一定是未檢測到該成分,並且值為(wei) 0。
注意事項
對於(yu) 國賽C題,常考察統計方法、分類模型、預測模型以及評價(jia) 模型。對於(yu) 統計方法,建議同學們(men) 至少掌握描述性統計、P值檢驗、卡方檢驗和方差檢驗。分類模型和預測模型,可以適當考慮機器學習(xi) 部分的模型,比如決(jue) 策樹、BP網絡等。
評價(jia) 模型大家可以考慮TOPSIS、模糊綜合評價(jia) 、主成分分析、灰色關(guan) 聯分析等。但是,一篇國賽論文不是模型越多越好,最重要的還是能解決(jue) 問題,切記不能讓老師產(chan) 生模型堆砌的感覺。
評論已經被關(guan) 閉。