Kaggle文本分類比賽怎麽比？

文章目錄[隱藏]

技巧1：快速讀取數據
技巧2：擴充數據集
技巧3：深入文本數據
- 文本分析
- 文本清洗
技巧4：文本表示
技巧5：模型構建

技巧1：快速讀取數據

現在很多Kaggle比賽，數據集都比較大，大於(yu) 3GB是非常常見的事情。在讀取數據集時，可能會(hui) 遇到一些困難。

你可以嚐試以下的方法加速數據讀取：

在pandas讀取時手動設置變量類型
使用cudf代替pandas完成讀取
轉為parquet或feather再進行讀取

技巧2：擴充數據集

當比賽數據集非常小時，外部數據集就非常關(guan) 鍵了。此時可以尋找相似的外部數據集來完成預訓練。

例如對於(yu) QA任務，可以選擇以下的數據完成預訓練。

https://rajpurkar.github.io/SQuAD-explorer/
https://nlpprogress.com/english/question_answering.html

當然也可以從(cong) 偽(wei) 標簽和數據擴增和回譯來增加數據樣本。

技巧3：深入文本數據

文本分析

EDA有助於(yu) 更好地理解數據。在開始開發機器學習(xi) 模型之前，應該閱讀/做大量的數據文本，這有助於(yu) 特征工程和數據清洗。

文本長度規律
語種規律
標點符號規律
特殊字符規律

文本清洗

文本清理是NLP賽題中的重要組成部分。文本數據總是需要一些預處理和清理，然後我們(men) 才能用合適的形式表示它。

Remove HTML tags
Remove extra whitespaces
Convert accented characters to ASCII characters
Expand contractions
Remove special characters
Lowercase all texts
Convert number words to numeric form
Remove numbers
Remove stopwords
Lemmatization

技巧4：文本表示

文本表示方法影響文本的表示形式，也決(jue) 定了模型的精度。基礎的詞向量包括：

PretrainedGlovevectors
Pretrainedfasttextvectors
Pretrainedword2vecvectors
PretrainedParagramvectors
Universal Sentence Encoder

也可以考慮組合上述詞向量以減少OOV的情況，當然同一個(ge) 單詞也可以拚接或平均多種詞向量。

也可以直接考慮直接使用高階嵌入方法：

Bert
Roberta Bert
XLNET

技巧5：模型構建

損失函數

二分類Binary cross-entropy
多分類Categorical cross-entropy
二分類Focal loss
多分類Weighted focal loss
多分類Weighted kappa

優化器

SGD
RMSprop
Adagrad
Adam
Adam with warmup

Callback

Model checkpoint
Learning rate scheduler
Early Stopping

【競賽報名/項目谘詢+微信：mollywei007】

本文由 Molly 轉載發布在伟德的官网平台，版權歸原作者所有，如有侵權，請直接聯係微信進行處理。

Kaggle文本分類比賽怎麽比？

技巧1：快速讀取數據

技巧2：擴充數據集

技巧3：深入文本數據

文本分析

文本清洗

技巧4：文本表示

技巧5：模型構建

損失函數

優化器

Callback

Kaggle賽題解析：OTTO電商商品推薦

英國有哪些王牌本科專業值得申請？

最新發布

DIY英國留學申請中有哪些坑？如何避免？哪些同學適合DIY？

2025 哈佛海外演講辯論夏令營（HDCSW）中國區正式招募啟動

2025物理競賽實驗書(shu) 單出爐！曆年首次統考複賽實驗實驗考試該看什麽(me) 書(shu) ？

KET到底是機考還是筆試呢？一文帶你了解清楚KET考試題型到底是怎麽(me) 樣的？

一文搞懂AMC8和中國奧數有什麽(me) 區別，兩(liang) 者如何選擇？

2025年IPC和SPC的獲獎分數線是多少？

最新文章

DIY英國留學申請中有哪些坑？如何避免？哪些同學適合DIY？

2025 哈佛海外演講辯論夏令營（HDCSW）中國區正式招募啟動

2025物理競賽實驗書單出爐！曆年首次統考複賽實驗實驗考試該看什麽書？

KET到底是機考還是筆試呢？一文帶你了解清楚KET考試題型到底是怎麽樣的？

一文搞懂AMC8和中國奧數有什麽區別，兩者如何選擇？

技巧1：快速讀取數據

技巧2：擴充數據集

技巧3：深入文本數據

文本分析

文本清洗

技巧4：文本表示

技巧5：模型構建

損失函數

優化器

Callback

Kaggle賽題解析：OTTO電商商品推薦

英國有哪些王牌本科專業值得申請？

你也可能喜歡

最新發布

最新文章