文章目錄[隱藏]
文本關(guan) 鍵詞是指能夠表示文本主題內(nei) 容信息的單詞或術語。文本關(guan) 鍵詞提取是從(cong) 文本裏麵把跟這篇文章意義(yi) 最相關(guan) 的一些詞語抽取出來。
關鍵詞抽取方法
關鍵詞分配
關(guan) 鍵詞分配:從(cong) 一個(ge) 已有的關(guan) 鍵詞庫裏麵匹配幾個(ge) 詞語作為(wei) 這篇文檔的關(guan) 鍵詞。
第一種方法可以直接使用字符串匹配的思路,嚐試使用已知集合進行匹配,這裏可以正則匹配的代碼。
其次關(guan) 鍵詞分配也可以考慮使用分類的思路,將每個(ge) 關(guan) 鍵詞作為(wei) 一個(ge) 類別,使用文本分類的思路將文本轉換為(wei) 類別。
關鍵詞抽取
關(guan) 鍵詞抽取:根據文本的特征和規則自動地生成一些新的關(guan) 鍵詞。
關(guan) 鍵詞抽取是一種抽取類型的過程,它根據文本的特征和規則自動地生成一些關(guan) 鍵詞。抽取得到的關(guan) 鍵詞可以來自原始文本,並且不限製是否存在於(yu) 已知集合。
方法1:IDF關鍵詞抽取
IDF關(guan) 鍵詞抽取是一種基於(yu) 統計特征的關(guan) 鍵詞抽取方法,它是指利用IDF(逆文檔頻率)來衡量一個(ge) 詞語在文檔中的重要程度。
IDF是指一個(ge) 詞語在整個(ge) 語料庫中出現的文檔頻率的倒數,它反映了一個(ge) 詞語的區分能力。
抽取步驟如下:
- 對文本進行分詞,可以使用jieba
- 獲取句子每個單詞的IDF,和單詞頻率
- 將單詞IDF * 頻率進行排序,得到關鍵詞
方法優(you) 缺點:
- 優點:思路簡單,可控,效率高
- 缺點:需提前計算出IDF,需在大量語料上進行計算;且對未登錄詞不友好。
方法2:TextRank關鍵詞抽取
TextRank關(guan) 鍵詞抽取是一種基於(yu) 圖模型的關(guan) 鍵詞抽取方法,它是由Google的網頁排名算法PageRank改編而來的。
PageRank算法是一種通過網頁之間的超鏈接來計算網頁重要性的技術,它認為(wei) 一個(ge) 網頁被其他網頁鏈接的次數越多,說明它越重要。
抽取步驟如下:
- 對文本進行分詞,可以使用jieba
- 通過劃窗思路對單詞構建有向圖
- 通過PageRank計算節點重要性
- 通過PageRank值排序得到關鍵詞
方法優(you) 缺點:
- 優點:通過圖計算重要性,比IDF效果好;可以支持未登錄詞;
- 缺點:時間複雜度比IDF高,且PageRank需要額外的計算過程;
方法3:Rake關鍵詞抽取
RAKE關(guan) 鍵詞抽取是一種無監督的關(guan) 鍵詞抽取算法,其也是借助圖的思路來提取關(guan) 鍵短語。
抽取步驟如下:
- 對文本進行分詞,可以使用jieba
- 通過劃窗思路對單詞構建有向圖
- 計算單詞的頻率、度數和共現程度
- 按照排序得到關鍵詞
方法優(you) 缺點:
- 優點:快速、簡單、不需要標注數據,比TextRank快;
- 缺點:比TextRank效果差
方法4:Yake關鍵詞抽取
Yake關(guan) 鍵詞抽取是一種無監督的關(guan) 鍵詞提取算法,它可以從(cong) 單個(ge) 文檔中根據文本統計特征選擇最重要的關(guan) 鍵詞。
Yake的特征提取主要考慮五個(ge) 因素(去除停用詞後):大寫(xie) term,term頻率,term位置,term長度和term相似度。
方法優(you) 缺點:
- 優點:效果較好,考慮的因素較多
- 缺點:不支持中文
方法5:KeyBert關鍵詞抽取
KeyBert是一種小型且容易上手使用的關(guan) 鍵詞提取技術,它利用BERT嵌入來創建與(yu) 文檔最相似的關(guan) 鍵詞和關(guan) 鍵短語。
KeyBert的基本思想是使用BERT提取文檔向量和子短語向量,然後用餘(yu) 弦相似度來查找與(yu) 文檔本身最相似的子短語。
方法優(you) 缺點:
- 優點:效果較好,支持多語言
- 缺點:複雜度較高
評論已經被關(guan) 閉。