小白學NLP:無監督關鍵詞抽取算法

文本關(guan) 鍵詞是指能夠表示文本主題內(nei) 容信息的單詞或術語。文本關(guan) 鍵詞提取是從(cong) 文本裏麵把跟這篇文章意義(yi) 最相關(guan) 的一些詞語抽取出來。

關鍵詞抽取方法

關鍵詞分配

關(guan) 鍵詞分配:從(cong) 一個(ge) 已有的關(guan) 鍵詞庫裏麵匹配幾個(ge) 詞語作為(wei) 這篇文檔的關(guan) 鍵詞。

第一種方法可以直接使用字符串匹配的思路,嚐試使用已知集合進行匹配,這裏可以正則匹配的代碼。

其次關(guan) 鍵詞分配也可以考慮使用分類的思路,將每個(ge) 關(guan) 鍵詞作為(wei) 一個(ge) 類別,使用文本分類的思路將文本轉換為(wei) 類別。

關鍵詞抽取

關(guan) 鍵詞抽取:根據文本的特征和規則自動地生成一些新的關(guan) 鍵詞。

關(guan) 鍵詞抽取是一種抽取類型的過程,它根據文本的特征和規則自動地生成一些關(guan) 鍵詞。抽取得到的關(guan) 鍵詞可以來自原始文本,並且不限製是否存在於(yu) 已知集合。

方法1:IDF關鍵詞抽取

IDF關(guan) 鍵詞抽取是一種基於(yu) 統計特征的關(guan) 鍵詞抽取方法,它是指利用IDF(逆文檔頻率)來衡量一個(ge) 詞語在文檔中的重要程度。

IDF是指一個(ge) 詞語在整個(ge) 語料庫中出現的文檔頻率的倒數,它反映了一個(ge) 詞語的區分能力。

抽取步驟如下:

  • 對文本進行分詞,可以使用jieba
  • 獲取句子每個單詞的IDF,和單詞頻率
  • 將單詞IDF * 頻率進行排序,得到關鍵詞

方法優(you) 缺點:

  • 優點:思路簡單,可控,效率高
  • 缺點:需提前計算出IDF,需在大量語料上進行計算;且對未登錄詞不友好。

方法2:TextRank關鍵詞抽取

TextRank關(guan) 鍵詞抽取是一種基於(yu) 圖模型的關(guan) 鍵詞抽取方法,它是由Google的網頁排名算法PageRank改編而來的。

PageRank算法是一種通過網頁之間的超鏈接來計算網頁重要性的技術,它認為(wei) 一個(ge) 網頁被其他網頁鏈接的次數越多,說明它越重要。

抽取步驟如下:

  • 對文本進行分詞,可以使用jieba
  • 通過劃窗思路對單詞構建有向圖
  • 通過PageRank計算節點重要性
  • 通過PageRank值排序得到關鍵詞

方法優(you) 缺點:

  • 優點:通過圖計算重要性,比IDF效果好;可以支持未登錄詞;
  • 缺點:時間複雜度比IDF高,且PageRank需要額外的計算過程;

方法3:Rake關鍵詞抽取

RAKE關(guan) 鍵詞抽取是一種無監督的關(guan) 鍵詞抽取算法,其也是借助圖的思路來提取關(guan) 鍵短語。

抽取步驟如下:

  • 對文本進行分詞,可以使用jieba
  • 通過劃窗思路對單詞構建有向圖
  • 計算單詞的頻率、度數和共現程度
  • 按照排序得到關鍵詞

方法優(you) 缺點:

  • 優點:快速、簡單、不需要標注數據,比TextRank快;
  • 缺點:比TextRank效果差

方法4:Yake關鍵詞抽取

Yake關(guan) 鍵詞抽取是一種無監督的關(guan) 鍵詞提取算法,它可以從(cong) 單個(ge) 文檔中根據文本統計特征選擇最重要的關(guan) 鍵詞。

Yake的特征提取主要考慮五個(ge) 因素(去除停用詞後):大寫(xie) term,term頻率,term位置,term長度和term相似度。

方法優(you) 缺點:

  • 優點:效果較好,考慮的因素較多
  • 缺點:不支持中文

方法5:KeyBert關鍵詞抽取

KeyBert是一種小型且容易上手使用的關(guan) 鍵詞提取技術,它利用BERT嵌入來創建與(yu) 文檔最相似的關(guan) 鍵詞和關(guan) 鍵短語。

KeyBert的基本思想是使用BERT提取文檔向量和子短語向量,然後用餘(yu) 弦相似度來查找與(yu) 文檔本身最相似的子短語。

方法優(you) 缺點:

  • 優點:效果較好,支持多語言
  • 缺點:複雜度較高

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

2023年加州伯克利大學夏校項目介紹

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部