[發明專利]基于文本的關鍵詞提取方法和計算機設備有效
| 申請號: | 201910360872.1 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110110330B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 李釗 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/205;G06F40/30;G06F16/33;G06F16/35;G06N3/0442;G06N3/0455 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘;李娟 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 關鍵詞 提取 方法 計算機 設備 | ||
本申請公開了一種基于文本的關鍵詞提取方法和計算機設備,屬于人工智能技術領域,用于高效的挖掘文本中的關鍵詞。該方法采用了Seq2seq網絡結構。該網絡結構包括編碼器和解碼器以及具有注意力機制的神經網絡模塊對編碼器的輸出結果進行調整。該方法中將整個文本作為輸入,使得神經網絡能夠了解文本的上下文信息。由于無需提取特征向量,免去了TextRank中從文本中抽象出特征的麻煩。由于無需主觀的進行特征抽象,故此實現相對簡單,關鍵詞的提取在長文本和短文本中均適用,效果也比較穩定。此外,該方法輸出的是向量而不是關鍵詞,具有很好的泛化能力。進一步外,通過引入注意力機制,能夠使得關鍵詞挖掘更為準確。
技術領域
本申請涉及人工智能技術領域,特別涉及一種基于文本的關鍵詞提取方法和計算機設備。
背景技術
為了便于理解和檢索,通常用一些關鍵詞來表達文本的含義。由于不同詞語表達語義的能力不同,故此不同詞語對文本主旨的體現程度也不同。如何提取能夠表達文本主旨的關鍵詞是自然語言處理領域一個重要課題。同時關鍵詞的提取,也廣泛應用在內容推薦,語義搜索等領域。
相關技術中用于刻畫詞語重要程度的指標有TF-IDF(term?frequency–inversedocument?frequency,詞頻),textRank(自動文摘算法)、分類等方法。其中,TF-IDF,基于對文檔頻率加權計算來統計詞語對文本的重要性;textRank通過詞匯的上下文關聯統計計算詞語的重要性;分類算法將對文本關鍵詞的挖掘轉化成分類問題,通過特征提取、Seq2seq神經網絡訓練、Seq2seq神經網絡預測將文本的詞語分為關鍵詞和非關鍵詞。然而上述方法都有各自的一些缺點,在實際應用中表現不盡人意。
發明內容
本申請實施例提供一種基于文本的關鍵詞提取方法和計算機設備,用于智能的較為準確的提取關鍵。
一方面,提供一種基于文本的關鍵詞提取方法,所述方法包括:
構造待分析文本的矩陣,該矩陣中包括按序排列的分詞的詞向量,其中,排列順序為詞向量在所述待分析文本中的順序;
將待分析文本的矩陣輸入給預訓練的Seq2seq(sequence?to?sequence,序列-序列)神經網絡,得到輸出矩陣,所述輸出矩陣中包括至少一個輸出向量;其中,所述Seq2seq神經網絡是根據標注有關鍵詞的語料訓練得到的,且訓練時,所述Seq2seq神經網絡的輸入時訓練文本的矩陣,輸出是訓練文本對應的關鍵詞構成的矩陣;其中關鍵詞構成的矩陣中每個向量與關鍵詞對應;
根據輸出向量和關鍵詞的對應關系,確定所述待分析文本的關鍵詞。
可選的,所述Seq2seq神經網絡中包括編碼器、解碼器和帶有注意力機制的神經網絡模塊,所述編碼器和解碼器均為循環神經網絡,所述帶有注意力機制的神經網絡模塊用于調整所述編碼器針對每個詞向量的編碼結果。
可選的,將待分析文本的矩陣輸入給預訓練的Seq2seq神經網絡,得到輸出矩陣,包括:
將所述待分析文本的矩陣中的詞向量按照在所述待分析文本的順序,依次輸入給所述編碼器獲得每個輸入的詞向量的狀態;
將所述編碼器的當前輸入詞向量以及所述當前輸入詞向量的上一詞向量的狀態輸入給所述帶有注意力機制的神經網絡模塊,得到所述上一詞向量的權重參數;
將所述上一詞向量的權重參數和所述上一詞向量的狀態相乘,得到調整后的所述上一詞向量的狀態;
將調整后的各詞向量的狀態依序輸入給所述解碼器,得到所述輸出矩陣。
可選的,所述帶有注意力機制的神經網絡模塊包括依次串聯的全連接層、隨機失活層和歸一化層softmax;
所述全連接層用于處理輸入的所述編碼器的當前輸入詞向量以及所述當前輸入詞向量的上一詞向量的狀態;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910360872.1/2.html,轉載請聲明來源鉆瓜專利網。





