[發明專利]基于文本的關鍵詞提取方法和計算機設備有效
| 申請號: | 201910360872.1 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN110110330B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 李釗 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/205;G06F40/30;G06F16/33;G06F16/35;G06N3/0442;G06N3/0455 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘;李娟 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 關鍵詞 提取 方法 計算機 設備 | ||
1.一種基于文本的關鍵詞提取方法,其特征在于,所述方法包括:
構造待分析文本的矩陣,所述矩陣中包括按序排列的分詞的詞向量,其中,排列順序為詞向量在所述待分析文本中的順序;
將待分析文本的矩陣輸入給預訓練的Seq2seq神經網絡,得到輸出矩陣,所述輸出矩陣中包括至少一個輸出向量;其中,所述Seq2seq神經網絡是根據標注有關鍵詞的語料訓練得到的,且訓練時,所述Seq2seq神經網絡的輸入是訓練文本的矩陣,輸出是訓練文本對應的關鍵詞構成的矩陣;其中關鍵詞構成的矩陣中每個向量與關鍵詞對應;
根據輸出向量和關鍵詞的對應關系,確定所述待分析文本的關鍵詞;
其中,所述根據輸出向量和關鍵詞的對應關系,確定所述待分析文本的關鍵詞,包括:
在關鍵詞向量集合中查找與輸出向量距離最近的向量;
將查找到的向量對應的關鍵詞確定為所述待分析文本的關鍵詞;
其中,所述Seq2seq神經網絡中包括編碼器、解碼器和帶有注意力機制的神經網絡模塊,所述帶有注意力機制的神經網絡模塊包括依次串聯的全連接層、隨機失活層和歸一化層softmax;
所述全連接層用于處理輸入的所述編碼器的當前輸入詞向量以及所述當前輸入詞向量的上一詞向量的狀態;
所述隨機失活層用于處理所述全連接層的處理結果;
所述softmax用于對所述隨機失活層的處理結果進行歸一化后得到所述上一詞向量的權重參數。
2.根據權利要求1所述的方法,其特征在于,所述帶有注意力機制的神經網絡模塊用于調整所述編碼器針對每個詞向量的編碼結果。
3.根據權利要求1所述的方法,其特征在于,將待分析文本的矩陣輸入給預訓練的Seq2seq神經網絡,得到輸出矩陣,包括:
將所述待分析文本的矩陣中的詞向量按照在所述待分析文本的順序,依次輸入給所述編碼器獲得每個輸入的詞向量的狀態;
將所述編碼器的當前輸入詞向量以及所述當前輸入詞向量的上一詞向量的狀態輸入給所述帶有注意力機制的神經網絡模塊,得到所述上一詞向量的權重參數;
將所述上一詞向量的權重參數和所述上一詞向量的狀態相乘,得到調整后的所述上一詞向量的狀態;
將調整后的各詞向量的狀態依序輸入給所述解碼器,得到所述輸出矩陣。
4.根據權利要求1所述的方法,其特征在于,構造待分析文本的矩陣,包括:
對待分析文本進行分詞處理,得到各個分詞;
將各分詞轉化為詞向量;
將各分詞的詞向量按照分詞在所述待分析文本中的順序構造矩陣。
5.根據權利要求4所述的方法,其特征在于,將查找到的向量對應的關鍵詞確定為所述待分析文本的關鍵詞,包括:
針對從關鍵詞向量集合中查找到的向量對應的每個關鍵詞,若該關鍵詞包含在所述待分析文本中,則將該關鍵詞確定為所述待分析文本的關鍵詞;若該關鍵詞不包含在所述待分析文本中,則將該關鍵詞丟棄。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
若所述待分析文本的關鍵詞數量大于預設數量;則從所述待分析文本的關鍵詞中剔除部分關鍵詞以使剩余的關鍵詞數量等于所述預設數量。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
若所述待分析文本的關鍵詞數量小于預設數量;則從所述關鍵詞向量集合中查找與所述待分析文本的關鍵詞相似的關鍵詞;
將查找到的所述相似的關鍵詞確定為所述待分析文本的新增關鍵詞。
8.一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,
所述處理器執行所述計算機程序時實現權利要求1至7任一權利要求所述的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910360872.1/1.html,轉載請聲明來源鉆瓜專利網。





