[發明專利]基于人工智能的文本處理方法、裝置及電子設備有效
| 申請號: | 202010085881.7 | 申請日: | 2020-02-11 |
| 公開(公告)號: | CN111310436B | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 費志輝;李超;馬連洋;衡陣 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/126;G06F40/30;G06N3/04;G06N3/08;G06Q40/04 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 王姍姍;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人工智能 文本 處理 方法 裝置 電子設備 | ||
1.一種基于人工智能的文本處理方法,其特征在于,包括:
對目標文本進行嵌入處理,得到詞嵌入矩陣;
對所述詞嵌入矩陣進行編碼處理,得到用于表示所述目標文本的深層語義信息的文本語義向量;
對候選文本進行關鍵詞抽取處理,得到所述候選文本對應的候選關鍵詞;
將所述候選文本對應的候選關鍵詞,添加至候選關鍵詞集合,并對所述候選關鍵詞集合進行去重處理;
對所述目標文本進行分詞處理,并將分詞處理后得到的詞與經過去重處理的所述候選關鍵詞集合進行匹配;
將匹配到的詞確定為從所述目標文本中提取出的關鍵詞;
根據從所述目標文本中提取出的關鍵詞,構建共現網絡圖;
將所述共現網絡圖中的任意一個關鍵詞作為起點關鍵詞,并根據所述起點關鍵詞在所述共現網絡圖中進行游走處理,直至游走得到的關鍵詞序列滿足游走停止條件;
遍歷所述關鍵詞序列中的所述關鍵詞,并將遍歷到的所述關鍵詞確定為樣本輸入詞;
確定所述樣本輸入詞在所述關鍵詞序列中對應的上下文窗口,并將所述上下文窗口中除所述樣本輸入詞外的關鍵詞,確定為樣本輸出詞;
通過上下文預測模型,對所述樣本輸入詞進行預測處理,得到預測輸出詞;
根據所述樣本輸出詞與所述預測輸出詞之間的差異,在所述上下文預測模型中進行反向傳播,并在反向傳播的過程中,更新所述上下文預測模型的權重參數;
根據更新后的所述上下文預測模型的隱藏層的權重參數,確定所述提取出的關鍵詞的向量表示;
對所述提取出的關鍵詞的向量表示進行平均池化處理,得到用于表示所述目標文本的淺層關鍵詞信息的文本關鍵向量;
將所述文本語義向量和所述文本關鍵向量進行融合處理,得到用于表示所述目標文本的文本向量。
2.根據權利要求1所述的文本處理方法,其特征在于,所述根據從所述目標文本中提取出的關鍵詞,構建共現網絡圖,包括:
將從所述目標文本中提取出的關鍵詞確定為節點;
對從所述目標文本中提取出的關鍵詞進行第一次遍歷處理,得到第一關鍵詞,并
對所述第一關鍵詞之外的關鍵詞進行第二次遍歷處理,得到第二關鍵詞;
當所述第一關鍵詞在所述目標文本的共現窗口包括所述第二關鍵詞時,建立所述第一關鍵詞對應節點與所述第二關鍵詞對應節點之間的邊;
根據所述第一關鍵詞與所述第二關鍵詞的共現次數,確定建立的所述邊的權重;
其中,所述共現窗口包括至少兩個關鍵詞。
3.根據權利要求1所述的文本處理方法,其特征在于,所述根據所述起點關鍵詞在所述共現網絡圖中進行游走處理,包括:
當所述起點關鍵詞在所述共現網絡圖中僅存在一個鄰接的關鍵詞時,將鄰接的關鍵詞確定為新的起點關鍵詞,并
將所述新的起點關鍵詞添加至關鍵詞序列;
當所述起點關鍵詞在所述共現網絡圖中存在至少兩個鄰接的關鍵詞時,根據所述起點關鍵詞與鄰接的關鍵詞之間的邊的權重,確定游走概率,并
根據所述游走概率從至少兩個所述鄰接的關鍵詞中,確定新的起點關鍵詞,將所述新的起點關鍵詞添加至所述關鍵詞序列。
4.根據權利要求1所述的文本處理方法,其特征在于,還包括:
確定所述關鍵詞序列中各所述關鍵詞的獨熱編碼;
所述根據更新后的所述上下文預測模型的隱藏層的權重參數,確定所述關鍵詞的向量表示,包括:
在所述關鍵詞的所述獨熱編碼中,確定設定數值所在的維度;
確定更新后的所述上下文預測模型的隱藏層的權重矩陣;
將所述權重矩陣中與所述維度對應的權重參數,確定為所述關鍵詞的向量表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010085881.7/1.html,轉載請聲明來源鉆瓜專利網。





