[發明專利]文本處理方法、裝置、計算機可讀存儲介質和計算機設備有效
| 申請號: | 202010164622.3 | 申請日: | 2019-04-17 |
| 公開(公告)號: | CN111368564B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 王星;涂兆鵬;王龍躍;史樹明 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/30 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 黃晶晶 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 計算機 可讀 存儲 介質 設備 | ||
1.一種文本處理方法,包括:
獲取源文本,將所述源文本轉換為源端向量序列;
基于所述源端向量序列確定每個詞的目標端向量;
將編碼器中的每層逐一作為當前層,確定所述當前層的源端向量序列和所述當前層的上一層淺層句子向量之間的相似度向量;
根據所述相似度向量確定所述相似度對應的權重向量,根據所述權重向量和所述當前層的源端向量序列,生成所述當前層的淺層句子向量;
基于所述編碼器中每層的淺層句子向量生成深層句子向量,將所述每個詞的目標端向量和所述深層句子向量進行線性疊加處理,得到每個詞對應的目標詞;
根據所述每個詞對應的目標詞,生成所述源文本對應的目標文本。
2.根據權利要求1所述的方法,其特征在于,所述基于所述編碼器中每層的淺層句子向量生成深層句子向量,包括:
將所述編碼器中每層的淺層句子向量輸入循環神經網絡,所述循環神經網絡的各層網絡對應所述編碼器的各層網絡;
確定所述每層的淺層句子向量中與所述循環神經網絡的當前層對應的淺層句子向量;
獲取所述當前層的上一層輸出的隱含狀態向量,根據所述當前層對應的淺層句子向量和所述上一層輸出的隱含狀態向量,得到所述當前層輸出的隱含狀態向量;
將所述當前層輸出的隱含狀態向量和所述當前層的下一層對應的淺層句子向量作為所述當前層的下一層的輸入,直到得到所述循環神經網絡的最后一層輸出的隱含狀態向量;
將所述循環神經網絡的最后一層輸出的隱含狀態向量作為深層句子向量。
3.根據權利要求1所述的方法,其特征在于,所述基于所述編碼器中每層的淺層句子向量生成深層句子向量,包括:
確定所述編碼器中當前層的淺層句子向量和所述當前層的上一層目標端向量之間的相似度向量;
根據所述相似度向量確定所述當前層的淺層句子向量和所述當前層的上一層目標端向量之間的權重向量;
根據所述權重向量和所述每層的淺層句子向量,生成深層句子向量。
4.根據權利要求3所述的方法,其特征在于,所述根據所述相似度向量確定所述當前層的淺層句子向量和所述當前層的上一層目標端向量之間的權重向量,包括:
將所述相似度向量進行歸一化處理,得到所述當前層的淺層句子向量和所述當前層的上一層目標端向量之間的權重向量。
5.根據權利要求3或4所述的方法,其特征在于,所述根據所述權重向量和所述每層的淺層句子向量,生成深層句子向量,包括:
將所述權重向量和所述每層的淺層句子向量進行點積處理,得到深層句子向量。
6.根據權利要求1所述的方法,其特征在于,所述根據所述權重向量和所述當前層的源端向量序列,生成所述當前層的淺層句子向量,包括:
將所述權重向量和所述當前層的源端向量序列進行點積處理,得到所述當前層的淺層句子向量。
7.一種文本處理裝置,其特征在于,所述裝置包括:
序列獲取模塊,用于獲取源文本,將所述源文本轉換為源端向量序列;
目標端向量生成模塊,用于基于所述源端向量序列確定每個詞的目標端向量;
目標句子向量確定模塊,用于將編碼器中的每層逐一作為當前層,確定所述當前層的源端向量序列和所述當前層的上一層淺層句子向量之間的相似度向量;根據所述相似度向量確定所述相似度對應的權重向量,根據所述權重向量和所述當前層的源端向量序列,生成所述當前層的淺層句子向量;基于所述編碼器中每層的淺層句子向量生成深層句子向量;
目標詞確定模塊,用于將所述每個詞的目標端向量和所述深層句子向量進行線性疊加處理,得到每個詞對應的目標詞;
目標文本生成模塊,用于根據所述每個詞對應的目標詞,生成所述源文本對應的目標文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010164622.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水蓄熱環保供電儲能系統
- 下一篇:頁面代碼生成方法、裝置、設備及存儲介質





