[發(fā)明專利]文本處理方法、裝置、計算機可讀存儲介質(zhì)和計算機設備有效
| 申請?zhí)枺?/td> | 202010164622.3 | 申請日: | 2019-04-17 |
| 公開(公告)號: | CN111368564B | 公開(公告)日: | 2022-04-08 |
| 發(fā)明(設計)人: | 王星;涂兆鵬;王龍躍;史樹明 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/30 |
| 代理公司: | 華進聯(lián)合專利商標代理有限公司 44224 | 代理人: | 黃晶晶 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 計算機 可讀 存儲 介質(zhì) 設備 | ||
本申請涉及一種文本處理方法、裝置、計算機可讀存儲介質(zhì)和計算機設備,所述方法包括:獲取源文本,將所述源文本轉(zhuǎn)換為源端向量序列;基于所述源端向量序列確定每個詞的目標端向量;獲取所述源端向量序列的深層句子向量,將所述每個詞的目標端向量和所述深層句子向量進行線性疊加處理,得到每個詞對應的目標詞;根據(jù)所述每個詞對應的目標詞,生成所述源文本對應的目標文本。采用本方案能夠利用深層句子信息對每個詞進行翻譯,提高翻譯的準確率。
相關申請的交叉引用
本申請要求于2019年04月17日提交中國專利局、申請?zhí)枮?01910308349.4、發(fā)明名稱為“文本處理方法、裝置、計算機可讀存儲介質(zhì)和計算機設備”的中國專利申請的優(yōu)先權,其全部內(nèi)容通過引用結合在本申請中。
技術領域
本申請涉及計算機技術領域,特別是涉及一種文本處理方法、裝置、計算機可讀存儲介質(zhì)和計算機設備。
背景技術
隨著機器學習技術的不斷發(fā)展,出現(xiàn)了機器翻譯技術。目前神經(jīng)網(wǎng)絡機器翻譯作為最新一代的翻譯技術,在目前的神經(jīng)機器翻譯研究和應用中,一般都是利用注意力機制選擇源端句子中的詞進行解碼翻譯。
然而,目前的神經(jīng)機器翻譯框架在進行注意力機制挑選合適的單詞進行翻譯的時候,無法充分地對整個源端句子信息進行考慮,使得翻譯出來的文本不夠準確。例如,對于某些有歧義的詞語,無法充分考慮上下文可能導致翻譯出錯的情況。
發(fā)明內(nèi)容
基于此,有必要針對中無法聯(lián)系上下文導致翻譯錯誤的技術問題,提供一種文本處理方法、裝置、計算機可讀存儲介質(zhì)和計算機設備。
一種文本處理方法,包括:
獲取源文本的輸入序列;
將所述輸入序列經(jīng)過語義編碼得到源端向量序列;
獲取所述源端向量序列中每個詞對應的第一權重向量;
根據(jù)所述源端向量序列和所述每個詞對應的第一權重向量,生成所述每個詞的目標端向量;
根據(jù)所述源端向量序列得到目標句子向量;
根據(jù)所述每個詞的目標端向量和所述目標句子向量,確定每個詞對應的目標詞;
根據(jù)所述每個詞對應的目標詞,生成所述源文本對應的目標文本。
一種文本處理置,所述裝置包括:
序列獲取模塊,用于獲取源文本的輸入序列;
編碼模塊,用于將所述輸入序列經(jīng)過語義編碼得到源端向量序列;
權重獲取模塊,用于獲取所述源端向量序列中每個詞對應的第一權重向量;
目標端向量生成模塊,用于根據(jù)所述源端向量序列和所述每個詞對應的第一權重向量,生成所述每個詞的目標端向量;
目標句子向量確定模塊,用于根據(jù)所述源端向量序列得到目標句子向量;
目標詞確定模塊,用于根據(jù)所述每個詞的目標端向量和所述目標句子向量,確定每個詞對應的目標詞;
目標文本生成模塊,用于根據(jù)所述每個詞對應的目標詞,生成所述源文本對應的目標文本。
一種計算機可讀存儲介質(zhì),存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,使得所述處理器執(zhí)行上述任一項所述方法的步驟。
一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行上述任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010164622.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





