[發明專利]文本生成方法、裝置、設備和存儲介質在審
| 申請號: | 202110616985.0 | 申請日: | 2021-06-02 |
| 公開(公告)號: | CN113204944A | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 王亦寧;劉升平;梁家恩 | 申請(專利權)人: | 云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/279 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 生成 方法 裝置 設備 存儲 介質 | ||
本發明涉及一種文本生成方法、裝置、設備和存儲介質,方法包括對源文檔進行詞序列劃分,進一步得到詞序列對應的詞矩陣;利用編碼器對詞矩陣進行編碼,得到輸入詞序列編碼表示;利用當前語言的解碼器,在注意力機制下,根據編碼器的隱狀態、各解碼器第n?1層中第i時刻之前的歷史隱狀態,對輸入詞序列編碼進行解碼,得到與當前語言對應的輸出詞序列編碼表示;將輸出詞序列編碼表示輸入當前語言的編碼器的邏輯回歸層進行線性變換,根據變換結果,得到與當前語言對應的目標文本。實現了在目標文本生成過程中,不僅需要依賴源文檔信息,還需要依賴其他語言的編碼器生成的歷史信息,從而有效地避免誤差累積的問題,提升了生成文本的準確性、質量。
技術領域
本發明涉及信息處理技術領域,具體涉及一種文本生成方法、裝置、設備和存儲介質。
背景技術
文本生成技術廣泛的應用于機器翻譯、文本摘要和對話生成等任務中,是指將一篇文檔生成與其相關的另一篇文檔。而多語言文本生成技術是指將源文檔生成與其相關的不同語言的文檔。
當前的多語言文本生成技術普遍采用一種“生成-翻譯”的兩階段方法,其中,第一階段將源文檔生成與其相關的另一篇文檔,而第二階段是將生成后的文檔翻譯成不同目標語言的結果。然而這種二階段的方法通常會面臨較為嚴重的誤差傳遞問題,其中第一階段生成的錯誤結果往往會對第二階段翻譯過程造成較為嚴重的影響。
因此,如何提高生成的文本的準確性,提高生成的文本的質量,是本領域技術人員亟待解決的技術問題。
發明內容
本發明提供一種文本生成方法、裝置、設備和存儲介質,以解決現有技術中生成的文本準確性較低、質量高較低的技術問題。
本發明解決上述技術問題的技術方案如下:
一種文本生成方法,包括:
對源文檔進行詞序列劃分,并將得到的詞序列進行詞向量處理,得到所述詞序列對應的詞矩陣;
利用編碼器對所述詞矩陣進行編碼,得到輸入詞序列編碼表示;
利用當前語言的解碼器,在注意力機制下,根據編碼器的隱狀態、各解碼器第n-1層中第i時刻之前的歷史隱狀態,對所述輸入詞序列編碼進行解碼,得到與當前語言對應的輸出詞序列編碼表示;
將所述輸出詞序列編碼表示輸入當前語言的編碼器的邏輯回歸層進行線性變換,得到變換結果;
根據所述變換結果,得到與當前語言對應的目標文本。
進一步地,上述所述的文本生成方法中,根據編碼器的隱狀態、各解碼器第n-1層中第i時刻之前的歷史隱狀態,對所述輸入詞序列編碼進行解碼,得到與當前語言對應的輸出詞序列編碼表示,包括:
將所述編碼器的隱狀態、所述各解碼器的歷史隱狀態和所述輸入詞序列編碼分別代入預設的輸出詞序列編碼計算式中計算,得到與當前語言對應的輸出詞序列編碼表示;
所述輸出詞序列編碼計算式如下:
為第l個解碼器的輸出詞序列編碼表示,l∈{1,2,...L},L為不同語言的種類,Dl為第l個解碼器,為第i時刻當前語言的解碼器的輸入詞序列編碼,為第l個解碼器第n-1層中第i時刻之前的歷史隱狀態,hE為編碼器的隱狀態。
進一步地,上述所述的文本生成方法中,第l個解碼器第n-1層中第i時刻之前的歷史隱狀態的獲取過程包括:
對輸出詞序列編碼進行矩陣變換,得到輸出向量;
對第i時刻當前語言的解碼器的輸入詞序列編碼進行矩陣變換,得到鍵向量和值向量;
確定所述鍵向量在所有語言上分布的第一權重和所述值向量在所有語言上分布的第二權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司,未經云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110616985.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種腎內科血液透析裝置
- 下一篇:一種新型環形墨盒





