[發明專利]語言處理方法及裝置、語言處理系統的訓練方法及裝置有效
| 申請號: | 201910867015.0 | 申請日: | 2019-09-12 |
| 公開(公告)號: | CN110598222B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 徐智濤;唐劍波;李長亮;郭馨澤 | 申請(專利權)人: | 北京金山數字娛樂科技有限公司;成都金山數字娛樂科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/08 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 王治東 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 處理 方法 裝置 系統 訓練 | ||
本申請提供了語言處理方法及裝置、語言處理系統的訓練方法及裝置,其中,所述語言處理方法包括:將包括多個待翻譯語句的目標段落輸入翻譯模型,得到每個待翻譯語句對應的翻譯語句;將包含連接詞的翻譯語句中的連接詞替換為連接標記,將不包含連接詞的翻譯語句中插入連接標記,生成每個翻譯語句對應的標記翻譯語句;將多個標記翻譯語句輸入已訓練好的語言模型,語言模型將連接標記刪除或替換為對應的最終連接詞,得到每個標記翻譯語句對應的最終翻譯語句,根據每個標記翻譯語句對應的最終翻譯語句拼接得到翻譯段落,從而使段落的翻譯結果的語義表達更加流暢,實現了目標任務語言處理的有效提升。
技術領域
本申請涉及機器翻譯技術領域,特別涉及一種語言處理方法及裝置、語言處理系統的訓練方法及裝置、計算設備和計算機可讀存儲介質。
背景技術
現有的機器翻譯的方法一般有:
1)基于統計的機器翻譯:通過對大量語料進行統計計算,再利用隱馬爾可夫或貝葉斯等方法進行句子的生成。
2)基于神經網絡的機器翻譯:通過對輸入句子進行分詞,再對詞用向量表示,再將句子的信息通過神經網絡進行編碼,得到編碼向量,再通過神經網絡進行解碼得到解碼向量,繼而依次生成翻譯詞語,根據翻譯詞語組成翻譯語句。
無論何種方式,現有的機器翻譯方法中,只考慮了每個句子單獨的信息,而沒有考慮句子與句子之間的邏輯等詞的表達,如“而且”、“于是”等。這樣往往導致各個句子自己的表達是清楚的,但是翻譯結果組成的段落表達卻并不流暢,影響了翻譯效果。
發明內容
有鑒于此,本申請實施例提供了一種語言處理方法及裝置、語言處理系統的訓練方法及裝置、計算設備和計算機可讀存儲介質,以解決現有技術中存在的技術缺陷。
本申請實施例提供了一種語言處理系統的訓練方法,所述方法包括:
將樣本段落中的多個待翻譯樣本語句及對應的翻譯樣本語句作為平行語料輸入至翻譯模型進行訓練,直至滿足翻譯模型的訓練停止條件;
將所述樣本段落中包含連接詞的翻譯樣本語句中的連接詞更換為連接標記,將未包含連接詞的所述翻譯樣本語句中插入所述連接標記,生成每個翻譯樣本語句對應的標記翻譯樣本語句;
將多個所述標記翻譯樣本語句輸入至語言模型進行訓練,直至滿足語言模型的訓練停止條件。
可選地,將多個所述標記翻譯樣本語句輸入至語言模型進行訓練,直至滿足語言模型的訓練停止條件,包括:
將多個所述標記翻譯樣本語句輸入語言模型,所述語言模型將所述連接標記刪除或替換為對應的最終連接詞,得到每個標記翻譯樣本語句對應的最終翻譯樣本語句;
根據所述最終翻譯樣本語句計算所述語言模型的困惑度,直至所述困惑度小于閾值。
本申請實施例提供了一種語言處理方法,所述方法包括:
將包括多個待翻譯語句的目標段落輸入翻譯模型,得到每個待翻譯語句對應的翻譯語句;
將包含連接詞的翻譯語句中的所述連接詞替換為連接標記,將不包含連接詞的翻譯語句中插入所述連接標記,生成每個翻譯語句對應的標記翻譯語句;
將多個所述標記翻譯語句輸入語言模型,所述語言模型將所述連接標記刪除或替換為對應的最終連接詞,得到每個標記翻譯語句對應的最終翻譯語句,其中,所述語言模型根據如上所述的語言處理系統的訓練方法而得到;
根據每個標記翻譯語句對應的最終翻譯語句拼接得到翻譯段落。
可選地,所述翻譯模型包括編碼器和解碼器;
將包括多個待翻譯語句的目標段落輸入翻譯模型,得到每個待翻譯語句對應的翻譯語句,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山數字娛樂科技有限公司;成都金山數字娛樂科技有限公司,未經北京金山數字娛樂科技有限公司;成都金山數字娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910867015.0/2.html,轉載請聲明來源鉆瓜專利網。





