[發明專利]文檔翻譯方法及裝置有效
| 申請號: | 202010090262.7 | 申請日: | 2020-02-13 |
| 公開(公告)號: | CN111368091B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 馮歆然;劉華杰;王雅欣;羅杰文 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/117;G06F40/211;G06F40/30;G06F40/58;G06N3/08 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;湯在彥 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 翻譯 方法 裝置 | ||
本發明公開了一種文檔翻譯方法及裝置,該方法包括:獲取雙語文本數據;對所述雙語文本數據進行標注,得到標注好的雙語文本數據;從所述雙語文本數據中抽取雙語結構化數據,并根據所述雙語結構化數據構建知識圖譜;根據所述知識圖譜以及所述標注好的雙語文本數據采用預設的神經網絡模型進行模型訓練,得到文檔翻譯模型,以根據所述文檔翻譯模型對文檔進行翻譯。本發明提高了文檔的翻譯效率,實現翻譯過程的自動化。
技術領域
本發明涉及自然語言處理領域,具體而言,涉及一種文檔翻譯方法及裝置。
背景技術
人工智能領域很多的開源項目和工具的說明文檔都是用英語進行撰寫的,如果要將這些項目在行內利用,就需要對這些技術文檔進行翻譯以便開發人員和業務人員理解和使用。目前主要采用人工翻譯的方式,花費時間長,且翻譯質量受限于譯者對相關內容的了解程度的影響。現有技術缺少一種高效的技術文檔翻譯方法。
發明內容
本發明為了解決上述背景技術中的至少一個技術問題,提出了一種文檔翻譯方法及裝置。
為了實現上述目的,根據本發明的一個方面,提供了一種文檔翻譯方法,該方法包括:
獲取雙語文本數據;
對所述雙語文本數據進行標注,得到標注好的雙語文本數據;
從所述雙語文本數據中抽取雙語結構化數據,并根據所述雙語結構化數據構建知識圖譜;
根據所述知識圖譜以及所述標注好的雙語文本數據采用預設的神經網絡模型進行模型訓練,得到文檔翻譯模型,以根據所述文檔翻譯模型對文檔進行翻譯。
可選的,所述根據所述知識圖譜以及所述標注好的雙語文本數據采用預設的神經網絡模型進行模型訓練,包括:
根據所述知識圖譜從所述標注好的雙語文本數據中選擇關鍵詞,并對所述關鍵詞進行掩蓋;
根據所述神經網絡模型對掩蓋的關鍵詞進行預測。
可選的,所述根據所述知識圖譜從所述標注好的雙語文本數據中選擇關鍵詞,具體包括:
預設比例時間根據所述知識圖譜選擇關鍵詞,剩余比例時間采用隨機選擇的方法選擇關鍵詞。
可選的,所述對所述關鍵詞進行掩蓋,具體包括:
第一預設比例時間采用隨機詞對所述關鍵詞進行掩蓋,第二預設比例時間采用所述關鍵詞的原詞對所述關鍵詞進行掩蓋,第三預設比例時間采用預設字符對所述關鍵詞進行掩蓋,其中,第一預設比例時間、第二預設比例時間以及第三預設比例時間的總和為百分之百。
可選的,所述根據所述知識圖譜以及所述標注好的雙語文本數據采用預設的神經網絡模型進行模型訓練,包括:
針對所述標注好的雙語文本數據中的每個句子生成預測下文句,其中,所述預測下文句包括:句子在所述標注好的雙語文本數據中的真實下文句、根據所述知識圖譜從預設的語料庫中選擇的句子的相關句、根據所述知識圖譜從所述標注好的雙語文本數據中選擇的句子的非相關句以及從所述語料庫中隨機選擇的句子中的至少一種;
根據所述神經網絡模型預測所述預測下文句是否為對應句子的下文。
可選的,所述神經網絡模型包括:Tramsformer模型。
為了實現上述目的,根據本發明的另一方面,提供了一種文檔翻譯裝置,該裝置包括:
雙語語料獲取單元,用于獲取雙語文本數據;
標注單元,用于對所述雙語文本數據進行標注,得到標注好的雙語文本數據;
知識圖譜構建單元,用于從所述雙語文本數據中抽取雙語結構化數據,并根據所述雙語結構化數據構建知識圖譜;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010090262.7/2.html,轉載請聲明來源鉆瓜專利網。





