[發(fā)明專利]一種翻譯模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010105061.X | 申請日: | 2020-02-20 |
| 公開(公告)號: | CN111339789B | 公開(公告)日: | 2023-08-01 |
| 發(fā)明(設(shè)計)人: | 李磊;王明軒;曹軍;孫澤維 | 申請(專利權(quán))人: | 北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/242 |
| 代理公司: | 北京遠智匯知識產(chǎn)權(quán)代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 100041 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 翻譯 模型 訓(xùn)練 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本公開實施例公開了一種翻譯模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)。該方法包括:獲取源語種的第一源文檔語料,將所述第一源文檔語料拆分成第一源單語語料;將所述第一源單語語料輸入成熟機器翻譯模型,將輸出結(jié)果作為目標語種的第一目標單語語料;將各所述第一目標單語語料進行拼接,形成所述目標語種的第一目標文檔語料;根據(jù)所述第一源文檔語料和所述第一目標文檔語料組成平行雙語語料;以及將所述平行雙語語料作為訓(xùn)練樣本來訓(xùn)練文檔機器翻譯模型。本公開實施例的技術(shù)方案能夠?qū)崿F(xiàn)以完整文檔作為機器翻譯模型的平行雙語語料樣本,對機器翻譯模型進行訓(xùn)練,從而提高機器翻譯模型的文檔翻譯的準確率。
技術(shù)領(lǐng)域
本公開實施例涉及機器翻譯技術(shù)領(lǐng)域,尤其涉及一種翻譯模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
機器翻譯是指使用計算機等計算設(shè)備將一種自然語言(一般稱為源語言)的原文翻譯為另一種自然語言(一般稱為目標語言)的譯文的技術(shù)。由于這一技術(shù)由機器完成,所以與人工翻譯相比,可以以相對短的時間處理大量的翻譯工作。
現(xiàn)有的機器翻譯服務(wù),一般都是將句子級別的源文本輸入機器翻譯模型進行翻譯,一個句子一般是幾個、十幾個詞匯構(gòu)成的。也即,現(xiàn)有的機器翻譯模型僅支持句子級別的翻譯功能。當(dāng)采用現(xiàn)有的機器翻譯模型翻譯文檔中的各個語句時,由于不能整體考慮句子在文檔中的上下文關(guān)系,其獲得的翻譯結(jié)果并不準確。因此,如何開發(fā)一種以文檔為翻譯對象的機器翻譯模型是一個亟待解決的問題。
由于作為訓(xùn)練所需的文檔級別的平行雙語語料樣本難以獲得,因此,以文檔為翻譯對象的機器翻譯模型難以訓(xùn)練成功。
發(fā)明內(nèi)容
本公開實施例提供一種翻譯模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì),實現(xiàn)以完整文檔作為機器翻譯模型的平行雙語語料樣本,對機器翻譯模型進行訓(xùn)練,從而提高機器翻譯模型的文檔翻譯的準確率。
第一方面,本公開實施例提供了一種翻譯模型訓(xùn)練方法,包括:
獲取源語種的第一源文檔語料,所述第一源文檔語料為所述源語種的真實文檔語料;
將所述第一源文檔語料拆分成第一源單語語料;
將所述第一源單語語料輸入成熟機器翻譯模型,將輸出結(jié)果作為目標語種的第一目標單語語料;
將各所述第一目標單語語料進行拼接,形成所述目標語種的第一目標文檔語料;
根據(jù)所述第一源文檔語料和所述第一目標文檔語料組成平行雙語語料;以及
將所述平行雙語語料作為訓(xùn)練樣本來訓(xùn)練文檔機器翻譯模型。
第二方面,本公開實施例還提供了一種翻譯模型訓(xùn)練裝置,包括:
第一源文檔語料獲取模塊,用于獲取源語種的第一源文檔語料,所述第一源文檔語料為所述源語種的真實文檔語料;
第一源單語語料拆分模塊,用于將所述第一源文檔語料拆分成第一源單語語料;
第一目標單語語料獲取模塊,用于將所述第一源單語語料輸入成熟機器翻譯模型,將輸出結(jié)果作為目標語種的第一目標單語語料;
第一目標文檔語料獲取模塊,用于將各所述第一目標單語語料進行拼接,形成所述目標語種的第一目標文檔語料;
第一訓(xùn)練樣本獲取模塊,用于根據(jù)所述第一源文檔語料和所述第一目標文檔語料組成平行雙語語料;
第一文檔機器翻譯模型訓(xùn)練模塊,用于將所述平行雙語語料作為訓(xùn)練樣本來訓(xùn)練文檔機器翻譯模型。
第三方面,本公開實施例還提供了一種電子設(shè)備,所述電子設(shè)備包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010105061.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





