[發(fā)明專利]一種構(gòu)建機(jī)器翻譯模型的方法、翻譯裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201911243004.1 | 申請(qǐng)日: | 2019-12-06 |
| 公開(公告)號(hào): | CN112926342A | 公開(公告)日: | 2021-06-08 |
| 發(fā)明(設(shè)計(jì))人: | 蔡巖松;屠要峰;郭斌;周祥生 | 申請(qǐng)(專利權(quán))人: | 中興通訊股份有限公司 |
| 主分類號(hào): | G06F40/58 | 分類號(hào): | G06F40/58;G06F40/216;G06F40/289;G06F16/215;G06N3/04;G06N3/08 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 梁嘉琦 |
| 地址: | 518057 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 構(gòu)建 機(jī)器翻譯 模型 方法 翻譯 裝置 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開了一種構(gòu)建機(jī)器翻譯模型的方法,包括:構(gòu)建用于通用領(lǐng)域的基礎(chǔ)機(jī)器翻譯模型;基于基礎(chǔ)機(jī)器翻譯模型,向特定領(lǐng)域進(jìn)行微調(diào),以構(gòu)建用于特定領(lǐng)域的機(jī)器翻譯模型。本發(fā)明還公開了一種對(duì)應(yīng)的翻譯裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。通過微調(diào)機(jī)制,實(shí)現(xiàn)翻譯效果以及翻譯模型開發(fā)時(shí)間的綜合提升。
技術(shù)領(lǐng)域
本發(fā)明實(shí)施例涉及但不限于機(jī)器翻譯技術(shù)領(lǐng)域,尤其涉及一種構(gòu)建機(jī)器翻譯模型的方法、翻譯裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
機(jī)器翻譯,又稱為自動(dòng)翻譯,是利用計(jì)算機(jī)將一種自然語言(源語言)轉(zhuǎn)換為另一種自然語言(目標(biāo)語言)的過程。它是計(jì)算語言學(xué)的一個(gè)分支,是人工智能的終極目標(biāo)之一,具有重要的科學(xué)研究價(jià)值。同時(shí),機(jī)器翻譯又具有重要的實(shí)用價(jià)值。隨著經(jīng)濟(jì)全球化及互聯(lián)網(wǎng)的飛速發(fā)展,機(jī)器翻譯技術(shù)在促進(jìn)政治、經(jīng)濟(jì)、文化交流等方面起到越來越重要的作用。
機(jī)器翻譯具有重要的實(shí)用價(jià)值,機(jī)器翻譯相較于人工翻譯具有三個(gè)明顯的優(yōu)勢(shì):成本低、易把控以及翻譯速度快。機(jī)器翻譯技術(shù)的發(fā)展一直與計(jì)算機(jī)技術(shù)、信息論、語言學(xué)等學(xué)科的發(fā)展緊密相隨。從早期的詞典匹配,到詞典結(jié)合語言學(xué)專家知識(shí)的規(guī)則翻譯,再到基于語料庫的統(tǒng)計(jì)機(jī)器翻譯。
目前流行的翻譯系統(tǒng)主要的都是針對(duì)通用領(lǐng)域的翻譯,在面對(duì)一些專有領(lǐng)域的很多場(chǎng)景下效果卻不是很好,比如醫(yī)療領(lǐng)域、金融領(lǐng)域,以及法律合規(guī)領(lǐng)域。而重新開發(fā)專有領(lǐng)域的翻譯系統(tǒng)需要花費(fèi)大量的人力和物力。因此,需要一種不僅翻譯效果良好,開發(fā)效率高的適用于專有領(lǐng)域的翻譯系統(tǒng)。
發(fā)明內(nèi)容
以下是對(duì)本文詳細(xì)描述的主題的概述。本概述并非是為了限制權(quán)利要求的保護(hù)范圍。
一方面,本發(fā)明實(shí)施例提供了一種利用微調(diào)構(gòu)建機(jī)器翻譯模型的方法,以提高開發(fā)效率,提升翻譯效果,所述方法,包括:
構(gòu)建用于通用領(lǐng)域的基礎(chǔ)機(jī)器翻譯模型;
基于所述基礎(chǔ)機(jī)器翻譯模型,向特定領(lǐng)域進(jìn)行微調(diào),以構(gòu)建用于特定領(lǐng)域的機(jī)器翻譯模型。
另一方面,本發(fā)明實(shí)施例提供了一種翻譯裝置,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述的構(gòu)建機(jī)器翻譯模型的方法。
再一方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令用于執(zhí)行上述的構(gòu)建機(jī)器翻譯模型的方法。
本發(fā)明實(shí)施例包括:基于通用領(lǐng)域訓(xùn)練數(shù)據(jù)集,獲得適用于通用領(lǐng)域的基礎(chǔ)機(jī)器翻譯模型;利用所獲得的基礎(chǔ)機(jī)器翻譯模型,基于特定領(lǐng)域訓(xùn)練數(shù)據(jù)集,調(diào)整模型的超參數(shù):學(xué)習(xí)率,向特定領(lǐng)域進(jìn)行微調(diào),以構(gòu)建用于特定領(lǐng)域的結(jié)果機(jī)器翻譯模型。由此,根據(jù)本發(fā)明的實(shí)施例,創(chuàng)新性地將微調(diào)的思想應(yīng)用到機(jī)器翻譯的領(lǐng)域適應(yīng)遷移上,實(shí)現(xiàn)翻譯效果以及翻譯模型開發(fā)時(shí)間的綜合提升。同時(shí),還創(chuàng)新性的對(duì)經(jīng)典轉(zhuǎn)換器架構(gòu)進(jìn)行相關(guān)參數(shù)的調(diào)整,實(shí)現(xiàn)整體效果的提升。
本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
附圖說明
附圖用來提供對(duì)本發(fā)明技術(shù)方案的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實(shí)施例一起用于解釋本發(fā)明的技術(shù)方案,并不構(gòu)成對(duì)本發(fā)明技術(shù)方案的限制。
圖1是本發(fā)明一個(gè)實(shí)施例的利用微調(diào)構(gòu)建機(jī)器翻譯模型的方法整體流程圖;
圖2是本發(fā)明一個(gè)實(shí)施例利用微調(diào)構(gòu)建機(jī)器翻譯模型的方法中的數(shù)據(jù)預(yù)處理的流程圖;
圖3是本發(fā)明一個(gè)實(shí)施例利用微調(diào)構(gòu)建機(jī)器翻譯模型的方法中的關(guān)鍵詞保護(hù)處理的流程圖;
圖4是本發(fā)明一個(gè)實(shí)施例利用微調(diào)構(gòu)建機(jī)器翻譯模型的方法中的詞表處理的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中興通訊股份有限公司,未經(jīng)中興通訊股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911243004.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 一種用于提高機(jī)器翻譯質(zhì)量的裝置和方法
- 機(jī)器翻譯方法和裝置
- 一種ERP術(shù)語機(jī)器翻譯方法
- 機(jī)器翻譯引擎推薦方法及裝置
- 神經(jīng)機(jī)器翻譯模型的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 一種基于篇章的機(jī)器翻譯引擎測(cè)評(píng)優(yōu)選方法及系統(tǒng)
- 機(jī)器翻譯引擎服務(wù)恢復(fù)方法及裝置
- 一種基于預(yù)訓(xùn)練的稀缺資源神經(jīng)機(jī)器翻譯訓(xùn)練方法
- 基于混合策略的移動(dòng)設(shè)備機(jī)器翻譯系統(tǒng)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





