[發(fā)明專(zhuān)利]一種文字翻譯方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202310476522.8 | 申請(qǐng)日: | 2023-04-28 |
| 公開(kāi)(公告)號(hào): | CN116663576A | 公開(kāi)(公告)日: | 2023-08-29 |
| 發(fā)明(設(shè)計(jì))人: | 沙露露 | 申請(qǐng)(專(zhuān)利權(quán))人: | 珠海億智電子科技有限公司 |
| 主分類(lèi)號(hào): | G06F40/58 | 分類(lèi)號(hào): | G06F40/58;G06F40/205;G06F16/35;G06F18/214;G06F18/241 |
| 代理公司: | 深圳青年人專(zhuān)利商標(biāo)代理有限公司 44350 | 代理人: | 吳桂華 |
| 地址: | 519000 廣東省珠海市高新區(qū)*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文字 翻譯 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明實(shí)施例公開(kāi)了一種文字翻譯方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),所述方法包括:獲取預(yù)設(shè)訓(xùn)練集,所述訓(xùn)練集內(nèi)包括原文及其譯文所組成的平行語(yǔ)料;對(duì)所述預(yù)設(shè)訓(xùn)練集內(nèi)的平行語(yǔ)料進(jìn)行兩次篩選處理,得到目標(biāo)訓(xùn)練集;將所述目標(biāo)訓(xùn)練集導(dǎo)入預(yù)設(shè)翻譯模型,對(duì)所述預(yù)設(shè)翻譯模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,所述預(yù)設(shè)翻譯模型基于標(biāo)準(zhǔn)Transformer模型構(gòu)建;將待翻譯數(shù)據(jù)輸入所述目標(biāo)模型,得到翻譯結(jié)果。本發(fā)明實(shí)施例通過(guò)對(duì)訓(xùn)練集進(jìn)行兩次篩選,提高了訓(xùn)練數(shù)據(jù)集的可用性和準(zhǔn)確度。同時(shí),該目標(biāo)模型基于Transformer模型構(gòu)建得到,翻譯效果良好。
技術(shù)領(lǐng)域
本發(fā)明涉及文字翻譯技術(shù)領(lǐng)域,尤其涉及一種文字翻譯方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著深度學(xué)習(xí)的發(fā)展和算力的增加,基于深度學(xué)習(xí)的翻譯網(wǎng)絡(luò)發(fā)展迅速,目前,Transformer結(jié)構(gòu)及其變種已經(jīng)成為主流的端到端翻譯模型,翻譯效果相對(duì)傳統(tǒng)的翻譯來(lái)說(shuō)也提高了很多,隨著教育行業(yè)掃譯筆的興起,也使得翻譯模型從云端走向終端,許多學(xué)生家長(zhǎng)對(duì)掃譯筆的需求量也大幅提升,現(xiàn)有掃譯筆上的翻譯算法有兩個(gè)方面仍需改進(jìn),一是翻譯效果,主流的Transformer結(jié)構(gòu)屬于seq2seq架構(gòu),在翻譯過(guò)程中會(huì)存在著大量的錯(cuò)翻,漏翻和多翻,另一方面是終端算力有限,對(duì)網(wǎng)絡(luò)模型的大小和耗時(shí)也有一定的要求。
現(xiàn)有Transformer標(biāo)準(zhǔn)型直接應(yīng)用到掃譯筆上模型參數(shù)量大,耗時(shí)嚴(yán)重,且效果有待提高。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種文字翻譯方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),用于解決現(xiàn)有技術(shù)中模型參數(shù)量大且翻譯效果不佳的問(wèn)題。
為達(dá)上述之一或部分或全部目的或是其他目的,本發(fā)明提出一種文字翻譯方法,包括:獲取預(yù)設(shè)訓(xùn)練集,所述訓(xùn)練集內(nèi)包括原文及其譯文所組成的平行語(yǔ)料;
對(duì)所述預(yù)設(shè)訓(xùn)練集內(nèi)的平行語(yǔ)料進(jìn)行兩次篩選處理,得到目標(biāo)訓(xùn)練集;
將所述目標(biāo)訓(xùn)練集導(dǎo)入預(yù)設(shè)翻譯模型,對(duì)所述預(yù)設(shè)翻譯模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,所述預(yù)設(shè)翻譯模型基于標(biāo)準(zhǔn)Transformer模型構(gòu)建;
將待翻譯數(shù)據(jù)輸入所述目標(biāo)模型,得到翻譯結(jié)果。
可選地,所述獲取預(yù)設(shè)訓(xùn)練集的步驟包括:
根據(jù)數(shù)據(jù)來(lái)源將所有平行語(yǔ)料進(jìn)行分類(lèi),得到不同類(lèi)的平行語(yǔ)料集,并計(jì)算各平行語(yǔ)料集的可靠程度值;
比對(duì)各平行語(yǔ)料集的可靠程度值,選擇可靠程度值最大的平行語(yǔ)料集作為目標(biāo)平行語(yǔ)料集;
基于所述目標(biāo)平行語(yǔ)料集構(gòu)建所述預(yù)設(shè)訓(xùn)練集。
可選地,所述對(duì)所述預(yù)設(shè)訓(xùn)練集內(nèi)的平行語(yǔ)料進(jìn)行兩次篩選處理,得到目標(biāo)訓(xùn)練集的步驟,包括:
基于標(biāo)準(zhǔn)Transformer模型的歷史翻譯數(shù)據(jù)確定文字翻譯過(guò)程中發(fā)生概率大于等于閾值的錯(cuò)誤事件,并分析所述錯(cuò)誤事件中的原文及其譯文的特征規(guī)律;
基于所述特征規(guī)律對(duì)所述預(yù)設(shè)訓(xùn)練集內(nèi)的平行語(yǔ)料進(jìn)行篩選處理,得到初始訓(xùn)練集;
基于所述初始訓(xùn)練集和標(biāo)準(zhǔn)Transformer模型對(duì)所述初始訓(xùn)練集進(jìn)行篩選,得到所述目標(biāo)訓(xùn)練集。
可選地,所述基于所述初始訓(xùn)練集和標(biāo)準(zhǔn)Transformer模型對(duì)所述初始訓(xùn)練集進(jìn)行篩選,得到所述目標(biāo)訓(xùn)練集的步驟,包括:
基于所述初始訓(xùn)練集訓(xùn)練所述標(biāo)準(zhǔn)Transformer模型;
將所述初始訓(xùn)練集中的目標(biāo)譯文輸入訓(xùn)練后的標(biāo)準(zhǔn)Transformer模型,得到翻譯文;
計(jì)算所述翻譯文和所述初始訓(xùn)練集中與所述目標(biāo)譯文對(duì)應(yīng)的目標(biāo)原文的相似度,基于所述相似度對(duì)所述初始訓(xùn)練集進(jìn)行篩選,得到所述目標(biāo)訓(xùn)練集。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于珠海億智電子科技有限公司,未經(jīng)珠海億智電子科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310476522.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種構(gòu)建多語(yǔ)言網(wǎng)站實(shí)時(shí)翻譯的方法
- 一種待翻譯軟件的翻譯方法及裝置
- 一種待翻譯軟件的翻譯方法及裝置
- 一種CAT系統(tǒng)中翻譯記憶庫(kù)和MT結(jié)合的方法及系統(tǒng)
- 翻譯方法、系統(tǒng)、終端以及存儲(chǔ)介質(zhì)
- 一種文本展示方法及裝置
- 機(jī)器翻譯方法及裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 翻譯系統(tǒng)、翻譯方法、翻譯機(jī)及存儲(chǔ)介質(zhì)
- 文字翻譯方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 光源裝置、照明裝置、液晶裝置和電子裝置
- 預(yù)測(cè)裝置、編輯裝置、逆預(yù)測(cè)裝置、解碼裝置及運(yùn)算裝置
- 圖像形成裝置、定影裝置、遮光裝置以及保持裝置
- 打印裝置、讀取裝置、復(fù)合裝置以及打印裝置、讀取裝置、復(fù)合裝置的控制方法
- 電子裝置、光盤(pán)裝置、顯示裝置和攝像裝置
- 光源裝置、照明裝置、曝光裝置和裝置制造方法
- 用戶(hù)裝置、裝置對(duì)裝置用戶(hù)裝置、后端裝置及其定位方法
- 遙控裝置、通信裝置、可變裝置及照明裝置
- 透鏡裝置、攝像裝置、處理裝置和相機(jī)裝置
- 抖動(dòng)校正裝置、驅(qū)動(dòng)裝置、成像裝置、和電子裝置





