[發(fā)明專利]基于多策略原型生成的低資源神經(jīng)機器翻譯方法在審
| 申請?zhí)枺?/td> | 202210293213.2 | 申請日: | 2022-03-24 |
| 公開(公告)號: | CN114676708A | 公開(公告)日: | 2022-06-28 |
| 發(fā)明(設(shè)計)人: | 余正濤;朱恩昌;于志強 | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/242;G06F40/30;G06F16/2458;G06N3/04;G06N3/08 |
| 代理公司: | 昆明隆合知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650500 云南*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 策略 原型 生成 資源 神經(jīng) 機器翻譯 方法 | ||
1.基于多策略原型生成的低資源神經(jīng)機器翻譯方法,其特征在于:所述方法的具體步驟如下:
Step1、語料預(yù)處理:預(yù)處理不同規(guī)模的平行訓(xùn)練語料、驗證語料和測試語料,用于模型訓(xùn)練、參數(shù)調(diào)優(yōu)和效果測試;并構(gòu)建多語言全局替換詞典和關(guān)鍵詞詞典,用于偽原型生成;
Step2、原型生成:利用基于多種策略混合的原型生成方法進行原型生成,以保證原型序列的可用性;該步驟的具體思路為:首先結(jié)合使用模糊匹配和分布式表示匹配進行原型檢索,如未檢索到原型,則利用詞替換操作對輸入句子中的關(guān)鍵詞進行替換,得到偽原型序列;
Step3、融入原型序列的翻譯模型構(gòu)建:改進傳統(tǒng)基于注意力機制的神經(jīng)機器翻譯模型的編解碼器結(jié)構(gòu),以更好的融入原型序列,使用步驟Step1,Step2的語料作為模型輸入,產(chǎn)生最終譯文。
2.根據(jù)權(quán)利要求1所述的基于多策略原型生成的低資源神經(jīng)機器翻譯方法,其特征在于:所述Step1的具體步驟為:
Step1.1、使用機器翻譯領(lǐng)域的通用數(shù)據(jù)集IWSLT15進行模型訓(xùn)練,翻譯任務(wù)為英-越、英-中和英-德;驗證和測試方面,選擇tst2012作為驗證集進行參數(shù)優(yōu)化和模型選擇,選擇tst2013作為測試集進行測試評估;
Step1.2、使用PanLex、維基百科、實驗室自建的英漢-東南亞語詞典以及谷歌翻譯接口來構(gòu)建英-越-中-德全局替換詞典;
Step1.3、在Step1.2的基礎(chǔ)上,通過標(biāo)記篩選方式得到關(guān)鍵詞典,篩選過程中保留全部實體;為避免替換過于集中于某些熱點名詞,對名詞性詞匯于語料中檢索并按出現(xiàn)頻率進行倒排。
3.根據(jù)權(quán)利要求1所述的基于多策略原型生成的低資源神經(jīng)機器翻譯方法,其特征在于:所述Step2的具體步驟為:
Step2.1、結(jié)合使用模糊匹配和分布式表示匹配進行原型檢索;具體實現(xiàn)如下:翻譯記憶庫是由L對平行句組成的集合{(sl,tl):l=1,...,L},其中sl為源句,tl為目標(biāo)句;對給定的輸入句子x,首先使用關(guān)鍵詞匹配于翻譯記憶庫中進行檢索;采用模糊匹配作為關(guān)鍵詞匹配方法,其定義為:
其中ED(x,si)是x,si間的編輯距離,|x|為x的句長;
與基于關(guān)鍵詞的匹配方法不同,分布式表示匹配根據(jù)句子向量表征之間的距離進行檢索,某種程度上是利用語義信息進行相似性檢索的手段,也因此提供了與關(guān)鍵詞匹配不同的檢索視角;基于余弦相似度的分布式表示匹配定義為:
其中hx和分別為x和si的向量表征,||hx||為向量hx的度量;為實現(xiàn)快速計算,首先使用多語言預(yù)訓(xùn)練模型mBERT得到句子x和si的向量表征,隨后依據(jù)表征,使用faiss工具進行相似性匹配;
當(dāng)模糊匹配能夠得到最優(yōu)匹配源句sbest時,利用分布式表示匹配得到top-k個匹配結(jié)果的集合s′={s1,s2,...,sk},如sbest∈s′,則選取sbest對應(yīng)的目標(biāo)端句子tbest作為原型序列;當(dāng)模糊匹配未能檢索到匹配源句或時,則通過分布式表示匹配檢索出最優(yōu)匹配源句sbest;
Step2.2、若Step2.1未檢索到原型,則對輸入的句子進行關(guān)鍵詞替換,生成偽原型,稱之為基于詞替換的偽原型生成;具體包含以下兩種替換策略;
全局替換:當(dāng)輸入句子未能檢索到匹配時,基于最大化原則,利用雙語詞典對輸入句子中的詞進行盡力替換,替換后的句子被稱為偽原型序列;
關(guān)鍵詞替換:從雙語詞典中抽取重要名詞和實體構(gòu)建關(guān)鍵詞詞典;當(dāng)輸入句子未能檢索到匹配時,利用該詞典對輸入句子中的關(guān)鍵詞進行替換,生成偽原型序列,替換次數(shù)上限小于設(shè)定的閾值;期望在共享詞表的基礎(chǔ)上,該混合了源端和重要目標(biāo)端詞匯的偽原型序列能夠為譯文的生成提供指導(dǎo)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210293213.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種計算機網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計算機可讀存儲介質(zhì)





