[發(fā)明專利]一種基于上下文銜接手段遮蔽框架系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210071846.9 | 申請日: | 2022-01-21 |
| 公開(公告)號: | CN114492317A | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計)人: | 熊德意;雷易錕 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/58;G06N3/04 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 上下文 銜接 手段 遮蔽 框架 系統(tǒng) | ||
本發(fā)明公開了一種基于上下文銜接手段遮蔽模型框架系統(tǒng),該框架系統(tǒng)包括輸入、編碼器和解碼器、模型損失函數(shù)、預(yù)測器以及銜接手段遮蔽策略;該CoCoDM模型將當(dāng)前句子中與上下文存在依賴連接的篇章敏感的單詞進行遮蔽,然后讓模型去預(yù)測這些被遮蔽單詞,從而迫使模型來主動探索上下文中與當(dāng)前句子有關(guān)的信息。與現(xiàn)有技術(shù)相比,本發(fā)明能夠提升篇章級神經(jīng)機器翻譯模型理解上下文的效率,最終能夠顯著提高翻譯質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,特別是涉及一種提升篇章級神經(jīng)機器翻譯模型理解上下文的基于上下文銜接手段遮蔽框架系統(tǒng)。
背景技術(shù)
機器翻譯(MT)是借助計算機在自然語言之間自動翻譯的過程。在互聯(lián)網(wǎng)上,機器翻譯得到了極大的發(fā)展。先后出現(xiàn)了統(tǒng)計機器翻譯(SMT)以及后續(xù)發(fā)展出來的更為先進的神經(jīng)機器翻譯(NMT)系統(tǒng),。
但是,機器翻譯主要基于強獨立性和局部性假設(shè),即忽略文檔級別的相互依賴關(guān)系來獨立翻譯句子。忽略由復(fù)雜的語言元素結(jié)合在一起的并置和結(jié)構(gòu)化的句子組組成的篇章元素之間的相互關(guān)系會導(dǎo)致翻譯看起來似乎很好,可實際缺乏文本的關(guān)鍵屬性。例如,在翻譯中忽略文檔上下文會阻礙預(yù)期含義的傳遞。數(shù)十年來,機器翻譯的先驅(qū)們一直提倡在翻譯過程中使用上下文。由于統(tǒng)計機器翻譯的局限性以及機器翻譯社區(qū)對其計算效率和易處理性的擔(dān)憂,在統(tǒng)計機器翻譯中包含文檔上下文都無法產(chǎn)生顯著的改進。隨著計算能力的提升和神經(jīng)網(wǎng)絡(luò)在機器翻譯中的廣泛應(yīng)用,以考慮句間依賴為目的的篇章級神經(jīng)機器翻譯越來越受到關(guān)注。
雖然篇章級翻譯模型的譯文比句子級翻譯模型生成的譯文在一致性和凝聚性上更好,但是卻并不能使人們滿意。造成這個問題原因在于,現(xiàn)有的建模方法都是隱式的,被動的。它們認(rèn)為模型能夠自己通過數(shù)據(jù)來學(xué)習(xí)到如何捕捉句間關(guān)系,但是由于篇章級雙語語料相對于句子級雙語語料來說十分的有限,并且一個篇章中的篇章關(guān)聯(lián)信息往往十分的稀少,因此模型其實很難僅僅只通過數(shù)據(jù)學(xué)習(xí)到如何解決篇章現(xiàn)象問題的能力。例如,對于給定文檔d,其源語言句子集合為X={x1,x2,...,x|d|},將這些源語言句子翻譯為對應(yīng)的目標(biāo)語言句子Y={y1,y2,...,y|d|}。假設(shè)翻譯是從左到右生成的,可以使用鏈?zhǔn)椒ǐ@得文檔翻譯的概率為:
其中,xj表示第j個源語言句子,yj表示第j個目標(biāo)句子,Y<j表示目標(biāo)端上下文,X-j表示源語言端上下文;
現(xiàn)有的篇章級神經(jīng)機器翻譯模型大多致力于對篇章中句子之間的依賴性進行建模,據(jù)建模的方法分為兩類,即:一類為單編碼器方法,通過將上下文與當(dāng)前句子進行拼接作為輸入來融合上下文信息,對于長度過長的句子,單編碼器很難將有用的信息進行提取,造成重要信息的遺漏;另一類為多編碼器方法,使用額外的上下文編碼器來對上下文語句進行單獨編碼,最終使用注意力機制來將上下文信息融合進當(dāng)前句子的翻譯過程中,可能會遺漏重要的上下文信,造成上下文使用效率低。因此,多編碼器與單編碼器方法都有一個共同的問題,即無法充分的利用上下文信息。
除了上述的兩種主流的方法外,還有一些方法來對上下文信息進行建模。兩次編輯方法希望使用上下文信息對句子級機器翻譯模型翻譯后的譯文進行二次編輯,從而解決困擾句子級翻譯的篇章現(xiàn)象問題。還有的方法將篇章構(gòu)建成一個無向圖,使用圖卷積網(wǎng)絡(luò)對上下文間的依賴信息進行建模。
根據(jù)上下文的來源,現(xiàn)有的建模方法可以分為三類:
(1)、只考慮源語言端上下文的建模方法,其概率方程如下:
其中,Xj±k代表第j個源語言句子周圍的k個句子,將其看作是上下文。
(2)、只考慮目標(biāo)端上下文的的建模方法,其概率方程如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210071846.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





