[發(fā)明專利]一種用于篇章級英譯中機器翻譯測試集的構(gòu)建方法有效
| 申請?zhí)枺?/td> | 202011248076.8 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112380877B | 公開(公告)日: | 2022-07-19 |
| 發(fā)明(設(shè)計)人: | 蔡心怡;熊德意 | 申請(專利權(quán))人: | 天津大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/44;G06F40/289 |
| 代理公司: | 天津市北洋有限責任專利代理事務(wù)所 12201 | 代理人: | 張建中 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 篇章 級英譯中 機器翻譯 測試 構(gòu)建 方法 | ||
本發(fā)明公開了一種用于篇章級英譯中機器翻譯測試集的構(gòu)建方法,獲取具有指代、連接、省略的銜接語法的篇章級英文文本數(shù)據(jù)及其對應(yīng)的中文文本數(shù)據(jù);對獲取數(shù)據(jù)進行過濾處理,形成僅包含英、中文詞匯的文本數(shù)據(jù);將英文文本數(shù)據(jù)作為源語言數(shù)據(jù),將中文文本數(shù)據(jù)作為目標語言數(shù)據(jù);分別選取兩義代詞、多義連詞及助動詞作為查找參數(shù),搜索源語言數(shù)據(jù)并對目標語言數(shù)據(jù)進行檢查修正;將檢查修正后的兩種語言數(shù)據(jù)分別進行分詞處理及詞性標注后制成候選數(shù)據(jù)集;分別設(shè)置篩選參數(shù),從候選數(shù)據(jù)集中篩選相應(yīng)的源語言數(shù)據(jù)及其對應(yīng)的目標語言數(shù)據(jù),分別制成指代測試集、篇章級連接詞測試集及省略測試集。本發(fā)明可用于測試及評估不同機器翻譯模型篇章級翻譯能力。
技術(shù)領(lǐng)域
本發(fā)明涉及一種機器翻譯領(lǐng)域,特別涉及一種用于篇章級英譯中機器翻譯測試集的構(gòu)建方法。
背景技術(shù)
目前,隨著機器翻譯技術(shù)的逐步完善,貼近實際應(yīng)用的機器翻譯方面的研究越來越多,機器翻譯領(lǐng)域的研究重點也逐步從句子級別過渡到篇章級別。由于篇章級別的機器翻譯相比于句子級別的機器翻譯所關(guān)注的文本范圍更廣,所要考慮的問題與現(xiàn)象更多,所以難度也進一步增加。
在研究機器翻譯模型怎樣進一步提高翻譯能力的同時,如何能更加合理地對模型翻譯能力進行評測也成為了研究者們關(guān)心的問題。篇章級的機器翻譯模型除了要考慮句內(nèi)的各種語言現(xiàn)象的翻譯能力,還要考慮句間(跨句)的語言現(xiàn)象,這要求機器翻譯模型對當前句的上下文有綜合翻譯能力。在評測篇章級機器翻譯模型的翻譯能力時,同樣也要關(guān)注模型對于句間的語言現(xiàn)象的翻譯能力。
已有的評測指標多為自動評測時所用到的評測指標,在計算指標的分值時,多為僅考慮句內(nèi)的各種語言現(xiàn)象,更適合對句內(nèi)的各種語言現(xiàn)象進行評測,而沒有特別為篇章級語言現(xiàn)象所設(shè)計的相關(guān)的評測指標。對于篇章級的語言現(xiàn)象還需要具有針對性的評測方法。
在其他翻譯語言對上,也有對于篇章級機器翻譯的相關(guān)研究,對模型翻譯能力的測評時,是從某個篇章級語言現(xiàn)象考慮。例如,在英法、英德翻譯方向上考慮相應(yīng)語言中代詞的翻譯效果,在法英、英德和法德等翻譯方向上考慮篇章級連接詞的翻譯效果,而在省略現(xiàn)象中僅看到了英俄翻譯方向上相關(guān)的研究。
參考其他語言方向上的相關(guān)研究,結(jié)合英譯中的機器翻譯時的實際情況,在此發(fā)明中我們針對英譯中時容易出現(xiàn)錯誤的三種語言現(xiàn)象:指代、篇章級連接詞和省略現(xiàn)象提出構(gòu)建相應(yīng)測試集的方法,根據(jù)此方法構(gòu)建的測試集,可以用來測試不同的篇章級機器翻譯模型的翻譯能力。
發(fā)明內(nèi)容
本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題而提供一種用于篇章級英譯中機器翻譯測試集的構(gòu)建方法。
本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:一種用于篇章級英譯中機器翻譯測試集的構(gòu)建方法,該方法包括:
獲取具有指代、連接、省略的銜接語法的篇章級英文文本數(shù)據(jù)及其對應(yīng)的中文翻譯文本數(shù)據(jù);
對獲取的中英文文本數(shù)據(jù)進行初步過濾處理,形成僅包含中英文詞匯的文本數(shù)據(jù);將處理后的英文文本數(shù)據(jù)作為源語言數(shù)據(jù),將處理后的中文翻譯文本數(shù)據(jù)作為目標語言數(shù)據(jù);
將同時具有單復數(shù)或男女性別兩種表達含義的代詞稱為兩義代詞,選取兩義代詞作為查找參數(shù),搜索源語言數(shù)據(jù),當源語言數(shù)據(jù)中的某一句出現(xiàn)兩義代詞時,且該句的前一句給出決定單復數(shù)或男女性別的信息,則檢查目標語言數(shù)據(jù)中對應(yīng)的翻譯文本,判斷對應(yīng)的單復數(shù)或性別表述是否正確,并對錯誤進行修正;
將具有兩種以上含義的英文篇章級連接詞稱為多義連詞,選取若干個多義連詞,作為查找參數(shù)搜索源語言數(shù)據(jù),當源語言數(shù)據(jù)中的某一句出現(xiàn)多義連詞時,則檢查目標語言數(shù)據(jù)中該句對應(yīng)的翻譯文本及其上下文信息,判斷對多義連詞的翻譯是否正確,并對錯誤進行修正;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學,未經(jīng)天津大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011248076.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





