[發明專利]一種用于篇章級英譯中機器翻譯測試集的構建方法有效
| 申請號: | 202011248076.8 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112380877B | 公開(公告)日: | 2022-07-19 |
| 發明(設計)人: | 蔡心怡;熊德意 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/44;G06F40/289 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 張建中 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 篇章 級英譯中 機器翻譯 測試 構建 方法 | ||
1.一種用于篇章級英譯中機器翻譯測試集的構建方法,其特征在于,該方法包括:
獲取具有指代、連接、省略的銜接語法的篇章級英文文本數據及其對應的中文翻譯文本數據;
對獲取的中英文文本數據進行初步過濾處理,形成僅包含中英文詞匯的文本數據;將處理后的英文文本數據作為源語言數據,將處理后的中文翻譯文本數據作為目標語言數據;
將同時具有單復數或男女性別兩種表達含義的代詞稱為兩義代詞,選取兩義代詞作為查找參數,搜索源語言數據,當源語言數據中的某一句出現兩義代詞時,且該句的前一句給出決定單復數或男女性別的信息,則檢查目標語言數據中對應的翻譯文本,判斷對應的單復數或性別表述是否正確,并對錯誤進行修正;
將具有兩種以上含義的英文篇章級連接詞稱為多義連詞,選取若干個多義連詞,作為查找參數搜索源語言數據,當源語言數據中的某一句出現多義連詞時,則檢查目標語言數據中該句對應的翻譯文本及其上下文信息,判斷對多義連詞的翻譯是否正確,并對錯誤進行修正;
選取用于替代因上下句重復出現而被省略的動詞的助動詞,作為查找參數搜索源語言數據,當源語言數據中的某一句出現助動詞以及相應的否定形式時,則檢查目標語言數據中對應的翻譯文本是否翻譯出其省略動詞的含義,并對錯誤進行修正;
將檢查修正后的源語言數據及其對應的目標語言數據分別進行分詞處理,并對源語言數據進行詞性標注后制成候選數據集;分別設置篩選參數,從候選數據集中篩選相應的源語言數據及其對應的目標語言數據,分別制成指代測試集、篇章級連接詞測試集及省略測試集。
2.根據權利要求1所述的用于篇章級英譯中機器翻譯測試集的構建方法,其特征在于,從候選數據集中篩選指代測試集的篩選方法為:
設源語言數據中,單數名詞詞性標簽為NN,復數名詞詞性標簽為NNS,專有詞性標簽為NR;
第一篩選參數為:源語言數據中的某一句中包含有兩義代詞;該句的前一句包含有詞性標簽為NN、NNS和NR的名詞詞性的單詞,該句對應的目標語言數據中包含“他們”,“她們”,“它們”,“你”,“你們”或物主形式;
第二篩選參數為:該句的前一句中包含單復數或男女性別的信息;
先篩選出符合第一篩選參數的源語言數據及其對應的目標語言數據;對符合第一篩選參數條件的數據再采用第二篩選參數進行篩選,將同時滿足第一篩選參數及第二篩選參數的源語言數據及其對應的目標語言數據,集合制成指代測試集。
3.根據權利要求1所述的用于篇章級英譯中機器翻譯測試集的構建方法,其特征在于,從候選數據集中篩選篇章級連接詞測試集的篩選方法為:
設源語言數據中,并列連接詞詞性標簽為CC,前/后置連詞詞性標簽為IN,特殊疑問詞詞性標簽為WRB;
第三篩選參數為:源語言數據中的某一句中包含有多義連詞;并且該多義連詞的詞性標簽滿足CC、IN、WRB中的一種;
先篩選出符合第三篩選參數的源語言數據及其對應的目標語言數據,再檢查篩選出的目標語言數據中是否存在對應的連詞翻譯,如果有對應的連詞翻譯,則該句源語言數據及其對應的目標語言數據符合篩選條件;
如果沒有,則繼續檢查目標語言數據的前一句是否包含連接詞消除歧義所用的信息;如果有,則該句源語言數據及其對應的目標語言數據符合篩選條件;否則不符合;
對應每個連接詞的每種含義,從候選數據集中,對應篩選出相同數量的符合上述篩選參數條件的數據,集合制成指代測試集。
4.根據權利要求1所述的用于篇章級英譯中機器翻譯測試集的構建方法,其特征在于,從候選數據集中篩選篇章級連接詞測試集的篩選方法為:
設源語言數據中,系動詞詞性標簽為VC,動詞詞性標簽為VB,動詞過去式為VBD;
第四篩選參數為:源語言數據中的某一句中包含有至少一個助動詞;并且該助動詞的詞性滿足VC、VB、VBD中的一個;
先篩選出符合第四篩選參數的源語言數據及其對應的目標語言數據;再對篩選出的數據中包含助動詞的源語言句子及其所對應的中文翻譯文本進行檢查,確認對應該句的動詞翻譯與前一句中的動詞翻譯是否一致,將前后句動詞翻譯一致的源語言數據及其對應的目標語言數據,集合制成省略測試集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011248076.8/1.html,轉載請聲明來源鉆瓜專利網。





