[發明專利]融入分類詞典的漢越神經機器翻譯集外詞處理方法有效
| 申請號: | 201910634905.7 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110457715B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 賴華;賈承勛;余正濤;朱恩昌;車萬金;文永華;高盛祥 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/58;G06F40/289 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融入 分類 詞典 神經 機器翻譯 集外詞 處理 方法 | ||
1.融入分類詞典的漢越神經機器翻譯集外詞處理方法,其特征在于:所述融入分類詞典的漢越神經機器翻譯集外詞處理方法的具體步驟如下:
Step1、語料收集:收集漢語-越南語語料,并分為訓練集、測試集和驗證集;
Step2、分類詞典的構建:分析集外詞的特點,將集外詞分為三類,包括稀有詞、實體詞、以及數字、符號、日期和時間,并有針對性的構建出分類詞典,分類詞典包括雙語詞典、實體詞典和規則詞典;
Step3、分類詞典的融入:通過查找分類詞典對數據中的集外詞進行識別,在模型的編碼端對三類集外詞進行標簽替換,然后將標簽替換后的數據通過模型翻譯成帶有標簽的目標語言,最后查閱分類詞典將標簽恢復;
Step4、同類集外詞處理:當一句話中出現多個同類集外詞時,對同類標簽采用標記排序進行定位標識;
Step5、模型訓練及翻譯:在步驟Step1、Step2、Step3、Step4的基礎上,對融入了分類詞典的神經機器翻譯模型進行訓練,然后把待翻譯的數據通過訓練好的模型進行翻譯,得到最終的翻譯結果;
漢越神經機器翻譯分類詞典的融入,將分別從三個方面對雙語詞典、實體詞典和規則詞典的融入進行說明,由于在前處理階段構建的雙語詞典和實體詞典之間存在部分重復詞,在融入分類詞典時,考慮到實體詞典的標簽多樣性,通過設置優先級的方法優先查閱實體詞典;
Step3.1雙語詞典的融入方法:
對于雙語詞典的融入,通過查找雙語詞典計算語義相似度,尋找句子中不常用的詞表外的詞,確定位置后統一用使用自定義的標簽進行替代,然后通過模型得到相應的翻譯結果,再通過查找雙語詞典將標簽恢復為相應的翻譯;
Step3.2實體詞典的融入方法:
對于實體詞典的融入,首先通過查找實體詞典進行實體詞的識別發現,找出句子中的實體詞,確定位置后對實體詞進行標簽替換,其中對人名、地名、組織機構名和專有名詞分別采用不同的標簽進行替換,在通過模型得到翻譯結果后,查找實體詞典將標簽進行翻譯恢復;
Step3.3規則詞典的融入方法:
對于規則詞典的融入,處理方式與雙語詞典和實體詞典不同,分為直接融入和間接融入;直接融入是指數字和符號,在翻譯前后不會改變本身的形式,間接融入是指時間和日期,在翻譯前后會有固定的變化,這種情況則通過正則表達式對這類詞進行規則定義,然后再將其進行融入,融入的過程是查找規則詞典進行規則詞的識別,然后統一進行標簽替換,其中對數字、符號、時間和日期分別采用四個不同的標簽進行替換,對句子進行翻譯后,通過查找規則詞典再對標簽進行翻譯恢復。
2.根據權利要求1所述的融入分類詞典的漢越神經機器翻譯集外詞處理方法,其特征在于:所述步驟Step2中,將集外詞分為三類來構建分類詞典,一是稀有詞,常規詞表以外的詞,利用常規詞表以外的詞構建雙語詞典;二是實體詞,包括人名、地名、組織機構名和專有名詞,利用實體詞構建實體詞典;三是數字、符號、日期和時間,將這些詞利用基于規則的方法進行正則化處理構建規則詞典。
3.根據權利要求1所述的融入分類詞典的漢越神經機器翻譯集外詞處理方法,其特征在于:所述步驟Step2中,對于雙語詞典的構建,先對語料進行對齊處理,然后排除詞表內的詞來構建雙語詞典;對于實體詞典的構建,主要基于維基百科進行詞條抽取;對于規則詞典,數字和符號這類詞,在翻譯前后不會改變詞的本身形式,直接進行翻譯;對于日期和時間這類詞,利用基于規則的方法用正則表達式進行處理,從而構建成規則詞典。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910634905.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于時序主題模型的自然語言生成方法
- 下一篇:一種語音輸出方法及移動終端





