[發明專利]基于錨點的增長式實時雙語詞對齊的對齊方法及對齊系統在審
| 申請號: | 201611169586.X | 申請日: | 2016-12-16 |
| 公開(公告)號: | CN106844332A | 公開(公告)日: | 2017-06-13 |
| 發明(設計)人: | 張家俊;黃國平;周玉;宗成慶 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28 |
| 代理公司: | 北京瀚仁知識產權代理事務所(普通合伙)11482 | 代理人: | 郭文浩,李飛 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 增長 實時 雙語 對齊 方法 系統 | ||
技術領域
本發明涉及自然語言處理技術領域,更具體地,涉及一種基于錨點的增長式實時雙語詞對齊的對齊方法及對齊系統。
背景技術
機器翻譯是用計算機來實現不同語言之間的轉換。被翻譯的語言通常稱為源語言,翻譯成的結果語言稱為目標語言。機器翻譯就是實現從源語言到目標語言轉換的過程。詞對齊是統計機器翻譯的一項核心任務,它從雙語平行語料中發掘互為翻譯的語言片斷,是翻譯知識的主要來源。簡而言之,詞對齊就是源語言句子中某個詞是由目標語言中哪個詞翻譯而來的。如圖1所示,一個詞可以被翻譯為一個或多個詞,甚至不被翻譯。在實踐中,一部分錯誤的翻譯規則因詞對齊錯誤而觸發,因而進一步影響最終機器翻譯譯文質量。
在實踐中,經典的詞對齊方法包括IBM模型1到5和隱馬爾可夫詞對齊方法,可參見文獻(Brown,Peter F.,Stephen A.Della Pietra,Vincent J.Della Pietra,and Robert L.Mercer.1993.The mathematics of statistical machine translation:Parameter estimation.Computational Linguistics,19(2):263–311.;Vogel,S.,Ney,H.,Tillmann,C..1996.HMM-based word alignment in statistical translation.In:Proceedings of the 16th conference on Computational linguistics.vol.2,pp.836–841)。經典的詞對齊方法在離線訓練場景中的性能比較優越,已得到很多工具的支持,如廣泛使用的GIZA++等。
在人工翻譯場景中,專業譯員不斷地產生新的雙語平行句對,而且要求統計機器翻譯系統能實時地學習新的翻譯知識,所以必然要求詞對齊模型也能盡快學習到新的詞語翻譯知識,從而不斷降低詞對齊錯誤率。由于傳統的詞對齊方法用于大規模語料的離線訓練周期較長,不利于統計機器翻譯系統實時學習翻譯知識。
然而,當前的增長式雙語詞對齊性能并沒有達到能直接用于統計機器翻譯實時學習新翻譯知識的水平。其主要原因為如下三點:(1)對新詞處理能力較弱;(2)長句子詞對齊錯誤率較高;(3)大規模語料的訓練周期仍然較長;(4)未充分利用置信度較高的先驗知識。如果直接將先驗知識作為詞對齊的約束,并不能帶來性能的提升,還需要改進現有增長式雙語詞對齊算法。因此,研究如何利用先驗知識,大幅減少增長式雙語詞對齊的訓練時間,同時明顯降低新詞和長句的雙語詞對齊的錯誤率,并提高最終的機器翻譯譯文質量是迫切需要解決的一個難題。
發明內容
為了解決現有技術中的上述問題,即為了解決降低新詞和長句的雙語詞對齊的錯誤率,并提高最終的機器翻譯譯文質量的問題,本發明提供了一種基于錨點的增長式實時雙語詞對齊的對齊方法。
實現上述目的,本發明提供了如下方案:
一種基于錨點的增長式實時雙語詞對齊的對齊方法,所述對齊方法包括:
對一對源語言句子和目標語言句子進行分詞處理,獲得源語言詞組和目標語言詞組;
根據所述源語言詞組和目標語言詞組確定探測錨點集合;
根據所述探測錨點集合,對源語言詞組和目標語言詞組進行雙語短語切分,得到雙語短語切分候選集合;
根據所述雙語短語切分候選集合和詞對齊模型,確定所述源語言詞組和目標語言詞組的對齊雙語詞;
將所述源語言詞組、目標語言詞組及對齊雙語詞添加到批處理訓練集中,判斷當前的批處理訓練集的大小是否超過設定閾值,如果是則根據當前的批處理訓練集更新詞對齊模型;否則重復上述步驟,直至完成全部源語言句子和目標語言句子的處理。
可選的,所述確定探測錨點集合的方法包括:
步驟S21:根據所述源語言詞組、目標語言詞組計算任意源語言詞與目標語言詞之間的互信息;
步驟S22:將最大互信息值對應的源語言詞和目標語言詞或者根據先驗知識確定的源語言詞和目標語言詞標為錨點,多個錨點形成對齊描點集合;
步驟S23:標記所述錨點對應的源語言句子詞的下標為橫坐標,將橫坐標所在行的所有互信息替換為最小互信息值;標記所述錨點對應的目標語言句子詞的下標為縱坐標,將縱坐標對應列的所有互信息替換為最小互信息值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611169586.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動化艾條成型設備
- 下一篇:一種方便清灰的艾灸盒





