[發明專利]機器翻譯結果的詞對齊方法、裝置、電子設備及存儲介質有效
| 申請號: | 202011305025.4 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112199965B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 周玉;鄧彪;李小青;劉鵬;韓延超 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/279;G06F40/242;G06F40/189 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 韓德凱;李偉波 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 結果 對齊 方法 裝置 電子設備 存儲 介質 | ||
本公開提供了一種機器翻譯結果的詞對齊方法,包括:將源語言語句和源語言語句的機器翻譯結果即目標語言語句組成句對,分別對源語言語句以及目標語言語句進行分詞;使用專業領域詞典對分詞后的句對中的單詞進行對齊,獲得專業領域詞典能夠對齊的單詞對,作為詞典對齊結果;對源語言語句中的每個詞與目標語言語句中的每個詞進行正向對齊,獲得正向對齊能夠對齊的單詞對,作為正向對齊結果;對于未能夠正向對齊的詞進行反向對齊,獲得反向對齊能夠對齊的單詞對,作為反向對齊結果;以及將詞典對齊結果、正向對齊結果以及反向對齊結果作為初級對齊結果。本公開還提供了機器翻譯結果的詞對齊裝置、電子設備以及可讀存儲介質。
技術領域
本公開屬于自然語言處理技術領域,本公開尤其涉及一種機器翻譯結果的詞對齊方法、裝置、電子設備及存儲介質。
背景技術
現有技術中的機器翻譯是利用計算機將源語言轉換為目標語言的過程。機器翻譯技術具有重要的社會實用價值,其中最能體現的是針對各類專業領域中翻譯需求的應用,例如醫療、金融等領域。然而專業領域中存在大量,對這些術語的翻譯經常存在錯譯(翻譯不專業)情況。
為提高翻譯質量,需對這些專業領域文本的翻譯結果進行分析。
一種有效方法是找出源句子與翻譯結果的單詞對應關系,再針對其中的錯譯進行相應處理。具體的翻譯結果的詞對齊示例見圖1。
雙語句對的詞對齊技術,現有方法主要有兩種:一是基于詞典的方法,建立一個通用詞典和領域詞典進行匹配;二是利用詞對齊工具,對雙語句對進行詞語對齊,比較成熟的詞對齊工具有GIZA++和fast_align等。
現有技術中的翻譯系統存在錯譯情況,尤其是的翻譯,如圖2所示,上文描述的現有的兩種方法均無法準確對齊錯譯的單詞或術語。除此之外,對基于詞典的方法來說,需要維護一個精確并定期更新的詞典,否則在詞典中有噪聲或者遇到新術語的情況下將不能準確匹配。基于詞對齊的方法普遍應用在統計機器翻譯中,在雙語訓練語料本身質量較高的情況下,對齊效果較好。但在源句子和翻譯結果的對齊中,由于翻譯結果的錯譯情況存在、英文與中文的句序和表達的不同,以及不能在對齊前對術語進行準確分詞,因此類似fast_align之類的普通詞對齊工具不能很好滿足原文與機器翻譯譯文之間的詞對齊需求。
發明內容
為了解決上述技術問題中的至少一個,本公開提供了一種機器翻譯結果的詞對齊方法、裝置、電子設備及存儲介質。
本公開的機器翻譯結果的詞對齊方法、裝置、電子設備及存儲介質通過以下技術方案實現。
根據本公開的一個方面,提供一種機器翻譯結果的詞對齊方法,包括:
S1、將源語言語句和所述源語言語句的機器翻譯結果即目標語言語句組成句對,分別對所述源語言語句以及所述目標語言語句進行分詞;
S2、使用專業領域詞典對所述分詞后的句對中的單詞進行對齊,獲得專業領域詞典能夠對齊的單詞對,作為詞典對齊結果;
S3、對所述源語言語句中的每個詞與所述目標語言語句中的每個詞進行正向對齊,獲得正向對齊能夠對齊的單詞對,作為正向對齊結果;
S4、對于步驟S3中未能夠正向對齊的詞進行反向對齊,獲得反向對齊能夠對齊的單詞對,作為反向對齊結果;以及
S5、將詞典對齊結果、正向對齊結果以及反向對齊結果作為初級對齊結果。
根據本公開的至少一個實施方式的機器翻譯結果的詞對齊方法,步驟S3中,替換地,對專業領域詞典未能夠對齊的詞進行正向對齊,獲得正向對齊能夠對齊的單詞對,作為正向對齊結果。
根據本公開的至少一個實施方式的機器翻譯結果的詞對齊方法,對步驟S5獲得的初級對齊結果進行補充對齊,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011305025.4/2.html,轉載請聲明來源鉆瓜專利網。





