[發明專利]機器翻譯結果的詞對齊方法、裝置、電子設備及存儲介質有效
| 申請號: | 202011305025.4 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112199965B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 周玉;鄧彪;李小青;劉鵬;韓延超 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/279;G06F40/242;G06F40/189 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 韓德凱;李偉波 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器翻譯 結果 對齊 方法 裝置 電子設備 存儲 介質 | ||
1.一種機器翻譯結果的詞對齊方法,其特征在于,包括:
S1、將源語言語句和所述源語言語句的機器翻譯結果即目標語言語句組成句對,分別對所述源語言語句以及所述目標語言語句進行分詞;
S2、使用專業領域詞典對所述分詞后的句對中的單詞進行對齊,獲得專業領域詞典能夠對齊的單詞對,作為詞典對齊結果;
S3、對所述源語言語句中的每個詞與所述目標語言語句中的每個詞進行正向對齊,獲得正向對齊能夠對齊的單詞對,作為正向對齊結果;
S4、對于步驟S3中未能夠正向對齊的詞進行反向對齊,獲得反向對齊能夠對齊的單詞對,作為反向對齊結果;以及
S5、將詞典對齊結果、正向對齊結果以及反向對齊結果作為初級對齊結果;
其中,對步驟S5獲得的初級對齊結果進行補充對齊,包括:
S61、使用源語言切分詞以及目標語言切分詞將所述句對切分成源語言語塊序列以及目標語言語塊序列;
S62、基于所述初級對齊結果,將源語言語塊與目標語言語塊一一對應,獲得語塊對;
S63、判斷所述初級對齊結果中的單詞對中的源語言單詞以及目標語言單詞是否同時出現在一個語塊對中,如果某個單詞對未同時出現在一個語塊對中,則將該單詞對中的源語言單詞以及目標語言單詞從語塊對中去除,獲得清洗后的語塊對;以及
S64、將清洗后的語塊對中未對齊的單詞進行對齊,獲得所述初級對齊結果的補充對齊結果。
2.根據權利要求1所述的機器翻譯結果的詞對齊方法,其特征在于,步驟S3中,對專業領域詞典未能夠對齊的詞進行正向對齊,獲得正向對齊能夠對齊的單詞對,作為正向對齊結果。
3.根據權利要求2所述的機器翻譯結果的詞對齊方法,其特征在于,步驟S62中,使用以下方法獲得所述語塊對:
將源語言語塊序列表示為將目標語言語塊序列表示為
其中,帶有a下標的為初級對齊結果的單詞對,帶有下標的是未對齊的單詞;
基于所述初級對齊結果,獲得源語言單詞與目標語言單詞的對齊關系以及對齊概率,使用以下公式進行語塊對齊:
其中i,j表示語塊序號,m,n分別表示語塊序列i、j中的單詞的序號;
在進行語塊對齊時,對每個源語言語塊,計算其中的每個詞與目標語言語塊的每個詞之間的對齊概率ρ,單詞對屬于初級對齊結果的,其對齊概率為初級對齊概率,不屬于初級對齊結果的,其對齊概率為0;
將源語言語塊內的所有單詞對的對齊概率相加作為該源語言語塊相對于目標語言語塊的語塊對齊概率,選擇概率最大的為該源語言語塊對齊的目標語言語塊。
4.根據權利要求1所述的機器翻譯結果的詞對齊方法,其特征在于,步驟S3中,所述正向對齊包括以下步驟:
S31、獲得源語言訓練語料中的每個詞相對于目標語言訓練語料中的每個詞的翻譯概率,以及位置對齊因子;
S32、基于所述翻譯概率和所述位置對齊因子,計算分詞后所述源語言語句中的每個詞相對于分詞后所述目標語言語句中的每個詞的位置對齊概率;以及
S33、取所述源語言語句中的每個詞相對于分詞后所述目標語言語句中的每個詞的位置對齊概率的最大值對應的的所述源語言語句的詞與所述目標語言語句的詞的對應結果作為正向對齊結果。
5.根據權利要求4所述的機器翻譯結果的詞對齊方法,其特征在于,還包括:
S34、判斷每個所述最大值是否超過預定閾值,如果存在低于所述預定閾值的最大值,則對低于所述預定閾值的最大值對應的所述源語言語句中的詞進行反向對齊。
6.根據權利要求5所述的機器翻譯結果的詞對齊方法,其特征在于,所述反向對齊包括:
獲得目標語言訓練語料中的每個詞相對于源語言訓練語料中的每個詞的翻譯概率,同時增大所述正向對齊中的位置對齊因子;基于所述翻譯概率和增大后的位置對齊因子,計算分詞后所述目標語言語句中的每個詞相對于分詞后所述源語言語句中的每個詞的位置對齊概率;取所述目標語言語句中的每個詞相對于分詞后所述源語言語句中的每個詞的位置對齊概率的最大值對應的所述目標語言語句的詞與所述源語言語句的詞的對應結果作為反向對齊結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011305025.4/1.html,轉載請聲明來源鉆瓜專利網。





