[發明專利]一種雙語平行語料的句對齊方法有效
| 申請號: | 201710433746.5 | 申請日: | 2017-06-09 |
| 公開(公告)號: | CN107391495B | 公開(公告)日: | 2020-08-21 |
| 發明(設計)人: | 劉強;彭蓉 | 申請(專利權)人: | 北京同文世紀科技有限公司 |
| 主分類號: | G06F40/51 | 分類號: | G06F40/51;G06F40/58 |
| 代理公司: | 北京華夏正合知識產權代理事務所(普通合伙) 11017 | 代理人: | 韓登營;曲芳兵 |
| 地址: | 100086 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 雙語 平行 語料 對齊 方法 | ||
本發明提供了一種雙語平行語料的句對齊方法,包括:A、獲取包含有源語言與目標語言的單詞互譯對及單詞互譯概率的雙語概率分布詞典;B、根據待對齊文本的源語言與目標語言的句子數量,構建動態規劃矩陣;根據所述動態規劃矩陣、所述雙語概率分布詞典確定基于句長信息、單詞信息、單詞互譯概率的不同對齊模式下的評價分數;C、根據所述評價分數,確定評價分數大于指定閾值的對齊模式下的對齊路徑;D、根據所述對齊路徑確定待對齊文本的源語言和目標語言句子的對齊路徑序列。由上,本申請提供的一種雙語平行語料的句對齊方法,有利于提高雙語平行語料自動句對齊的精度。
技術領域
本發明涉及語言翻譯處理技術領域,特別涉及一種雙語平行語料的句對齊方法。
背景技術
句子對齊,即確定源語言文本中哪個(些)句子和目標語言文本中哪個(些)句子互為譯文。即找到雙語文本中句子之間的映射關系,句子對齊的難點在于雙語文本中句子之間的映射存在多到多的映射,容易產生錯配。
目前,現有技術中的句子對齊方法有基于句子長度的方法、基于詞語對齊或字符串對齊的方法、基于偏移位置對齊的方法等。這些方法依賴兩種語言之間的句子長度,句子位置,或句子長度比率信息。但是,上述技術中的句子對齊方式由于涉及的對齊參數較為單一,因此對齊效果欠佳。
因此,亟需一種雙語平行語料句對齊方法,以提高雙語平行語料的句對齊的效果。
發明內容
有鑒于此,本申請提供一種雙語平行語料的句對齊方法,以提高雙語平行語料的句對齊的精度。
本申請提供的一種雙語平行語料的句對齊方法,包括步驟:
A、獲取包含有源語言與目標語言的單詞互譯對及單詞互譯概率的雙語概率分布詞典;
B、根據待對齊文本的源語言與目標語言的句子數量,構建動態規劃矩陣;
根據所述動態規劃矩陣、所述雙語概率分布詞典確定基于句長信息、單詞信息、單詞互譯概率的不同對齊模式下的評價分數;
C、根據所述評價分數,確定評價分數大于指定閾值的對齊模式下的對齊路徑;
D、根據所述對齊路徑確定待對齊文本的源語言和目標語言句子的對齊路徑序列。
由上,本申請通過構建雙語概率分布詞典,進一步根據待對齊的源語言與目標語言的句長、單詞數、句子總數比率及所述雙語概率分布詞典,通過構建動態規劃矩陣,獲取基于句長信息、單詞信息、單詞互譯概率的不同對齊模式下的評價分數;并進一步根據評價分數,獲取對齊路徑;最終,根據所述對齊路徑獲取源語言和目標語言句子的對齊路徑序列。本申請涉及多種對齊參數與現有技術相比本申請具有更佳的對齊效果。其中,句長信息包括:源語言和目標語言句子所包含的字符數(此處的字符可以是單詞、詞語或者字符);所述單詞信息包括:源語言和目標語言句子中單詞集合(去掉重復單詞后的單詞的集合)分布、句子集單詞數(去掉重復單詞后的單詞的數量)、源語言句子集總單詞數、當前源語言單詞在其句子單詞集合中的出現的頻率值。其中,關于此處的句子集是指如果對齊模式為源語言2句對齊目標語言3句,則源語言句子集為2句,目標語言句子集為3句。
優選地,所述步驟A還包括:
將所述雙語概率分布詞典中的源語言與目標語言的單詞轉換成數字編號形式存儲;
將待對齊文本的源語言及目標語言的句子根據句子順序編號,分詞后的單詞根據所述雙語概率分布詞典中的編號進行單詞編號。
由上,將句子及單詞編號,有利于后續的計算及句子對齊的方便性。
優選地,所述步驟B包括:
B1、根據待對齊文本源語言與目標語言的句子數量,構建動態規劃矩陣MAlign,其中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京同文世紀科技有限公司,未經北京同文世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710433746.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:翻譯輔助系統
- 下一篇:時間間隔的數據查詢方法、裝置及索引構建方法、裝置





