[發明專利]一種雙語最大名詞組塊分離-融合的翻譯方法有效
| 申請號: | 201310593728.5 | 申請日: | 2013-11-21 |
| 公開(公告)號: | CN103942192A | 公開(公告)日: | 2014-07-23 |
| 發明(設計)人: | 黃河燕;史樹敏;李業剛 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 雙語 最大 詞組 分離 融合 翻譯 方法 | ||
1.一種雙語最大名詞組塊分離-融合的翻譯方法,其特征在于包括以下步驟:?
步驟一、對待翻譯的句子進行BMNC識別,并將所有BMNC抽取出來組成BMNC集合;同時,在原來的句子中用BMNC的中心詞的詞性來代替BMNC整體,形成句子骨架;具體過程如下:?
首先,定義一個面向機器翻譯的實際需要的雙語最大名詞組塊BMNC概念,它不僅是一個完整的句法單元和語義單元,在句子中有穩定的外部修飾結構,還具備雙語可互譯性和雙語識別的一致性;在單語中,它可能被其它名詞短語包含,但是它不能被可互譯的其它名詞短語包含;?
從句法樹庫中隨機抽取2000句,提取BMNC并標注其中心詞,作為訓練語料;通過機器學習的方法,訓練BMNC及其中心詞的識別模型;?
然后,利用識別模型,對待翻譯的句子進行BMNC及其中心詞識別標注,提取句子中所有BMNC并組成BMNC集合——BMNCs,同時,將句子中的BMNC用其中心詞詞性代替形成句子骨架;?
步驟二、建立BMNC和句子骨架的翻譯模型,翻譯經步驟一得到的BMNCs和句子骨架;?
為翻譯步驟一中得到的BMNCs和句子骨架,首先訓練BMNC和句子骨架的翻譯模型,其流程具體如下:?
在句子級別對齊的語料中抽取對齊的BMNC,建立BMNC平行語料庫;首先,分別對漢英句子進行BMNC粗識別,然后對BMNC進行識別對齊修正,最后通過一個貪心搜索,得到句對最優的BMNC對集合;?
平行語料中提取到的所有BMNC對構成了BMNC平行語料;把每個句子中的BMNC用對應的中心詞的詞性代替,組成句子骨架平行語料,由此將句子級對齊的平行語料分解為BMNC平行語料和句子骨架平行語料,并在這兩個語料上分別訓練BMNC翻譯模型和句子骨架翻譯模型;?
利用上述BMNC翻譯模型,對步驟一得到的BMNCs進行翻譯,得到英語BMNCs的n-best輸出;利用句子骨架翻譯模型翻譯待翻譯句子的句子骨架,得到句子骨架的英語n-best輸出;所述n-best是指最優的前n個結果;?
步驟三、融合英語的BMNCs和句子骨架,形成翻譯結果;?
把經步驟二得到的英語端BMNCs的n-best輸出和英語端句子骨架的n-best輸出進行交叉組合,產生待翻譯句子的一系列翻譯候選;利用線性加權模型,?融合n-gram特征和句子長度懲罰特征為每個翻譯候選打分,把翻譯任務轉換為一個排序任務,選取得分最高的翻譯假設作為最優句子翻譯結果;所述n-gram是指n元語法模型。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310593728.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息處理方法及主題信息庫制作系統
- 下一篇:一種紙制包裝箱





