[發明專利]基于句法骨架的統計機器翻譯系統有效
| 申請號: | 201610053560.2 | 申請日: | 2016-01-26 |
| 公開(公告)號: | CN105573994B | 公開(公告)日: | 2019-03-22 |
| 發明(設計)人: | 肖桐;朱靖波;張春良;高瑜澤 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 沈陽優普達知識產權代理事務所(特殊普通合伙) 21234 | 代理人: | 張志偉 |
| 地址: | 110003 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 句法 骨架 統計 機器翻譯 系統 | ||
1.一種基于句法骨架的統計機器翻譯方法,其特征在于包括以下步驟:
1)概率SCFG層次規則抽取方法抽取非句法翻譯規則,用于待翻譯句子非骨架部分的翻譯:
利用抽取層次規則的啟發式限制的方法,在經過詞對齊但未進行句法分析的平行句對上抽取概率SCFG文法規則,利用層次短語規則即非句法翻譯規則處理待翻譯句子低層次結構的翻譯;
2)GHKM規則方法抽取句法翻譯規則,用于待翻譯句子的骨架部分的翻譯:
利用GHKM規則抽取方法在經過詞對齊的平行句對和源語言端的句法分析結果上抽取GHKM規則,利用上述抽取的GHKM規則改寫成句法翻譯規則;利用句法翻譯規則處理高層次骨架結構的生成及翻譯;
3)非完全句法翻譯規則生成:
利用非句法翻譯規則和句法翻譯規則生成非完全句法翻譯規則,結合非句法翻譯規則和句法翻譯規則,實現非句法翻譯系統和句法翻譯系統兩種翻譯系統優點的整合;
4)模型生成:
根據上述的非完全句法翻譯規則,依據不同的翻譯任務對句法翻譯系統和非句法翻譯系統的文法也就是翻譯規則集合進行整合,生成非完全句法翻譯推導,利用非句法翻譯規則處理待翻譯句子低層次的詞組或短語的翻譯,利用句法翻譯規則完成待翻譯句子的高層次句法骨架結構的翻譯任務;利用非完全句法翻譯規則指導骨架生成過程和翻譯過程;收集非句法翻譯規則、句法翻譯規則以及非完全句法翻譯規則生成一個具有大覆蓋度的SCFG文法系統,并通過非完全句法翻譯規則完成不同形式文法的結合;
步驟3)中,利用非句法翻譯規則和句法翻譯規則生成非完全句法翻譯規則,非完全句法翻譯規則形式表述為:
源語短語句法標記→<源語串*,目標語串*>
其中,左部的源語短語句法標記為一個非終結符,源語串為源語終結符詞語、非終結符以及泛化標記X構成的串,目標語串*為目標語終結符詞語、非終結符以及泛化標記X構成的串,非終結符標記與源語句法子樹片段葉子節點的非終結符一一對應;
非完全句法翻譯規則與句法翻譯規則的區別在于:非完全句法翻譯規則并不要求規則中所有的非終結符必須屬于源語句法分析中某一類短語句法標記,而其中的部分非終結符被歸約為X,表示該非終結符并不屬于任何句法分析類型。
2.按權利要求1所述的基于句法骨架的統計機器翻譯方法,其特征在于:利用上述抽取的GHKM規則改寫成句法翻譯規則為:抽取的GHKM規則形式如下:
源語短語句法標記<以上述句法標記為根節點的源語句法子樹片段>→目標語串
其中規則左部的源語短語句法標記為通過語言學句法知識所定義短語結構類型標簽,即句法非終結符;規則左部的句法子樹片段為句子句法分析樹的片段,是樹結構,其葉子節點可以為終結符詞語或者非終結符,而這些非終結符必須屬于源語句法分析中某一類句法標記;規則右部的目標語串為目標語終結符詞語和非終結符構成的串,其非終結符標記與源語句法子樹片段葉子節點的非終結符一一對應;
通過保持句法子樹片段邊界的非終結符及舍棄內部的樹結構可以將上述GHKM規則改寫為句法翻譯規則
源語短語句法標記→<源語串,目標語串>
其中源語串表示源語終結符詞語、非終結符和對應的句法標記構成的序列,該序列為句法規則所對應GHKM規則中源語句法子樹片段的葉子節點序列;目標語串為由目標語終結符詞語、非終結符和對應的句法標記構成的串,其非終結符標記與源語句法子樹片段葉子節點的非終結符一一對應。
3.按權利要求1所述的基于句法骨架的統計機器翻譯方法,其特征在于:實現非句法翻譯系統以及句法翻譯系統兩種翻譯系統優點的整合為:
通過源語端的句法翻譯規則、非句法翻譯規則和非完全句法翻譯規則生成的大覆蓋度SCFG文法在解碼過程中創建句法骨架;
在上述句法骨架結構的生成過程中,捕獲對源語言中句法結構中成分間的調序,將待翻譯句子高層次的翻譯任務分配給句法翻譯系統來處理;并且把待翻譯句子低層次的翻譯任務分配給非句法翻譯系統來完成;實現不同翻譯系統的優點貢獻到各自擅長的翻譯任務中。
4.按權利要求1所述的基于句法骨架的統計機器翻譯方法,其特征在于:依據不同的翻譯任務對非句法翻譯系統和句法翻譯系統的文法進行整合為:在SCFG系統中,對每一個翻譯規則推導進行權重計算,以便更準確的利用各種翻譯規則推導,利用下式來計算每個翻譯規則推導d的得分:
其中,s(d)為翻譯規則推導d的得分,t為目標語端的字符串,d的得分則定義為多個因子的乘積,包括:
因子1:d中句法骨架所包含的所有規則的權重乘積其中ri是ds中的第i條規則,w(r*)是規則r*的權重;
因子2:d中非骨架部分所包含的所有規則權重的乘積其中rj為dh中的第j條規則,w(r*)是規則r*的權重;
因子3:n元語言模型lm(t)的指數加權得分λlm表示n元語言模型的權重;
因子4:詞匯獎勵exp(λwb·|t|),其中exp(|t|)表示譯文長度的e指數計算結果,當句子越長,這種獎勵就越大,λwb是詞匯獎勵的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610053560.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種興趣識別方法、設備以及數據分析方法
- 下一篇:軟件多國語言翻譯方法及系統





