[發明專利]一種基于特征性句干提取的機器翻譯方法及裝置有效
| 申請號: | 201810544842.1 | 申請日: | 2018-05-31 |
| 公開(公告)號: | CN108763229B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 李晶潔;胡文杰 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58 |
| 代理公司: | 上海統攝知識產權代理事務所(普通合伙) 31303 | 代理人: | 金利琴 |
| 地址: | 201620 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 性句干 提取 機器翻譯 方法 裝置 | ||
1.一種基于特征性句干提取的機器翻譯方法,其特征是:首先輸入待翻譯的語言A文本,再逐句提取語言A文本的句干,然后在特征性句干數據庫中查找句干譯文,同時翻譯句干外的詞語,最后將句干外的詞語的譯文按照目標語言B的語序組合到句干譯文中得到譯文;
所述特征性句干數據庫的建立步驟如下:
(1)在語言A語料庫中獲取多詞序列;
(2)在多詞序列中識別結構滿足句干要求的序列;
(3)基于內部粘著力、外部邊界獨立性及篇章分布域在結構滿足句干要求的序列中確定特征性句干;
(4)基于MIN-MAX歸一化算法和局部最大值消重法對特征性句干進行篩選;
所述基于MIN-MAX歸一化算法和局部最大值消重法對特征性句干進行篩選具體為:
基于MIN-MAX歸一化算法對內部粘著力MI(W)和最終邊界熵H(W)歸一化處理,得到消重參數,再根據局部最大值消重法在提取的特征性句干中進行篩選;
所述MIN-MAX歸一化算法的公式如下;
其中,MIj’為歸一化后的內部粘著力MI(W),MImax、MImin分別為內部粘著力MI(W)的最大值、最小值,MIj為特征性句干j的內部粘著力MI(W),Hj’為歸一化后的最終邊界熵H(W),Hmax、Hmin分別為最終邊界熵H(W)的最大值、最小值,Hj為特征性句干j的最終邊界熵H(W),將MIj’與Hj’相乘即得消重參數GI;
所述局部最大值消重法的公式如下:
式中,GI(Sn)代表某個包含n個單詞的特征性句干的消重參數,GI(Sn+1)代表某個包含n+1個單詞的特征性句干的消重參數,GI(Sn-1)代表某個包含n-1個單詞的特征性句干的消重參數,Sn代表某個包含n個單詞的特征性句干;
(5)將篩選所得的特征性句干譯為目標語言B,記錄各特征性句干與其譯文即得特征性句干數據庫。
2.根據權利要求1所述的一種基于特征性句干提取的機器翻譯方法,其特征在于,所述獲取多詞序列具體為:首先獲取未賦碼學術語言A文本語料庫,利用賦碼軟件對文本進行詞性賦碼;然后對賦碼后的文本進行線性切分,得到若干序列,生成2~7詞的多詞序列集合,接著對切分好的線性序列進行預加工處理得到多詞序列;所述預加工處理包括刪除亂碼、刪除序列內部標點及統計每個序列的頻數。
3.根據權利要求2所述的一種基于特征性句干提取的機器翻譯方法,其特征在于,所述語言A和目標語言B選自英文、中文、法文、德文、意大利文和日文中的兩種;
所述語言A為英文時,所述詞性賦碼利用賦碼軟件的C7賦碼集或TreeTagger;所述語言A為中文時,賦碼軟件為ICTCLAS;所述語言A為法文、德文或意大利文時,賦碼軟件為TreeTagger;所述語言A為日文時,賦碼軟件為Mecab。
4.根據權利要求1所述的一種基于特征性句干提取的機器翻譯方法,其特征在于,所述識別結構滿足句干要求的序列具體為:先在多詞序列中搜尋具有主謂結構的句干序列;后針對謂語省略的情況進行單獨處理,所述具有主謂結構的句干序列包括有主語類型和無主語類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810544842.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自然語言輔助處理系統
- 下一篇:利用外部信息的神經機器翻譯方法





