[發(fā)明專利]基于實例短語的機(jī)器翻譯方法無效
| 申請?zhí)枺?/td> | 200910002334.1 | 申請日: | 2009-01-07 |
| 公開(公告)號: | CN101770458A | 公開(公告)日: | 2010-07-07 |
| 發(fā)明(設(shè)計)人: | 何亮;萬磊;王進(jìn) | 申請(專利權(quán))人: | 三星電子(中國)研發(fā)中心;三星電子株式會社 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京銘碩知識產(chǎn)權(quán)代理有限公司 11286 | 代理人: | 韓明星;邱玲 |
| 地址: | 210008 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 實例 短語 機(jī)器翻譯 方法 | ||
1.一種基于實例短語的機(jī)器翻譯方法,所述方法包括:
根據(jù)從雙語對齊文本中獲得的詞對齊信息進(jìn)行短語抽取,并獲得短語對齊表;
根據(jù)短語對齊表,基于預(yù)定原則將源語言句子切分為若干短語;
對經(jīng)過切分后的短語進(jìn)行基于短語的統(tǒng)計機(jī)器翻譯。
2.如權(quán)利要求1所述的方法,其特征在于所述方法還包括:
利用雙語詞典和目標(biāo)語言的語言模型對未知詞進(jìn)行翻譯。
3.如權(quán)利要求1或2所述的方法,其特征在于對源語言句子進(jìn)行切分的步驟所基于的原則是:使得切分后的短語覆蓋率最高,其中,覆蓋率是指源語言句子中短語被覆蓋的總字?jǐn)?shù)除以源語言句子的總字?jǐn)?shù),覆蓋是指切分出的短語存在于短語對齊表中。
4.如權(quán)利要求3所述的方法,其特征在于在對源語言句子進(jìn)行切分的步驟中使得切分后的短語覆蓋率最高的前提下,使源語言句子的短語數(shù)最少。
5.如權(quán)利要求4所述的方法,其特征在于在使切分后的短語覆蓋率最高并使源語言句子的短語數(shù)最少的前提下,使切分出的短語最長。
6.如權(quán)利要求1或2所述的方法,其特征在于根據(jù)圖論中的求兩定點之間的最短路徑來將源語言句子切分為若干短語。
7.如權(quán)利要求6所述的方法,其特征在于通過根據(jù)圖論中的求兩定點之間的最短路徑來切分源語言句子的步驟包括:定義源語言句子中每兩個字之間為一個頂點,在句子的第一個字之前以及句子的最后一個字之后各設(shè)置一個頂點;連接圖中兩個頂點的邊的權(quán)重被設(shè)置為相同的值;利用A*算法或者Dijkstra算法求解首尾兩個頂點之間最短路徑。
8.如權(quán)利要求2所述的方法,其特征在于對未知詞進(jìn)行翻譯的步驟包括:
從雙語詞典中檢索源語言句子中的每個未知詞的可能翻譯;
在對經(jīng)過切分后的短語進(jìn)行基于短語的統(tǒng)計機(jī)器翻譯之后獲得的結(jié)果中,用未知詞的每個可能翻譯替換未知詞;
利用目標(biāo)語言的語言模型來計算替換后的句子的概率值;
選擇概率值最高的替換作為最終的翻譯結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于三星電子(中國)研發(fā)中心;三星電子株式會社,未經(jīng)三星電子(中國)研發(fā)中心;三星電子株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910002334.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種減少手機(jī)無效撥號的方法及裝置
- 下一篇:模具





