[發明專利]短句切分裝置、機器翻譯系統及對應切分方法和翻譯方法有效
| 申請號: | 201310432908.5 | 申請日: | 2013-09-22 |
| 公開(公告)號: | CN103530284A | 公開(公告)日: | 2014-01-22 |
| 發明(設計)人: | 任智軍;張威;蔣宏飛;熊文;姜濤;張凱 | 申請(專利權)人: | 中國專利信息中心 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 北京瑞恒信達知識產權代理事務所(普通合伙) 11382 | 代理人: | 苗青盛;黃慶芳 |
| 地址: | 100088 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 短句 切分 裝置 機器翻譯 系統 對應 方法 翻譯 | ||
1.一種短句切分的裝置,包括順序相連的短句粗切分單元、短句句對齊單元、最小對齊塊合并單元和短句切分訓練單元;
其中,短句粗切分單元,用于將雙語語料中的每個句子單獨以標點進行切分,形成一對一的雙語短句序列;
其中,短句句對齊單元,用于將從短句粗切分單元獲得的一對一的雙語短句序列進行句對齊,形成具有對齊關系的短句句對齊語料;
其中,最小對齊塊合并單元,用于將短句句對齊單元處理過的短句句對齊語料進行最小對齊塊合并,成為一對一的對齊語料;
其中,短句切分訓練單元,用于利用一對一短句句對齊語料來訓練短句切分模型,使用訓練后的短句切分模型對輸入的整句進行短句切分。
2.根據權利要求1所述的裝置,其中,所述最小對齊塊合并單元處理過的、具有最小對齊塊的對齊語料中,第一語言短句塊和其所對齊的第二語言短句塊都被包含,反之亦然,且兩者都包含最少的短句。
3.根據權利要求2所述的裝置,其中,所述最小對齊塊合并單元在合并過程中只保留有對齊關系的短句;所述最小對齊塊合并單元將相互對齊的雙語短句子序列合并時,在保證滿足對齊關系的情況下兩端短句子序列包含的短句數均最少。
4.根據權利要求2所述的裝置,其中,所述最小對齊塊合并單元還用于將相鄰的短句對齊句對進行組合擴展,以形成粒度更大的句對齊語料。
5.一種機器翻譯系統,包括短句切分模塊、翻譯模塊、譯文合并模塊、模型生成模塊和短句切分模型訓練模塊;
其中,短句切分模塊,用于基于短句切分模型訓練模塊得到的短句切分模型,對待翻譯文本句子進行短句切分,生成短句序列;
其中,模型生成模塊,用于基于短句切分模型訓練模塊得到的雙語平行短句對齊語料來訓練生成翻譯模型;
其中,翻譯模塊,用于利用模型生成模塊生成的翻譯模型對待翻譯文本進行翻譯;
譯文合并模塊,用于將翻譯模塊獲得的對應一個整句的短句序列的譯文進行合并,以形成完整譯文;
其中,短句切分模型訓練模塊,用于訓練短句切分模型,供短句切分模塊使用。
6.根據權利要求5所述的系統,其中,短句切分模型訓練模塊包括順序相連的短句粗切分單元、短句句對齊單元、最小對齊塊合并單元和短句切分訓練單元;
其中,短句粗切分單元,用于將雙語語料中的每個句子單獨以標點進行切分,形成一對一的雙語短句序列;
其中,短句句對齊單元,用于將從短句粗切分單元獲得的一對一的雙語短句序列進行句對齊,形成具有對齊關系的短句句對齊語料;
其中,最小對齊塊合并單元,用于將短句句對齊單元處理過的短句句對齊語料進行最小對齊塊合并,成為一對一的對齊語料;
其中,短句切分訓練單元,用于利用一對一短句句對齊語料來訓練短句切分模型,使用訓練后的短句切分模型對輸入的整句進行短句切分。
7.根據權利要求6所述的系統,其中,所述最小對齊塊合并單元在合并過程中只保留有對齊關系的短句;所述最小對齊塊合并單元將相互對齊的雙語短句子序列合并時,在保證滿足對齊關系的情況下兩端短句子序列包含的短句數均最少。
8.根據權利要求5所述的系統,其中,短句切分模塊還用于將輸入的短句切分結果進行組合擴展,以構成多種待翻譯句子的短句切分結果。
9.根據權利要求6所述的系統,其中,所述翻譯模型由通過最小對齊塊合并單元獲取平行語料的方式所獲取的訓練語料訓練得到。
10.一種短句切分方法,包括:
步驟1,將雙語語料中的每個句子單獨以標點進行切分,形成一對一的雙語短句序列;
步驟2,將從短句粗切分單元獲得的一對一的雙語短句序列進行句對齊,形成具有對齊關系的短句句對齊語料;
步驟3,將短句句對齊單元處理過的短句句對齊語料進行最小對齊塊合并,成為一對一的對齊語料;
步驟4,利用一對一短句句對齊語料來訓練短句切分模型,使用訓練后的短句切分模型對輸入的整句進行短句切分。
11.根據權利要求10所述的方法,其中,在步驟1中,將雙語語料中的每個句子按照以標點為潛在切分點,結合長度限制法和慣用習語排查法進行切分,形成一個短句序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國專利信息中心,未經中國專利信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310432908.5/1.html,轉載請聲明來源鉆瓜專利網。





