[發明專利]一種面向形態豐富語言的翻譯方法和系統無效
| 申請號: | 201210152487.6 | 申請日: | 2012-05-16 |
| 公開(公告)號: | CN102681985A | 公開(公告)日: | 2012-09-19 |
| 發明(設計)人: | 王志洋;呂雅娟;劉群 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 梁揮;祁建國 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 形態 豐富 語言 翻譯 方法 系統 | ||
1.一種面向形態豐富語言的翻譯方法,其特征在于,包括:
步驟1,對形態豐富語言進行形態分析,獲得詞干和詞綴信息;
步驟2,在抽取翻譯規則時,以詞干作為原子翻譯單元,并保留相應的詞綴分布信息;
步驟3,在翻譯時,對于待翻譯的片段,獲取其詞干、詞綴分布;詞干序列用來查詢規則表,詞綴分布信息和規則候選的詞綴分布計算相似度,表征兩者的相似程度,指導解碼,所述詞干序列是由多個詞干組成的序列。
2.根據權利要求1所述的面向形態豐富語言的翻譯方法,其特征在于,所述步驟1還包括:
步驟21,通過形態分析獲得所述詞干、詞綴信息;
3.根據權利要求1所述的面向形態豐富語言的翻譯方法,其特征在于,所述步驟2還包括:
所述翻譯規則包括四部分:規則源端、規則目標端、詞綴分布信息,以及相應的翻譯概率特征。
4.根據權利要求1、3任一所述的面向形態豐富語言的翻譯方法,其特征在于,所述步驟2詞綴分布信息還包括:
步驟41,在抽取詞干原子翻譯單元的翻譯規則時,同時保留詞綴信息;
步驟42,源端相同的翻譯規則構成一個集合,在這個集合上,使用TF-IDF方法來表示規則相關的詞綴權重,所述TF-IDF為詞頻-倒文檔頻率;
步驟43,在同一集合內,對于目標端也相同的翻譯規則,使用基于質心的分類算法來表示詞綴分布結果。
5.根據權利要求1所述的面向形態豐富語言的翻譯方法,其特征在于,所述步驟3還包括:
步驟51,使用詞干作為原子翻譯單元,緩解數據稀疏問題;相應的詞綴分布用來衡量待翻譯片斷與候選翻譯規則的匹配程度,指導選擇更合適的翻譯規則。
6.一種面向形態豐富語言的翻譯系統,其特征在于,包括:
形態分析模塊,用于對形態豐富語言進行形態分析,獲得詞干和詞綴信息;
抽取規則模塊,用于在抽取翻譯規則時,以詞干作為原子翻譯單元,并保留相應的詞綴分布信息;
翻譯模塊,用于在翻譯時,對于待翻譯的片段,獲取其詞干、詞綴分布;詞干序列用來查詢規則表,詞綴分布信息和規則候選的詞綴分布計算相似度,表征兩者的相似程度,指導解碼,所述詞干序列是由多個詞干組成的序列。
7.根據權利要求6所述的面向形態豐富語言的翻譯系統,其特征在于,所述形態分析模塊還包括:
獲得信息模塊,用于通過形態分析獲得所述詞干、詞綴信息;
8.根據權利要求6所述的面向形態豐富語言的翻譯系統,其特征在于,所述抽取規則模塊還包括:
所述翻譯規則包括四部分:規則源端、規則目標端、詞綴分布信息,以及相應的翻譯概率特征。
9.根據權利要求6、8任一所述的面向形態豐富語言的翻譯系統,其特征在于,所述抽取規則模塊還包括:
保留信息模塊,用于在抽取詞干原子翻譯單元的翻譯規則時,同時保留詞綴信息;
構成集合模塊,用于源端相同的翻譯規則構成一個集合,在這個集合上,使用TF-IDF方法來表示規則相關的詞綴權重,所述TF-IDF為詞頻-倒文檔頻率;
表示結果模塊,用于在同一集合內,對于目標端也相同的翻譯規則,使用基于質心的分類算法來表示詞綴分布結果。
10.根據權利要求6所述的面向形態豐富語言的翻譯系統,其特征在于,所述翻譯模塊還包括:
衡量匹配模塊,用于使用詞干作為原子翻譯單元,緩解數據稀疏問題;相應的詞綴分布用來衡量待翻譯片斷與候選翻譯規則的匹配程度,指導選擇更合適的翻譯規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210152487.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:磁功量測距裝置和測距黃馬甲
- 下一篇:相機模塊及其制造方法





