[發明專利]構建樹結構及基于樹結構的機器翻譯系統的方法有效
| 申請號: | 201210068782.3 | 申請日: | 2012-03-15 |
| 公開(公告)號: | CN102662932A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 宗成慶;翟飛飛 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 結構 基于 機器翻譯 系統 方法 | ||
1.一種利用雙語語料構建樹結構的方法,所述樹結構用于構建機器翻譯系統,其特征在于,所述方法包括如下步驟:
對所述雙語語料中的雙語句子對進行分詞、詞性標注和詞對齊;
根據所述詞對齊的結果,對所述雙語句子對進行雙語切分,生成比雙語句子對長度更短的雙語子句對,并對生成的所述雙語子句對重新進行詞對齊;
根據所述雙語子句對詞對齊的結果,進行子句合并以獲得所述雙語句子對的詞對齊,并為所述雙語句子對構造壓縮森林;
從所述壓縮森林中選擇適合于機器翻譯的樹結構。
2.如權利要求1所述的利用雙語語料構建樹結構的方法,其特征在于,當所述語言對不包含漢語時,則不進行分詞。
3.如權利要求2所述的利用雙語語料構建樹結構的方法,其特征在于,對所述雙語句子對進行雙語切分的方法為:
根據所述詞對齊的結果,配對子句必須滿足如下規則:
A、每個子句的長度大于一個長度閾值;
B、雙語對齊的子句的長度比小于一個長度比閾值;
C、每個子句中,最少有第一百分比的詞匯能夠對齊到與它配對的子句中;
D、從每個子句發出的對齊線中,最多有第二百分比的對齊線(align?link)無法對應到與它配對的子句中;
E、只在用于斷句的標點符號處尋找雙語句子對的切分點。
4.如權利要求2所述的利用雙語語料構建樹結構的方法,其特征在于,利用所述雙語句子對構造壓縮森林的步驟包括:
構造壓縮森林的節點標簽;
削減與目標語言句子所對應的樹結構空間;
利用所述節點標簽構造方法和樹結構空間的削減方法構造壓縮森林。
5.如權利要求4所述的利用雙語語料構建樹結構的方法,其特征在于,構造壓縮森林的節點標簽的步驟包括:
把森林中的非葉子節點按照所控制的詞匯的個數進行分類:
I、單詞節點,控制句子中的一個詞,節點標簽即為這個詞的詞性標注;
II、雙詞節點,控制句子中的兩個詞,節點標簽是這兩個詞的詞性標注的組合;
III、多詞節點,控制句子中的多個詞,節點標簽定義為開頭和結尾兩個詞的詞性標注的組合。
6.如權利要求4所述的利用雙語語料構建樹結構的方法,其特征在于,所述削減與目標語言句子所對應的樹結構的搜索空間的步驟包括:
只保留邊界節點數目最多的樹結構。
7.如權利要求4所述的利用雙語語料構建樹結構的方法,其特征在于,在利用所述節點標簽構造方法和樹結構空間的削減方法構造壓縮森林的步驟中,使用二叉結構構造壓縮森林。
8.如權利要求2所述的利用雙語語料構建樹結構的方法,其特征在于,從所述壓縮森林中選擇適合于機器翻譯的樹結構的步驟包括:
利用期望最大化算法并獲取能夠更好的解釋所述雙語語料的樹結構。
9.如權利要求8所述的利用雙語語料構建樹結構的方法,其特征在于,在期望最大化算法中,概率估計是通過內外向算法進行的。
10.一種構建基于樹結構的機器翻譯系統的方法,其特征在于,采用如權利要求1至9中任一項所述的構建樹結構的方法來構建該機器翻譯系統的樹結構,并基于該樹結構構建基于樹結構的機器翻譯系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210068782.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種汽車倒車輔助系統
- 下一篇:用于運行混合動力的驅動系統的方法和裝置





