[發明專利]獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統有效
| 申請號: | 201110307878.6 | 申請日: | 2011-10-12 |
| 公開(公告)號: | CN103049436A | 公開(公告)日: | 2013-04-17 |
| 發明(設計)人: | 馬艷軍;吳華;王海峰 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 獲取 語料 方法 裝置 生成 翻譯 模型 系統 機器翻譯 | ||
【技術領域】
本發明涉及機器翻譯領域,特別涉及一種獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統。?
【背景技術】
在機器翻譯中,使用的翻譯模型對翻譯質量有很大的影響,現有的機器翻譯方法中,不對待翻譯文本的類型進行區分,而采用相同的翻譯模型對各種類型的文本進行翻譯,這會導致針對不同類型的文本,翻譯結果的質量出現較大差異的現象。?
例如英語中的“bank”一詞,在經濟、金融領域的上下文中,應該翻譯成“銀行”,而在地理領域的上下文中,則應該翻譯為“河岸”。如果對這些情況不做區分,而采用同一種翻譯模型進行翻譯,就會降低翻譯的質量。?
【發明內容】
本發明所要解決的技術問題是提供一種獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統,以解決現有技術在對不同領域的文本進行翻譯時,翻譯精度不夠高的缺陷。?
本發明為解決技術問題而采用的技術方案是提供一種獲取語料的方法,包括:將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料;從各個歸并語料中選擇長度超過設定閾值的歸并語料組成長語料;采用聚類的方法,將相同領域的長語料聚為一類;利用聚類得到的各領域的長語料訓練分類模型;使用訓練后的分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域?的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。?
根據本發明之一優選實施例,所述聚類的方法為潛在概率語義分析方法。?
根據本發明之一優選實施例,對所述長語料進行聚類時采用的聚類特征包括:對所述長語料進行分詞后,各個詞語在所述長語料中出現的次數及各互譯詞對在所述長語料中出現的次數。?
根據本發明之一優選實施例,所述分類模型包括貝葉斯模型、支持向量機模型、K近鄰分類模型或最大熵模型。?
本發明還提供了一種生成翻譯模型的方法,包括:采用上述獲取語料的方法獲取各領域的訓練語料;使用各領域的訓練語料對翻譯模型進行訓練得到各領域翻譯模型。?
根據本發明之一優選實施例,所述方法進一步包括:將各領域的訓練語料合并后對翻譯模型進行訓練得到通用翻譯模型。?
本發明還提供了一種機器翻譯方法,包括:A.使用第一分類模型對待翻譯文本進行分類,以確定所述待翻譯文本所屬領域,其中所述第一分類模型由各領域的訓練語料訓練得到;B.利用與所述待翻譯文本所屬領域對應的領域翻譯模型對所述待翻譯文本進行翻譯,其中所述領域翻譯模型由對應領域的訓練語料訓練得到。?
根據本發明之一優選實施例,所述第一分類模型包括:貝葉斯模型、支持向量機模型、K近鄰分類模型或最大熵模型。?
根據本發明之一優選實施例,所述步驟A進一步包括確定所述待翻譯文本歸屬于所述待翻譯文本所屬領域的概率并判斷該概率是否高于設定的第一閾值,如果是,則所述步驟B中,將與所述待翻譯文本所屬領域對應的領域翻譯模型與通用翻譯模型融合后對所述待翻譯文本進行翻譯,其中所述通用翻譯模型由各領域的訓練語料合并后訓練得到。?
根據本發明之一優選實施例,各領域的訓練語料是采用下列方式得到的:將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為?多個歸并語料;從各個歸并語料中選擇長度超過設定的第二閾值的歸并語料組成長語料;采用聚類的方法,將相同領域的長語料聚為一類;利用聚類得到的各領域的長語料訓練第二分類模型;使用訓練后的第二分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。?
根據本發明之一優選實施例,所述聚類的方法為潛在概率語義分析方法。?
根據本發明之一優選實施例,對所述長語料進行聚類時采用的聚類特征包括:對所述長語料進行分詞后,各個詞語在所述長語料中出現的次數及各互譯詞對在所述長語料中出現的次數。?
根據本發明之一優選實施例,所述第二分類模型包括:貝葉斯模型、支持向量機模型、K近鄰分類模型或最大熵模型。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110307878.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于微型驅動電機的殼體組件
- 下一篇:盒體上升調節裝置





