[發明專利]一種機器翻譯的方法及其設備有效
| 申請號: | 201410192917.6 | 申請日: | 2014-05-08 |
| 公開(公告)號: | CN105095193B | 公開(公告)日: | 2018-02-16 |
| 發明(設計)人: | 馬林;騰志揚;熊皓 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 深圳中一專利商標事務所44237 | 代理人: | 張全文 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器翻譯 方法 及其 設備 | ||
技術領域
本發明涉及機器翻譯領域,尤其涉及到一種機器翻譯的方法及設備。
背景技術
隨著經濟全球化的發展,不同國家之間的信息交流和交換變得越來越頻繁。同時,蓬勃發展的互聯網為獲取諸如英語、漢語、法語、德語、日語等各種語言形式的信息提供了極大的便利。公眾對于不同語言之間的翻譯需求也變得日益強烈。人工翻譯耗時較長,成本較高,已經滿足不了人們對多語言信息日益增長的需求。機器翻譯能夠將一種自然語言自動地翻譯為另一種自然語言。利用機器翻譯快速獲取多語言的信息和資源已成為必然趨勢。這使得能提供多語言、高質量、易獲取的翻譯服務的機器翻譯系統和設備也變得越來越重要。近年來在一些國際組織機構(如歐洲聯盟)、新聞媒體、全球性的網絡平臺、跨國貿易與旅游等政治、網絡、文化、教育以及商務環境中,機器翻譯已逐漸成為了一種獲取信息和傳播信息的重要基礎手段。
統計機器翻譯是目前主流的機器翻譯技術。它能夠根據數學模型和算法自動地從平行語料庫中學習到翻譯知識。統計機器翻譯并不需要相關的語言學家參與,并且與具體的語言相對獨立。另外,統計機器翻譯系統開發部署周期較短,翻譯速度較快,翻譯質量較為魯棒。
統計機器翻譯模型學習到的翻譯知識通常用規則表表示。規則表的質量對翻譯質量起到了關鍵性的作用。根據規則的不同,統計機器翻譯模型通常可以分為短語模型、句法模型、語義模型等。在實際應用中,短語模型和層次短語模型較為成熟,被廣泛使用。一個可實用的統計機器翻譯模型通常需要在千萬級別的雙語句對語料上訓練。這使得經由自動學習算法得到的規則表十分龐大。一方面,龐大的規則表會占用較多的資源,如存儲時需要較大硬盤空間,加載時需要較多的內存;另一方面過大的規則表也會增加翻譯解碼過程搜索空間,降低翻譯速度。
現有技術采用基于強制解碼的方法對規則表進行過濾。強制解碼技術指的是將訓練語料中一個句對的源語言端f作為輸入提供給解碼器,用對應的目標語言端e硬性約束翻譯解碼過程的推導d,其中要求d(f)=e。d(f)表示f的一個翻譯推導d對應的目標語言輸出,滿足這樣條件的推導d,我們稱為標準推導。強制解碼采用期望最大化算法在壓縮標準推導森林(standard derivative forest compression)中估計每個規則的概率,根據設置的閾值過濾掉概率較低的規則,從而減少搜索空間。
從上可知,由于規則表中規則數量龐大,強制解碼采用期望最大化算法在壓縮標準推導森林中估計每個規則的概率會使得計算代價較大,并且降低用戶體驗。
發明內容
本發明實施例提供了一種機器翻譯的方法及設備,旨在解決如何過濾規則使得使用過濾后的規則可以提高機器翻譯的質量。
第一方面,一種機器翻譯的方法,所述方法包括:
確定待翻譯數據中的每個語句;
根據統計的機器翻譯的方法和所述語句獲取規則表Ta,所述規則表Ta包括各個翻譯規則和所述翻譯規則的頻度信息;
根據所述規則表Ta包括的所述翻譯規則和所述翻譯規則的頻度信息對所述語句進行強制解碼;
將強制解碼所述語句時使用到的翻譯規則組合為第一標準推導集;所述第一標準推導集至少包括所述第一翻譯規則的頻度信息,所述頻度信息為強制解碼所述語句時使用所述第一翻譯規則的次數;
根據所述第一翻譯規則的頻度信息對所述第一標準推導集進行過濾,獲得第二標準推導集;
根據所述第二標準推導集和所述待翻譯數據獲取翻譯結果。
結合第一方面,在第一方面的第一種可能的實現方式中,所述第二標準推導集包括第二翻譯規則,所述獲得第二標準推導集之后,還包括:
確定所述第二翻譯規則對應的概率數值;
根據所述第二翻譯規則對應的概率數值對所述第二翻譯規則進行壓縮,獲取第三翻譯規則;
所述根據所述第二標準推導集和所述待翻譯數據獲取翻譯結果包括:
根據所述第三翻譯規則和所述語句獲得翻譯結果。
結合第一方面的第一種可能的實現方式,在第一方面的第二種可能的實現方式中,所述第二翻譯規則對應的概率數值包括正向短語翻譯概率、反向短語翻譯概率、正向詞匯翻譯概率和反向詞匯翻譯概率;
所述根據所述第二翻譯規則對應的概率數值對所述第二翻譯規則進行壓縮,獲取第三翻譯規則包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410192917.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:隔膜式取樣閥
- 下一篇:一種搜索意圖識別方法及裝置





