[發明專利]基于組合的短語規則抽取方法有效
| 申請號: | 201210464597.6 | 申請日: | 2012-11-16 |
| 公開(公告)號: | CN102999486A | 公開(公告)日: | 2013-03-27 |
| 發明(設計)人: | 朱靖波;李強;肖桐;張浩 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28 |
| 代理公司: | 沈陽優普達知識產權代理事務所(特殊普通合伙) 21234 | 代理人: | 張志偉 |
| 地址: | 110003 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 組合 短語 規則 抽取 方法 | ||
技術領域
本發明涉及一種基于短語的統計機器翻譯系統中的短語處理技術,具體的說是一種基于組合的短語規則抽取方法。
背景技術
基于短語的統計機器翻譯系統在機器翻譯領域的性能表現出非常強的競爭力?;诙陶Z的方法之所以有效很大一部分原因在于該方法依賴一個質量較高的短語規則集。在短語規則集中,每一個源語言短語被映射到一個或多個不同的目標語短語。在短語系統中,短語由一系列連續的單詞構成,短語并沒有語言學意義。目前,一些機器翻譯領域研究人員已經提出一些行之有效的短語規則抽取方法。在這些短語規則抽取方法中,啟發式方法得到了廣泛的應用。該抽取方法通過使用雙語語料中每個句子對應的詞對齊信息,抽取出所有與詞對齊信息保持一致的短語規則。由于該規則抽取方法簡單、易于實現,同時表現出非常優越的性能,所以在目前基于短語的統計機器翻譯系統中得到了廣泛的應用。在使用抽取短語規則的過程中,最終抽取出來的短語規則的數量與訓練數據中單詞的數量成二次方關系。為了得到一個規??煽氐亩陶Z規則集,通常的做法是對抽取的源語言及目標語言短語的長度加以限制。在多數的性能優異的機器翻譯系統中,默認設置將抽取的源語和目標語短語所含單詞個數的上限設置為7到10個詞。例如,Moses將抽取出來的短語的源語言端與目標語言端的長度限制為7個詞。現已經證明將短語規則集中的大部分規則刪除并不會影響翻譯系統的性能。
為了減小短語規則集的大小,目前最普遍使用的方法是對現有的啟發式規則抽取方法,即基準短語規則抽取方法抽取出的短語規則進行過濾,從而減小短語規則集的大小。基準短語規則抽取方法在性能優異的基于短語的統計機器翻譯系統中得到了廣泛使用,如Moses系統,NiuTrans系統。在Koehn等提出的短語規則模型中,短語規則必須滿足一致性定義。所述一致性定義為:
短語對與詞對齊信息保持一致,當且僅當中的所有單詞在詞對齊A中所對應的單詞在范圍之內,中的所有單詞在詞對齊A中所對應的單詞在范圍之內;與此同時,在與中,至少有一個單詞對在詞對齊A中。
其中,表示源語短語,表示目標語短語。該定義的直觀解釋:給定一源語短語及目標語短語,在任意一端的短語中,至少有一個單詞對應到另一端的短語中;同時,任意一端短語中的所有單詞都不可對應到另一端短語之外。通過如上定義,在Koehn等提出的模型下的所有的短語規則都必須滿足一致性的定義??梢愿鶕缟隙x直接從平行語料中抽取與詞對齊信息保持一致的短語規則:首先在每一個句對中,從源語與目標語端循環查找所有短語,然后輸出與詞對齊信息保持一致的短語規則。通過該方法進行短語規則集構造時,在規則抽取的過程中,需要設置抽取短語的所含單詞的最大個數,這樣才可避免得到規模不可控的短語規則集。圖2中右側Baseline列表示用基準短語規則抽取方法從示例的含有詞對齊信息的句對中抽取的短語規則。從抽取出的短語規則可以看出,這些規則均與詞對齊保持一致。
但是,基準短語規則抽取方法有不可避免的問題,即在規則抽取過程中,短語長度需要進行機械的調試以獲取最優的短語規則集。抽取出的短語規則表非常大、占用硬盤空間多、同時含有較多的噪音數據。
發明內容
針對現有技術中啟發式規則抽取方法抽取出的短語規則表非常大、占用硬盤空間多、含有較多的噪音數據等不足之處,本發明要解決的技術問題是提供一種可生成緊湊的、含有較多上下文信息的短語規則集的基于組合的短語規則抽取方法。
為解決上述技術問題,本發明采用的技術方案是:
本發明一種基于組合的短語規則抽取方法包括以下步驟:在雙語語料中構造一個“最小短語規則”;
通過組合最小短語規則來構造一個含有更多上下文信息的短語規則集,形成“組合的短語規則集”;基于組合的短語規則集,從給定的含有詞對齊信息的雙語平行語料中生成最小短語規則集,并存放在哈希數據結構中;
設置組合次數n的值,構造組合的短語規則,通過最小短語規則集判斷該組合的短語規則由幾個最小短語規則組成;
如果該組合的短語規則由小于或等于n條最小短語規則集中的最小短語規則組成,將其放入一個新的哈希數據結構中;
輸出新的最小短語規則集與組合的短語規則集中的短語規則,一次基于組合的短語規則抽取過程結束。
所述最小短語規則為:在與詞對齊信息保持一致的情況下,不能再被分解為兩個或者更多的規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210464597.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于地理位置服務搜索的信息展示方法和裝置
- 下一篇:一種多核測試的方法和裝置





