[發明專利]一種對雙語語料庫進行句子對齊的方法及裝置無效
| 申請號: | 201110192171.5 | 申請日: | 2011-06-30 |
| 公開(公告)號: | CN102855263A | 公開(公告)日: | 2013-01-02 |
| 發明(設計)人: | 鄭仲光;孟遙;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 朱勝;李春暉 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 雙語 語料庫 進行 句子 對齊 方法 裝置 | ||
技術領域
本發明一般地涉及數據處理技術領域,尤其是一種對雙語語料庫進行句子對齊的方法及裝置。?
背景技術
目前,統計的方法越來越多的應用在自然語言處理領域中,因此語料的作用也越來越重要。其中雙語平行語料(簡稱雙語語料)指的是由兩種語言(分別稱為源語言F和目標語言E)構成的語料,并且該語料以句子為單位互為譯文。在很多自然語言處理任務中,雙語語料是重要的知識源,例如:統計機器翻譯、跨語言檢索等領域。因此,雙語語料的數量與質量很大程度上影響甚至決定了相關任務的最終結果。?
很多情況下,大量的雙語語料容易獲得,例如從雙語網站或多個語言版本的文獻資料等,但是得到的文本通常并不是以句子為單位對齊的,例如有些是以段落為單位對齊的,有些甚至是按照整篇文本來對齊的。這種情況下,就需要將這些不是以句子為單位對齊的語料(也可以稱為原始語料)整理成需要的句對齊格式。?
現有技術中對雙語語料庫進行句子對齊的方法主要有以下幾種:基于句子長度分布的方法;該方法考慮源語言跟目標語言的句子長度信息,根據句子長度的分布來尋找對齊關系,但是這種方法的魯棒性不好,只能用于特定的一些語言之間;基于詞典的方法:但是詞典作為不可或缺的資源很多情況下不容易獲得,或者已有的詞典與雙語語料并不是同一領域的,因此基于詞典的方法局限性比較大,且不容易擴展。基于統計的方法可以將基于句子長度分布的方法和基于詞典的方法相結合,但是基于統計的方法復雜度高,在處理大規模數據時非常耗時,因此也無法滿足實際需求。?
總之,現有技術中對雙語語料進行句子對齊時,不僅在實現時復雜度高且非常耗時,而且也會因此而導致現有技術的效率非常低下。?
發明內容
有鑒于此,本發明實施例提供了一種對雙語語料庫進行句子對齊的方法及裝置,能夠簡化句子對齊時的流程,進而可以提高句子對齊的效率。?
根據本發明實施例的一個方面,提供一種對雙語語料庫進行句子對齊的方法,其中所述雙語語料庫中的源語言語料和目標語言語料是塊對齊的,所述方法包括:針對源語言和目標語言的每個對齊塊,利用從源塊和目標塊中提取出的源關鍵詞列表和目標關鍵詞列表生成候選翻譯對列表,所述候選翻譯對列表中的每個條目為包括源和目標關鍵詞對的翻譯對;根據所述候選翻譯對列表中的每個翻譯對的翻譯概率生成雙語詞典,所述雙語詞典中的每個條目包括源和目標關鍵詞對及其翻譯概率;以所述雙語詞典中的每個條目中的源和目標關鍵詞對為種子翻譯對,并參考所述種子翻譯對的上下文內容對所述雙語詞典進行擴展;基于擴展后的雙語詞典,將源塊中的源句子翻譯成目標語言,并計算翻譯結果與目標塊中的目標句子之間的相似度;以及依據所述相似度對源句子和目標句子進行對齊。?
根據本發明實施例的另一個方面,提供一種對雙語語料庫進行句子對齊的裝置,其中所述雙語語料庫中的源語言語料和目標語言語料是塊對齊的,包括:候選翻譯對列表生成模塊,用于針對源語言和目標語言的每個對齊塊,利用從源塊和目標塊中提取出的源關鍵詞列表和目標關鍵詞列表生成候選翻譯對列表,所述候選翻譯對列表中的每個條目為包括源和目標關鍵詞對的翻譯對;雙語詞典生成模塊,用于根據所述候選翻譯對列表中的每個翻譯對的翻譯概率生成雙語詞典,所述雙語詞典中的每個條目包括源和目標關鍵詞對及其翻譯概率;雙語詞典擴展模塊,用于以所述雙語詞典中的每個條目中的源和目標關鍵詞對為種子翻譯對,并參考所述種子翻譯對的上下文內容對所述雙語詞典進行擴展;目標語言翻譯模塊,用于基于擴展后的雙語詞典,將源塊中的源句子翻譯成目標語言;相似度計算模塊,用于計算翻譯結果與目標塊中的目標句子之間的相似度;以及對齊模塊,用于依據所述相似度對源句子和目標句子進行對齊。?
另外,根據本發明的另一方面,還提供了一種存儲介質。所述存儲介?質包括機器可讀的程序代碼,當在信息處理設備上執行所述程序代碼時,所述程序代碼使得所述信息處理設備執行根據本發明的上述一種對雙語語料庫進行句子對齊的方法。?
此外,根據本發明的再一方面,還提供了一種程序產品。所述程序產品包括機器可執行的指令,當在信息處理設備上執行所述指令時,所述指令使得所述信息處理設備執行根據本發明的上述一種對雙語語料庫進行句子對齊的方法。?
根據本發明實施例的上述一種方法,能夠通過雙語詞典的獲取以及擴充,快速的從雙語語料中確定出雙語詞典,進而能夠依據雙語詞典來計算源句子與目標句子之間的相似度,這樣就能夠在對齊過程中依據相似度來進行,將相似度較高或者符合一定條件的源句子和目標句子進行對齊,這樣既簡化了句子對齊的流程,提高了對齊效率,還能夠因為雙語詞典的選取以及句子相似度的計算而提高對齊的準確率。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110192171.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據中心系統及數據處理方法
- 下一篇:上位機與電子閱讀設備通信的方法和系統





