[發明專利]改進語言模型的方法及裝置無效
| 申請號: | 201210310929.5 | 申請日: | 2012-08-28 |
| 公開(公告)號: | CN103631771A | 公開(公告)日: | 2014-03-12 |
| 發明(設計)人: | 張大鯤;郭玉箐 | 申請(專利權)人: | 株式會社東芝 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 劉瑞東;楊曉光 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 改進 語言 模型 方法 裝置 | ||
技術領域
本發明涉及自然語言的處理技術,具體地,涉及改進統計機器翻譯中的語言模型的方法及裝置。
背景技術
在統計機器翻譯(Statistical?Machine?Translation(SMT),具體參見非專利文獻1)系統中,語言模型具有非常重要的地位。目前最廣泛使用的語言模型是基于n元組(n-gram,或稱為n元語法)的語言模型(具體參見非專利文獻2)。這種系統首先利用訓練數據(例如,自然語言文本的集合)對語言模型進行訓練,然后將訓練好的語言模型應用到新的詞序列上,給出其語言模型的概率估計。由于訓練數據大小的局限,一些n元組在訓練數據中出現的頻率較高,而另一些則出現的頻率較低。對于那些出現頻率較高的n元組,這種方法能夠給出相對比較準確的估計,而對于其他出現頻率較低的n元組,這種系統需要平滑方法(具體參見非專利文獻3)來計算其概率,準確程度相對較低。
在這些出現頻率較低的n元組中,其中一部分是不符合語言習慣的詞串,在真實的語言環境中很少出現,另一部分雖然符合語言習慣,但是因為訓練語料的數據稀疏問題,所以存在的數量較少。目前的語言模型在估計概率時,對這兩種情況采用同樣的方法,不加以區分,這是不合理的,也因此導致統計機器翻譯系統的輸出(即翻譯結果)可能包含有不符合語言習慣的詞串,從而降低了翻譯的質量。
非專利文獻1:Philipp?Koehn,“Statistical?machine?translation”,Cambridge?University?Press:2010,ISBN?978-0-521-87415-1;
非專利文獻2:Christopher?D.Manning?and?Hinrich?Schütze,“Foundations?of?Statistical?Natural?Language?Processing”,MIT?Press:1999,ISBN?0-262-13360-1;
非專利文獻3:Stanley?F.Chen?and?Joshua?T.Goodman,“An?Empirical?Study?of?Smoothing?Techniques?for?Language?Modeling”,Technical?Report?TR-10-98,Computer?Science?Group,Harvard?University,1998;
在此通過參考引入非專利文獻1~3的整個內容。
發明內容
為了改善上述現有技術中存在的翻譯結果中可能包含有不符合語言習慣的詞串的問題,并進一步改善訓練語料的數據稀疏的問題,本發明提出了對符合語言習慣的n元組和不符合語言習慣的n元組進行區分,并進一步從兩個方面對語言模型進行改進的方法和裝置。也就是說,本發明提供了改進語言模型的方法以及改進語言模型的裝置,并進一步提供了機器翻譯方法和機器翻譯系統。具體地,提供了以下技術方案。
[1]一種改進語言模型的裝置,其中,上述語言模型包括多個n元組及其概率;上述裝置包括:
候選集生成單元,其生成n元組的候選集;
出現次數計算單元,其計算上述n元組的候選集中的n元組在語言環境中的出現次數;
概率賦予單元,其對出現次數低于預定的第1閾值的n元組賦予預定的概率;以及
第1添加單元,其將上述出現次數低于上述第1閾值的n元組及其概率加入上述語言模型。
[2]根據上述[1]的改進語言模型的裝置,其中,上述出現次數計算單元,利用搜索引擎計算上述n元組的候選集中的n元組在上述搜索引擎的數據庫中的出現次數。
[3]根據上述[1]或[2]的改進語言模型的裝置,還包括:
過濾單元,其利用上述語言模型或其他語言模型對上述n元組的候選集進行過濾。
[4]根據上述[3]的改進語言模型的裝置,其中,上述過濾單元包括:
概率計算單元,其利用上述語言模型或其他語言模型計算上述n元組的候選集中的n元組的概率;以及
刪除單元,其將計算出的概率高于預定的第2閾值的n元組從上述n元組的候選集中刪除。
[5]根據上述[4]的改進語言模型的裝置,還包括:
第2添加單元,其將計算出的概率小于等于上述第2閾值且出現次數大于等于上述第1閾值的n元組,添加到訓練上述語言模型所使用的訓練語料中;以及
訓練單元,其利用上述進行了添加的訓練語料對上述語言模型重新進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝,未經株式會社東芝許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210310929.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:裝配式木屋凸面墻體
- 下一篇:挖掘屬性和實體關聯關系的方法和裝置





