[發明專利]裁剪語言模型的方法及裝置有效
| 申請號: | 200810084614.7 | 申請日: | 2008-03-13 |
| 公開(公告)號: | CN101271450A | 公開(公告)日: | 2008-09-24 |
| 發明(設計)人: | 李劍峰;王海峰;任登君;李國華 | 申請(專利權)人: | 株式會社東芝 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京市中咨律師事務所 | 代理人: | 李崢;劉瑞東 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 裁剪 語言 模型 方法 裝置 | ||
技術領域
本發明涉及自然語言的處理技術,具體地,涉及語言模型裁剪技術。
背景技術
語言模型在自然語言處理中得到了廣泛的應用,例如亞洲語言分詞、語音識別、亞洲語言的計算機輸入(IMF)等。然而,在許多實際應用中,由于計算資源的限制,未經過裁剪的語言模型往往由于尺寸太大而無法直接應用。因此,語言模型裁剪技術被用來將一個尺寸較大的模型裁剪成較小的模型。裁剪的方法一般是根據一定的裁剪準則,刪除語言模型中存儲的一些參數,從而達到減小模型尺寸的目的。
以往的語言模型裁剪技術依據各種不同的裁剪準則決定語言模型中每一個參數是否被裁。已提出的裁剪準則主要包括出現頻次(Count?Cut-off)和K-L距離(Kullback-Leibler?Distance)。
頻次準則參見Fredrick?Jelinek于1990年發表的文章“Self-organizedlanguage?modeling?for?speech?recognition”,In?Alexander?Waibel?andKai-Fu?Lee(Eds.),Readings?in?Speech?Recognition,pages?450-506,在此通過參考引入其整個內容。
K-L距離準則參見Andreas?Stolcke于1998年發表的文章“Entropy-based?Pruning?of?Backoff?Language?Models”,In?Proc.ofDARPA?News?Transcription?and?Understanding?Workshop,pages270-274,在此通過參考引入其整個內容。
然而,這些裁剪準則都是一般性的準則,沒有針對語言模型在實際應用中的性能進行優化,因而模型裁剪不可避免地帶來了性能損失。
另外,在Reinhard?Kneser和Hermann?Hey于1995年發表的文章“Improved?Backing-Off?for?M-Gram?Language?Modeling”(IEEE,p.181-184,在此通過參考引入其整個內容)中公開了一種語言模型建模的方法。在隨機語言模型的建模中,回退(backing-off)被廣泛地使用以處理稀疏數據的問題。在該文獻中描述了回退的處理過程。
發明內容
為了改善上述現有技術中存在的問題,本發明提供了裁剪語言模型的方法,以及裁剪語言模型的裝置。
根據本發明的一個方面,提供了一種裁剪語言模型的方法,其中,該語言模型包括多個n元組及其概率,以及多個低階的元組及其概率;上述方法包括:根據上述語言模型生成初始的基礎模型,該基礎模型不包括上述多個n元組及其概率,只包含上述低階的元組及其概率;利用訓練語料庫計算上述多個n元組中的每一個對于實際應用的重要性,該訓練語料庫包括訓練數據和參考答案;以及將上述多個n元組中重要性高的至少一個n元組及其概率加入上述基礎模型,作為裁剪后的語言模型。
根據本發明的另一個方面,提供了一種裁剪語言模型的裝置,其中,該語言模型包括多個n元組(n-gram)及其概率,以及多個低階的元組及其概率;上述裝置包括:基礎模型生成單元,根據上述語言模型生成初始的基礎模型,該基礎模型不包括上述多個n元組及其概率,只包含上述低階的元組及其概率;重要性計算單元,利用訓練語料庫計算上述多個n元組中的每一個對于實際應用的重要性,該訓練語料庫包括訓練數據和參考答案;以及添加單元,將上述多個n元組中重要性高的至少一個n元組及其概率加入上述基礎模型,作為裁剪后的語言模型。
附圖說明
相信通過以下結合附圖對本發明具體實施方式的說明,能夠使人們更好地了解本發明上述的特點、優點和目的。
圖1是根據本發明的一個實施例的裁剪語言模型的方法的流程圖;
圖2是根據本發明的實施例的計算二元組重要性的一個實例的流程圖;
圖3是根據本發明的一個可選實施例的裁剪語言模型的方法的流程圖;以及
圖4是根據本發明的另一個實施例的裁剪語言模型的裝置的方框圖。
具體實施方式
下面就結合附圖對本發明的各個優選實施例進行詳細的說明。
裁剪語言模型的方法
圖1是根據本發明的一個實施例的裁剪語言模型的方法的流程圖。如圖1所示,首先,在步驟101,根據語言模型生成初始的基礎模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝,未經株式會社東芝許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810084614.7/2.html,轉載請聲明來源鉆瓜專利網。





