[發明專利]改進語言模型的方法及裝置無效
| 申請號: | 201210310929.5 | 申請日: | 2012-08-28 |
| 公開(公告)號: | CN103631771A | 公開(公告)日: | 2014-03-12 |
| 發明(設計)人: | 張大鯤;郭玉箐 | 申請(專利權)人: | 株式會社東芝 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 劉瑞東;楊曉光 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 改進 語言 模型 方法 裝置 | ||
1.一種改進語言模型的裝置,其中,上述語言模型包括多個n元組及其概率;上述裝置包括:
候選集生成單元,其生成n元組的候選集;
出現次數計算單元,其計算上述n元組的候選集中的n元組在語言環境中的出現次數;
概率賦予單元,其對出現次數低于預定的第1閾值的n元組賦予預定的概率;以及
第1添加單元,其將上述出現次數低于上述第1閾值的n元組及其概率加入上述語言模型。
2.根據權利要求1所述的改進語言模型的裝置,其中,上述出現次數計算單元,利用搜索引擎計算上述n元組的候選集中的n元組在上述搜索引擎的數據庫中的出現次數。
3.根據權利要求1所述的改進語言模型的裝置,還包括:
過濾單元,其利用上述語言模型或其他語言模型對上述n元組的候選集進行過濾。
4.根據權利要求3所述的改進語言模型的裝置,其中,上述過濾單元包括:
概率計算單元,其利用上述語言模型或其他語言模型計算上述n元組的候選集中的n元組的概率;以及
刪除單元,其將計算出的概率高于預定的第2閾值的n元組從上述n元組的候選集中刪除。
5.根據權利要求4所述的改進語言模型的裝置,還包括:
第2添加單元,其將計算出的概率小于等于上述第2閾值且出現次數大于等于上述第1閾值的n元組,添加到訓練上述語言模型所使用的訓練語料中;以及
訓練單元,其利用上述進行了添加的訓練語料對上述語言模型重新進行訓練。
6.根據權利要求5所述的改進語言模型的裝置,其中,上述計算出的概率小于等于上述第2閾值且出現次數大于等于上述第1閾值的n元組,是上述訓練語料中數據稀疏的n元組。
7.根據權利要求1所述的改進語言模型的裝置,其中,上述出現次數低于上述第1閾值的n元組是不符合語言習慣的n元組。
8.根據權利要求7所述的改進語言模型的裝置,其中,上述預定的概率在上述語言模型中的上述多個n元組的概率的最低值以下。
9.根據權利要求1所述的改進語言模型的裝置,其中,上述候選集生成單元包括:
輸入單元,其提供至少一個待翻譯的句子;
翻譯單元,其對上述句子進行翻譯以獲得翻譯結果;以及
提取單元,其從上述翻譯結果中提取多個n元組作為上述n元組的候選集。
10.一種改進語言模型的方法,其中,上述語言模型包括多個n元組及其概率;上述方法包括以下步驟:
生成n元組的候選集;
計算上述n元組的候選集中的n元組在語言環境中的出現次數;
對出現次數低于預定的第1閾值的n元組賦予預定的概率;以及
將上述出現次數低于上述第1閾值的n元組及其概率加入上述語言模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝,未經株式會社東芝許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210310929.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:裝配式木屋凸面墻體
- 下一篇:挖掘屬性和實體關聯關系的方法和裝置





