[發明專利]用于大詞匯量連續語音識別的深度信任網絡有效
| 申請號: | 201110289015.0 | 申請日: | 2011-09-14 |
| 公開(公告)號: | CN102411931A | 公開(公告)日: | 2012-04-11 |
| 發明(設計)人: | L·鄧;D·俞;G·E·達爾 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/16 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 胡利鳴 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 詞匯量 連續 語音 識別 深度 信任 網絡 | ||
1.一種方法,包括以下計算機可執行動作:
致使處理器接收采樣,其中該采樣是講出的發言、在線手寫采樣、或者描述物體的運動的視頻信號之一;以及
致使處理器至少部分基于深度結構與隱馬爾科夫模型(HMM)的依賴于上下文的組合的輸出對該采樣進行解碼,其中該深度結構被配置為輸出依賴于上下文的單元的后驗概率。
2.如權利要求1所述的方法,其特征在于,該采樣是講出的發言,并且其中該依賴于上下文的單元是senone。
3.如權利要求1所述的方法,其特征在于,該深度結構是深度信任網絡(DBN)。
4.如權利要求3所述的方法,其特征在于,該DNB是概率生成性模型,該概率生成性模型包括處于表示數據矢量的所觀察到的變量的單個底層之上的多層隨機隱藏單元。
5.如權利要求4所述的方法,其特征在于,該DBN是前饋人工神經網絡(ANN)。
6.如權利要求1所述的方法,其特征在于,進一步包括:在該深度結構與該HMM的組合的訓練階段期間,從高斯混合模型(GMM)-HMM系統中導出該深度結構與該HMM的組合。
7.如權利要求1所述的方法,其特征在于,進一步包括:在該深度結構與該HMM的組合的訓練階段期間,對該深度結構執行預訓練。
8.如權利要求7所述的方法,其特征在于,該深度結構包括多個隱藏隨機層,并且其中預訓練包括使用不受監督的算法來初始化所述隱藏隨機層之間的連接的權重。
9.如權利要求8所述的方法,其特征在于,進一步包括:使用反向傳播來進一步細化所述隱藏隨機層之間的連接的權重。
10.一種計算機實現的語音識別系統,包括:
處理器(802);以及
能夠由該處理器來執行的多個組件,所述多個組件包括:
深度結構與HMM的計算機可執行的組合(106),該組合(106)接收輸入采樣,其中該輸入采樣是講出的發言或者在線手寫采樣之一,其中深度結構與HMM的組合輸出與該輸入采樣有關的依賴于上下文的單元的隨機分布;以及
解碼器組件(108),該解碼器組件(108)至少部分基于與該輸入采樣有關的依賴于上下文的單元的隨機分布對來自該輸入采樣的詞語序列進行解碼。
11.如權利要求10所述的系統,其特征在于,該輸入采樣是講出的解碼器,并且其中該依賴于上下文的單元是senone。
12.如權利要求10所述的系統,其特征在于,該深度結構是深度信任網絡(DBN)。
13.如權利要求12所述的系統,其特征在于,該DNB是概率生成性模型,該概率生成性模型包括處于表示數據矢量的所觀察到的變量的單個底層之上的多層隨機隱藏單元。
14.如權利要求13所述的系統,其特征在于,該組件進一步包括轉換器/訓練器組件,該轉換器/訓練器組件至少部分基于高斯混合模型(GMM)-HMM系統生成深度結構與HMM的組合。
15.如權利要求12所述的系統,其特征在于,該HMM被配置為輸出與該輸入采樣相對應的依賴于上下文的單元之間的轉移概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110289015.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種方便拆卸的傳感器密封裝置
- 下一篇:一種液體回收系統





