[發(fā)明專利]用于自動語音識別的使用外推的跳幀和按需輸出的神經(jīng)網(wǎng)絡在審
| 申請?zhí)枺?/td> | 201580044879.2 | 申請日: | 2015-08-18 |
| 公開(公告)號: | CN106663425A | 公開(公告)日: | 2017-05-10 |
| 發(fā)明(設計)人: | J·鮑爾;P·羅森;G·施特默爾 | 申請(專利權)人: | 英特爾公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16 |
| 代理公司: | 北京尚誠知識產(chǎn)權代理有限公司11322 | 代理人: | 龍淳,岳磊 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 自動 語音 識別 使用 輸出 神經(jīng)網(wǎng)絡 | ||
1.一種計算機實現(xiàn)的用于提供自動語音識別的方法,包括:
針對第一時間實例,評估神經(jīng)網(wǎng)絡以確定與所述第一時間實例相關聯(lián)的至少一個第一距離值,其中,所述至少一個第一距離值包括所述神經(jīng)網(wǎng)絡的輸出;
針對第二時間實例,至少部分地基于所述第一距離值來近似估計至少一個第二距離值,其中,針對所述第二時間實例不評估所述神經(jīng)網(wǎng)絡;以及
至少部分地基于所述第一距離值和所述第二距離值來確定文本元素序列。
2.根據(jù)權利要求1所述的方法,還包括:
針對所述第一時間實例生成一個或多個輸出索引,其中,所述第一距離值與所述輸出索引中的第一輸出索引相關聯(lián),其中,所述神經(jīng)網(wǎng)絡包括具有多個輸出層節(jié)點的輸出層,并且其中,針對所述第一時間實例評估所述神經(jīng)網(wǎng)絡包括:僅評估所述多個輸出層節(jié)點中的與所述輸出索引相關聯(lián)的子集。
3.根據(jù)權利要求2所述的方法,其中,所述神經(jīng)網(wǎng)絡還包括具有最末隱藏層節(jié)點的最末隱藏層,并且其中,針對所述第一時間實例評估所述神經(jīng)網(wǎng)絡包括:評估所有的最末隱藏層節(jié)點。
4.根據(jù)權利要求1所述的方法,其中,近似估計所述第二距離值包括:至少部分地基于所述第一距離值,基于線性函數(shù)、非線性函數(shù)或方差函數(shù)中的至少一個函數(shù)來外推所述第二距離值。
5.根據(jù)權利要求1所述的方法,其中,近似估計所述第二距離值包括:基于所述第一距離值和與第三時間實例相關聯(lián)的第三距離值來外推所述第二距離值,其中,所述第一時間實例在所述第二時間實例之前,并且所述第三時間實例在所述第一時間實例之前。
6.根據(jù)權利要求5所述的方法,其中,外推所述第二距離值包括:基于所述第一距離值和所述第三距離值,經(jīng)由線性函數(shù)外推所述第二距離值,其中,所述第三距離值是基于對所述神經(jīng)網(wǎng)絡的評估來確定的。
7.根據(jù)權利要求6所述的方法,其中,所述線性函數(shù)包括將所述第一距離值加上所述第一距離值與所述第三距離值之間的差值的一半。
8.根據(jù)權利要求1所述的方法,還包括:
針對所述第二時間實例生成一個或多個輸出索引,其中,用于所述第二時間實例的第三距離值與所述輸出索引中的第一輸出索引相關聯(lián),其中,所述神經(jīng)網(wǎng)絡包括具有多個輸出層節(jié)點的輸出層和具有多個最末隱藏層節(jié)點的最末隱藏層,并且其中,所述針對第一時間實例評估神經(jīng)網(wǎng)絡包括:評估所述最末隱藏層的所有最末隱藏層節(jié)點,以生成多個最末隱藏層值;
在所述第二時間實例處,通過基于所述最末隱藏層值評估所述多個輸出層節(jié)點中的與第四距離值相關聯(lián)的輸出層節(jié)點,來確定用于所述第一時間實例的第四距離值;以及
針對所述第二時間實例,至少部分地基于所述第四距離值來近似估計所述第三距離值。
9.根據(jù)權利要求1所述的方法,其中,所述神經(jīng)網(wǎng)絡包括具有多個輸出層節(jié)點的輸出層,并且其中,針對所述第一時間實例評估所述神經(jīng)網(wǎng)絡包括:評估所述多個輸出層節(jié)點中的全部節(jié)點。
10.根據(jù)權利要求1所述的方法,其中,所述第一時間實例與神經(jīng)網(wǎng)絡評估幀相關聯(lián),所述第二時間實例與跳過幀相關聯(lián),并且其中,一個、兩個或三個附加的跳過幀在所述評估幀與所述跳過幀之間。
11.根據(jù)權利要求1所述的方法,其中,所述第一時間實例與神經(jīng)網(wǎng)絡評估幀相關聯(lián),所述第二時間實例與跳過幀相關聯(lián),所述方法還包括:
基于可用計算資源或當前的實時因子中的至少一個來確定跳幀速率;以及
基于所述跳幀速率,在所述評估幀與所述跳過幀之間提供附加的跳過幀。
12.根據(jù)權利要求1所述的方法,其中,確定文本元素序列包括:經(jīng)由Viterbi束搜索解碼器來確定文本元素序列。
13.根據(jù)權利要求1所述的方法,還包括:
將接收到的語音轉(zhuǎn)換成語音記錄;
提取與所述語音記錄的時間窗口相關聯(lián)的特征矢量;以及
提供所述特征矢量,作為所述神經(jīng)網(wǎng)絡的輸入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英特爾公司,未經(jīng)英特爾公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201580044879.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





