[發明專利]用于自動語音識別的時域特征提取的方法和系統在審
| 申請號: | 201910527374.1 | 申請日: | 2019-06-18 |
| 公開(公告)號: | CN110660382A | 公開(公告)日: | 2020-01-07 |
| 發明(設計)人: | 方水英;穆罕默德·凱拉;索姆納特·保羅;查爾斯·奧古斯丁;特爾博·馬吉姆德;林佑澤;托比亞斯·博克雷;戴維·皮爾斯 | 申請(專利權)人: | 英特爾公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L25/24 |
| 代理公司: | 11258 北京東方億思知識產權代理有限責任公司 | 代理人: | 宗曉斌 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 時域特征提取 自動語音識別 | ||
本公開涉及用于自動語音識別的時域特征提取的方法和系統。一種系統、制品、和方法提供了用于自動語音識別的時域特征提取。
技術領域
本公開涉及用于自動語音識別的時域特征提取的方法和系統。
背景技術
隨著越來越多基于計算機的設備使用語音識別來接收來自用戶的命令以便執行一些動作以及將語音轉換為用于聽寫應用的文本或甚至保持與用戶的對話(其中在一個或兩個方向上交換信息),語音識別系統或自動語音識別器變得越來越重要。這種系統可以獨立于說話者(例如,不考慮說話者來識別詞的家庭或智能電話語音識別系統),或者可以依賴于說話者(例如,通過使用戶重復詞來訓練系統)。一些系統還可以被配置為理解單個詞命令或短句的固定組合,例如,用于操作理解術語“呼叫”或“應答”的移動電話。智能電話、智能揚聲器、平板、以及其他設備上的系統可以具有廣泛的詞匯,例如,用于提供語音激活的搜索引擎并執行其他音頻激活任務的虛擬助理。
因此,可以期望自動語音識別(ASR)用于可穿戴設備、智能電話、以及其他小型設備。具有ASR系統的很多小型設備具有有限的存儲器、計算能力、和電池容量。主要由于傳統的通用數字信號處理器(DSP)執行用于特征提取的快速傅里葉變換(FFT)和其他DSP任務,聲學前端特征提取可以具有巨大的計算負擔和產生的功率消耗。特征提取對于始終開啟的ASR系統變得更重要,在始終開啟的ASR系統中,特征提取、語音激活(VA)、和簡單關鍵詞檢測(KWD)一直在執行其他后續ASR后端復雜任務之前被執行,因此特征提取、VA、和KWD比那些ASR后端復雜任務被更加頻繁地執行,從而更加直接地影響能量消耗。這會耗費非常大量的電池功率并不利地影響可以用于小型設備上的其他ASR任務或其他非ASR任務的處理時間。
發明內容
根據本公開的一方面,提供了一種由計算機實現的用于自動語音識別的特征提取的方法,包括:接收輸入語音信號;執行增量調制,包括:將所述輸入語音信號的采樣的表示值與多個閾值等級中的上限閾值和下限閾值進行比較;以及至少提供有效指示符和移位指示符,作為所述增量調制的輸出,其中,所述有效指示符指示至少一個閾值等級沿著所述輸入語音信號從前一表示值到下個采樣的改變,并且其中,所述移位指示符是指示閾值等級的改變的總量的單個值,所述閾值等級的改變包括與所述有效指示符相關聯的多個等級從所述前一表示值到所述下個采樣的改變;以及使用所述有效指示符和所述移位指示符形成梅爾頻率(mel-frequency)相關系數,所述梅爾頻率相關系數用于識別所述輸入語音信號中的語音。
根據本公開的另一方面,提供了一種由計算機實現的用于自動語音識別的特征提取系統,包括:至少一個處理器;通信地耦合到所述至少一個處理器的存儲器;至少一個梅爾頻率有限沖激響應(FIR)濾波器,由所述至少一個處理器操作并且被布置為獲取聲學輸入信號的音頻數據,所述音頻數據包括人類語音,并且所述梅爾頻率FIR濾波器輸出修改后的梅爾頻率系數的總和;以及累加器單元,用于執行帕塞瓦爾定理相關的能量運算(Parseval Theorem-related energy operation),所述能量運算包括使用濾波器輸出形成中間系數,所述中間系數用于形成用來識別語音中的詞的梅爾頻率頻譜系數(MFSC)或梅爾頻率倒譜系數(MFCC)。
根據本公開的又一方面,提供了至少一個計算機可讀介質,包括多個指令,所述多個指令響應于在計算設備上被執行而促使所述計算設備通過以下處理進行操作:獲取有效指示符,所述有效指示符指示至少一個閾值等級沿著輸入語音信號從所述輸入語音信號的前一表示值到所述輸入語音信號的下個采樣的改變;以及獲取移位指示符,所述移位指示符是指示閾值等級的改變的總量的單個值,所述閾值等級的改變包括與所述有效指示符相關聯的多個等級從所述前一表示值到所述下個采樣的改變;以及根據所述有效指示符的值,使用FIR濾波器的至少一個修改后的梅爾頻率系數,形成用于識別所述輸入語音信號中的語音的濾波器輸出,其中,所述FIR濾波器被布置為通過使用所述移位指示符修改一個或多個梅爾頻率系數。
根據本公開的再一方面,提供了一種設備,包括用于執行如上所述的方法的裝置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英特爾公司,未經英特爾公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910527374.1/2.html,轉載請聲明來源鉆瓜專利網。





