[發明專利]語音識別方法、裝置、設備以及計算機可讀存儲介質有效

申請號：	201911164974.2	申請日：	2019-11-25
公開（公告）號：	CN110992974B	公開（公告）日：	2021-08-24
發明（設計）人：	張策;黃斌;李鑫;白錦峰;陳旭;賈磊	申請（專利權）人：	百度在線網絡技術(北京)有限公司
主分類號：	G10L21/0216	分類號：	G10L21/0216;G10L25/30;G10L25/03
代理公司：	北京市金杜律師事務所 11256	代理人：	李輝;丁君軍
地址：	100080 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音識別方法裝置設備以及計算機可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音識別方法，包括：

獲得從麥克風陣列中的第一麥克風采集的第一語音信號以及從所述麥克風陣列中的第二麥克風采集的第二語音信號，所述第二麥克風不同于所述第一麥克風；

通過神經網絡提取與所述第一語音信號的和所述第二語音信號相關聯的增強特征；以及

基于所述增強特征，獲得語音識別結果；其中通過神經網絡提取與所述第一語音信號的和所述第二語音信號相關聯的增強特征包括：

對所述第一語音信號和所述第二語音信號分別進行復數傅里葉變換；

通過復數卷積神經網絡對經變換的第一語音信號和第二語音信號進行復數卷積、復數偏置和復數線性變換操作以獲得復數特征；以及

將所述復數特征轉換成實數形式的所述增強特征。

2.根據權利要求1所述的方法，其中獲得語音識別結果包括：

由流式多級的截斷注意力模型基于所述增強特征來確定與所述第一語音信號和所述第二語音信號相對應的字符輸出。

3.根據權利要求2所述的方法，其中獲得語音識別結果還包括：

基于預定的大小，對所述增強特征進行壓縮；以及

向所述流式多級的截斷注意力模型提供壓縮后的增強特征。

4.根據權利要求1所述的方法，還包括：

基于所述增強特征，確定與所述第一語音信號和所述第二語音信號相關聯的目標聲源的方向；以及

點亮與所確定的方向相關聯的提示燈。

5.根據權利要求1所述的方法，還包括：

基于所述增強特征，確定所述第一語音信號和所述第二語音信號是否涉及喚醒詞；以及

根據確定所述第一語音信號和所述第二語音信號涉及喚醒詞，啟動字符識別過程。

6.根據權利要求1所述的方法，其中通過神經網絡提取與所述第一語音信號的和所述第二語音信號相關聯的增強特征包括：

獲得從所述麥克風陣列中的第三麥克風采集的第三語音信號；以及

通過神經網絡提取與所述第一語音信號的、所述第二語音信號和第三語音信號相關聯的增強特征。

7.根據權利要求1所述的方法，還包括：

獲得與所述麥克風陣列中的麥克風相同數目的多通道遠場語音信號，所述多通道遠場語音信號至少包括第一遠場語音信號和第二遠場語音信號；以及

使用所述多通道遠場語音信號來訓練端到端語音增強和識別一體化模型。

8.根據權利要求7所述的方法，其中獲得與所述麥克風陣列中的麥克風相同數目的多通道遠場語音信號包括：

基于近場語音信號，通過隨機加噪實時模擬所述多通道遠場語音信號。

9.根據權利要求8所述的方法，其中通過隨機加噪實時模擬所述多通道遠場語音信號包括：

隨機設置以下模擬參數：房間的配置、麥克風陣列在所述房間中的位置、目標聲源在所述房間中的位置、噪聲源在所述房間中的位置，所述房間的配置包括長寬高和墻壁反射系數。

10.根據權利要求9所述的方法，其中通過隨機加噪實時模擬所述多通道遠場語音信號還包括：

基于所述模擬參數，生成針對所述近場語音信號的第一組沖擊響應以及針對隨機選擇的噪聲信號的第二組沖擊響應。

11.根據權利要求10所述的方法，其中通過隨機加噪實時模擬所述多通道遠場語音信號還包括：

基于所述近場語音信號、所述第一組沖擊響應、所述噪聲信號、所述第二組沖擊響應以及信噪比，生成所述多通道遠場語音信號。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司，未經百度在線網絡技術(北京)有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911164974.2/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種負載納米碳酸鈣的農藥復合劑的制備方法
下一篇：一種骨髓灰質炎治療器

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質量或其可識度而處理語音信號，以產生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴展
G10L21-06 .將語音轉換成非可聽表達形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】