[發明專利]語音識別方法、裝置、設備以及計算機可讀存儲介質有效
| 申請號: | 201911164974.2 | 申請日: | 2019-11-25 |
| 公開(公告)號: | CN110992974B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 張策;黃斌;李鑫;白錦峰;陳旭;賈磊 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L25/30;G10L25/03 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 李輝;丁君軍 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 設備 以及 計算機 可讀 存儲 介質 | ||
1.一種語音識別方法,包括:
獲得從麥克風陣列中的第一麥克風采集的第一語音信號以及從所述麥克風陣列中的第二麥克風采集的第二語音信號,所述第二麥克風不同于所述第一麥克風;
通過神經網絡提取與所述第一語音信號的和所述第二語音信號相關聯的增強特征;以及
基于所述增強特征,獲得語音識別結果;其中通過神經網絡提取與所述第一語音信號的和所述第二語音信號相關聯的增強特征包括:
對所述第一語音信號和所述第二語音信號分別進行復數傅里葉變換;
通過復數卷積神經網絡對經變換的第一語音信號和第二語音信號進行復數卷積、復數偏置和復數線性變換操作以獲得復數特征;以及
將所述復數特征轉換成實數形式的所述增強特征。
2.根據權利要求1所述的方法,其中獲得語音識別結果包括:
由流式多級的截斷注意力模型基于所述增強特征來確定與所述第一語音信號和所述第二語音信號相對應的字符輸出。
3.根據權利要求2所述的方法,其中獲得語音識別結果還包括:
基于預定的大小,對所述增強特征進行壓縮;以及
向所述流式多級的截斷注意力模型提供壓縮后的增強特征。
4.根據權利要求1所述的方法,還包括:
基于所述增強特征,確定與所述第一語音信號和所述第二語音信號相關聯的目標聲源的方向;以及
點亮與所確定的方向相關聯的提示燈。
5.根據權利要求1所述的方法,還包括:
基于所述增強特征,確定所述第一語音信號和所述第二語音信號是否涉及喚醒詞;以及
根據確定所述第一語音信號和所述第二語音信號涉及喚醒詞,啟動字符識別過程。
6.根據權利要求1所述的方法,其中通過神經網絡提取與所述第一語音信號的和所述第二語音信號相關聯的增強特征包括:
獲得從所述麥克風陣列中的第三麥克風采集的第三語音信號;以及
通過神經網絡提取與所述第一語音信號的、所述第二語音信號和第三語音信號相關聯的增強特征。
7.根據權利要求1所述的方法,還包括:
獲得與所述麥克風陣列中的麥克風相同數目的多通道遠場語音信號,所述多通道遠場語音信號至少包括第一遠場語音信號和第二遠場語音信號;以及
使用所述多通道遠場語音信號來訓練端到端語音增強和識別一體化模型。
8.根據權利要求7所述的方法,其中獲得與所述麥克風陣列中的麥克風相同數目的多通道遠場語音信號包括:
基于近場語音信號,通過隨機加噪實時模擬所述多通道遠場語音信號。
9.根據權利要求8所述的方法,其中通過隨機加噪實時模擬所述多通道遠場語音信號包括:
隨機設置以下模擬參數:房間的配置、麥克風陣列在所述房間中的位置、目標聲源在所述房間中的位置、噪聲源在所述房間中的位置,所述房間的配置包括長寬高和墻壁反射系數。
10.根據權利要求9所述的方法,其中通過隨機加噪實時模擬所述多通道遠場語音信號還包括:
基于所述模擬參數,生成針對所述近場語音信號的第一組沖擊響應以及針對隨機選擇的噪聲信號的第二組沖擊響應。
11.根據權利要求10所述的方法,其中通過隨機加噪實時模擬所述多通道遠場語音信號還包括:
基于所述近場語音信號、所述第一組沖擊響應、所述噪聲信號、所述第二組沖擊響應以及信噪比,生成所述多通道遠場語音信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911164974.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種負載納米碳酸鈣的農藥復合劑的制備方法
- 下一篇:一種骨髓灰質炎治療器





