[發明專利]語音識別方法、裝置、設備以及計算機可讀存儲介質有效
| 申請號: | 201911164974.2 | 申請日: | 2019-11-25 |
| 公開(公告)號: | CN110992974B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 張策;黃斌;李鑫;白錦峰;陳旭;賈磊 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L25/30;G10L25/03 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 李輝;丁君軍 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 設備 以及 計算機 可讀 存儲 介質 | ||
本公開提供了一種語音識別方法、裝置、設備以及計算機可讀存儲介質。方法包括獲得從麥克風陣列中的第一麥克風采集的第一語音信號以及從第二麥克風采集的第二語音信號,其中麥克風陣列包括至少兩個麥克風,例如兩個、三個或者六個麥克風等。方法還包括通過神經網絡提取與第一語音信號和第二語音信號相關聯的增強特征,然后基于所提取的增強特征來獲得語音識別結果。不同于傳統的基于數字信號處理的語音增強方式,本公開的實施例通過神經網絡來直接提取多通道語音信號的增強特征,能夠解決語音增強和語音識別優化目標不一致的問題,從而能夠聯合優化語音增強和語音識別等目標,實現了語音增強和識別的端到端建模,提高了語音識別的準確率。
技術領域
本公開的實施例總體上涉及計算機技術領域,并且更具體地涉及語音技術領域。
背景技術
語音識別是指通過計算機把語音信號轉換為對應的文本或字符的過程,是實現人與機器交互的主要途徑之一。近年來,隨著深度學習技術在語音識別領域的廣泛引用,語音識別的準確率得到了極大的提升。此外,由于智能設備的不斷普及,使用語音進行識別的場合已經變得非常豐富。例如,語音識別技術已經廣泛應用于智能家居、車載語音、智能辦公等行業和場景。語音識別技術結合自然語言處理和語音合成等技術,可以產生更多復雜應用,例如智能音箱、會議同聲傳譯、智能客服助理等。
根據聲源與拾取器之間距離,語音識別可以分為近場語音識別和遠場語音識別。近場語音識別是指使得計算機能夠在近距離條件下識別語音,例如在使用語音輸入法的過程中。遠場語音識別是指使得能夠在遠距離條件下識別語音,例如在智能音箱或者車載導航的過程中。在遠場語音識別場景中,由于真實環境中存在大量的環境噪聲和混響等,導致拾取信號的質量下降,因而遠場語音識別的準確率比近場語音識別的準確率要低。在遠場環境下,目標聲源距離拾音器較遠致使目標信號衰減嚴重,加上環境嘈雜并且干擾信號眾多,最終導致信噪比較低,語音識別性能較差。一般來說,用戶站在幾米遠處與智能音箱進行語音交互就是一個典型的遠場語音識別應用場景。
發明內容
根據本公開的示例實施例,提供了一種語音識別方法、裝置、設備以及計算機可讀存儲介質。
在本公開的第一方面中,提供了一種語音識別方法。該方法包括:獲得從麥克風陣列中的第一麥克風采集的第一語音信號以及從麥克風陣列中的第二麥克風采集的第二語音信號,其中第二麥克風不同于第一麥克風;通過神經網絡提取與第一語音信號和第二語音信號相關聯的增強特征;以及基于增強特征獲得語音識別結果。
在本公開的第二方面中,提供了一種語音識別裝置。該裝置包括:語音信號獲得模塊,被配置為獲得從麥克風陣列中的第一麥克風采集的第一語音信號以及從麥克風陣列中的第二麥克風采集的第二語音信號,其中第二麥克風不同于第一麥克風;增強特征提取模塊,被配置為通過神經網絡提取與第一語音信號和第二語音信號相關聯的增強特征;以及語音識別模塊,被配置為基于增強特征獲得語音識別結果。
在本公開的第三方面中,提供了一種電子設備,其包括一個或多個處理器以及存儲裝置,其中存儲裝置用于存儲一個或多個程序。一個或多個程序當被一個或多個處理器執行,使得電子設備實現根據本公開的實施例的各種方法和/或過程。
在本公開的第四方面中,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現根據本公開的實施例的各種方法和/或過程。
應當理解,本發明內容部分中所描述的內容并非旨在限定本公開的實施例的關鍵特征或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的描述而變得容易理解。
附圖說明
結合附圖并參考以下詳細說明,本公開各實施例的上述和其他特征、優點及方面將變得更加明顯。在附圖中,相同或相似的附圖標記表示相同或相似的元素,其中:
圖1示出了傳統的語音識別過程的示意圖;
圖2示出了根據本公開的實施例的示例語音識別場景的示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911164974.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種負載納米碳酸鈣的農藥復合劑的制備方法
- 下一篇:一種骨髓灰質炎治療器





