[發明專利]語音識別處理方法、裝置及電子設備在審
| 申請號: | 202011497900.3 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN114648979A | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 趙冬迪;李錦珂;朱磊;盧璐;聶再清 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/26;G10L21/02;G10L21/0216;G10L25/30 |
| 代理公司: | 北京市惠誠律師事務所 11353 | 代理人: | 劉子敬 |
| 地址: | 開曼群島英屬開曼群島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 處理 方法 裝置 電子設備 | ||
本發明實施例提供了一種語音識別處理方法、裝置及電子設備,其中,方法包括:對多個通道的原始聲音信號進行語音特征提取,生成多個方向的語音特征數據;對語音特征數據進行以語音增強為目的池化處理,生成多方向融合的語音特征數據;對語音特征數據進行語音識別,生成識別文本,其中,濾波模型、池化網絡模型以及語音識別模型整體上采用端到端的模型架構。本發明實施采用基于深度學習機制的濾波模型以及池化網絡模型進行語音增強處理,并且在模型整體架構上采用端到端的架構,將語音增強和語音識別的優化目標進行了統一,從而能夠有效提高語音識別的準確率,并且能夠通過有效的數據訓練,來適應多種的復雜的語音識別環境。
技術領域
本申請涉及一種語音識別處理方法、裝置及電子設備,屬于計算機技術領域。
背景技術
在工作和生活中,經常會遇到需要遠場語音識別的場景。所謂的遠場語音識別場景是指聲源位置距離麥克風具有一定的距離,并且還會伴隨著一定的環境噪音。常見的場景有比如會議室、車載場景、智能家居等。遠場語音識別一般采用麥克風陣列的方式對語音進行采集,形成多個通道的原始聲音信號。
目前大多數的遠場語音識別系統由兩個子系統構成,分別是基于信號處理的語音增強系統和進行語音識別的語音識別系統。這兩個子系統通常是獨立優化的且優化目標不同,其中語音增強系統采用的是基于先驗知識的公式化的語音增強機制,其優化目標為語音的信噪比,而語音識別系統的優化目標則為識別的文本的準確率。由于語音增強系統的優化目標與語音識別系統的最終目標并不完全一致,在原始聲音信號增強的處理過程中,為了提升信噪比,在判斷出聲源方向后,會舍棄一些通道的原始聲音信號,僅保留被判定為聲源方向的語音信息。這樣的做法雖然提升了信噪比,但是由于語音增強系統的誤判,導致語音信息的丟失,很可能造成語音識別的準確率下降,甚至會出現由于嚴重丟失語音信息而導致無法進行有效的語音識別的情形。
發明內容
本發明實施例提供一種語音識別處理方法、裝置及電子設備,以提升語音識別的準確率。
為了實現上述目的,本發明實施例提供了一種語音識別處理方法,包括:
基于濾波模型,對多個通道的原始聲音信號進行語音特征提取,生成多個方向的語音特征數據;
基于池化網絡模型,對多個方向的語音特征數據進行以語音增強為目的池化處理,生成多方向融合的語音特征數據;
基于語音識別模型,對多方向融合的語音特征數據進行語音識別,生成識別文本,其中,所述濾波模型、池化網絡模型以及語音識別模型整體上采用端到端的模型架構。
本發明實施例還提供了一種語音識別處理裝置,包括:
語音特征提取模塊,用于基于濾波模型對多個通道的原始聲音信號進行語音特征提取,生成多個方向的語音特征數據;
池化處理模塊,用于基于池化網絡模型對多個方向的語音特征數據進行以語音增強為目的池化處理,生成多方向融合的語音特征數據;
語音識別模塊,用于基于語音識別模型對多方向融合的語音特征數據進行語音識別,生成識別文本,其中,所述濾波模型、池化網絡模型以及語音識別模型整體上采用端到端的模型架構。
本發明實施例還提供了一種電子設備,包括:
存儲器,用于存儲程序;
處理器,用于運行所述存儲器中存儲的所述程序,以執行前述的語音識別處理方法。
本發明實施例語音識別處理方法、裝置及電子設備,采用基于深度學習機制的濾波模型以及池化網絡模型進行語音增強處理,并且在模型整體架構上采用端到端的架構,將語音增強和語音識別的優化目標進行了統一,從而能夠有效提高語音識別的準確率,并且能夠通過有效的數據訓練,來適應多種的復雜的語音識別環境。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011497900.3/2.html,轉載請聲明來源鉆瓜專利網。





