[發明專利]一種聲源鎖定方法在審
| 申請號: | 201810153073.2 | 申請日: | 2018-02-22 |
| 公開(公告)號: | CN108364642A | 公開(公告)日: | 2018-08-03 |
| 發明(設計)人: | 陳思應;孫振奎;陳躍華;余杰;何云鵬;高君效 | 申請(專利權)人: | 成都啟英泰倫科技有限公司 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L15/16;G10L25/18;G01S11/14 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610041 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聲源 語音識別 鎖定 聲音采集模塊 語音識別模塊 語音數據傳輸 客戶隱私 語音數據 屏蔽 云端 算法 泄露 采集 傳輸 外部 客戶 | ||
本發明涉及語音識別領域,特別是涉及到一種聲源鎖定方法,由聲音采集模塊采集外部語音數據并傳輸給語音識別模塊進行識別,該方法采用DNN算法來確定出聲源與設備的距離,使用該方法的設備能夠屏蔽聲源以外所發出的聲音并可不用將客戶的語音數據傳輸至云端,提高語音識別的準確性并避免泄露客戶隱私。
技術領域
本發明涉及智能語音識別技術領域,特別是涉及到一種能夠利用DNN算法確定聲源位置的聲源鎖定方法。
背景技術
語音識別是人機交互里很重要的模塊,從PC時代到現在的移動互聯時代,人機交互由鼠標鍵盤走向智能手機、Pad等的多點觸摸,到了智能硬件時代,交互則更加多元,不僅有觸摸,還有基于語音、視覺的交互,原本是以機器為中心的人機交互,逐漸走向以人為中心的自然交互,語音交互作為最有效的溝通控制方式,在家用方面,它可以幫助用戶把家中的各種終端設備無縫連接起來,如智能語音微波爐,用戶通過簡單的語音命令即可控制微波爐進行不同的工作。
從商業化的角度來看,根據識別的距離可將語音識別分為近場和遠場,目前業界所做的近場人對機器說話的識別準確率可達90%以上,但在遠場景的識別就不盡人意,對于一些工作在特定區域內的電子設備要求其對特定區域內的噪音具有較好的抑制,且使用距離要求在2-5米內,這對近場語音識別技術而言很難做到。
現有技術的缺點在于:
一般的智能語音設備要求在近場使用,但是當聲源與設備的距離在2-5米之內時,聲源的語音識別準確率較低。
發明內容
為了解決上述遠場景的語音識別問題,發明了一種能夠確定聲源與設備之間距離的聲源鎖定方法。
一種聲源鎖定方法,其包括以下步驟:
步驟一、語音采集模塊采集外部語音數據并發送給語音識別模塊;
步驟二 所述語音識別模塊將所述語音數據進行快速傅立葉變化后,得到頻譜集,;
步驟三 將所述頻譜集劃分成N個子帶頻譜;
步驟四 用主頻分離的方法將所述子帶頻譜進行頻率成分的搜索并歸類分組;
步驟五 對同一所述語音數據在所述語音采集模塊的左通道和右通道的相同頻率的所述子帶頻譜做互相關運算得到互相關函數;
步驟六 累加所述互相關函數獲取延遲時間并計算出聲源與設備之間的距離;
步驟七將所述頻譜集輸入所述語音識別模塊的語音識別引擎;
步驟八 所述語音識別引擎根據所述頻譜集內的頻譜特征采用DNN(深度神經網絡)算法在本地終端對所述頻譜集內的頻譜進行識別;
步驟九 所述語音識別模塊將步驟八的識別結果發送給設備控制電路;
步驟十 所述設備控制電路根據所述識別結果控制所述設備執行操作。
作為本發明的優選方案,所述語音識別模塊由語音處理電路和聲源鎖定電路組成,所述語音處理電路分析并處理所述語音采集模塊采集來的所述語音數據,所述聲源鎖定電路根據所述語音處理電路的處理結果鎖定聲源的位置。
作為本發明的優選方案,所述DNN算法包括有語音預處理、特征提取、形成發音字典及建立語音模型等四個過程,其中語音預處理過程包括對語音信號或語音數據的采樣、反混疊濾波、語音增強和端點檢測,特征提取過程的作用是從語音信號或語音數據的波形中提取一組能夠描述語音信號或語音數據特征的參數,以便訓練和識別,形成發音字典則是根據發音的音素,得到相應的文本集合即為發音字典,建立語音模型則是利用語法知識調整聲學模型所識別出的不合邏輯的詞語。
作為本發明的優選方案,所述互相關運算的運算式為,其中i為頻帶數,τ為延遲時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都啟英泰倫科技有限公司,未經成都啟英泰倫科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810153073.2/2.html,轉載請聲明來源鉆瓜專利網。





