[發(fā)明專利]連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202210347366.0 | 申請(qǐng)日: | 2022-04-01 |
| 公開(公告)號(hào): | CN114664303A | 公開(公告)日: | 2022-06-24 |
| 發(fā)明(設(shè)計(jì))人: | 陳芒 | 申請(qǐng)(專利權(quán))人: | 深圳市輕生活科技有限公司 |
| 主分類號(hào): | G10L15/22 | 分類號(hào): | G10L15/22;G10L15/16;G10L15/06;G10L21/0208;G10L25/78 |
| 代理公司: | 北京冠和權(quán)律師事務(wù)所 11399 | 代理人: | 趙銀萍 |
| 地址: | 518000 廣東省深圳市福田區(qū)福田*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 連續(xù) 語(yǔ)音 指令 快速 識(shí)別 控制系統(tǒng) | ||
1.一種連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng),其特征在于,包括:輸入模塊、預(yù)處理模塊、在線語(yǔ)音識(shí)別處理模塊、離線語(yǔ)音識(shí)別處理模塊和輸出模塊;
所述輸入模塊與所述預(yù)處理模塊連接,用于通過MIC輸入用戶控制語(yǔ)音;
所述預(yù)處理模塊的另一端分別與所述在線語(yǔ)音識(shí)別處理模塊、離線語(yǔ)音識(shí)別處理模塊連接,用于對(duì)所述用戶控制語(yǔ)音進(jìn)行音頻預(yù)處理,得到預(yù)處理后的語(yǔ)音;
所述在線語(yǔ)音識(shí)別處理模塊,用于通過云端平臺(tái)對(duì)預(yù)處理后的語(yǔ)音進(jìn)行語(yǔ)音識(shí)別得到語(yǔ)音輸出信息;
所述離線語(yǔ)音識(shí)別處理模塊,用于通過神經(jīng)網(wǎng)絡(luò)RNN模型對(duì)預(yù)處理后的語(yǔ)音進(jìn)行語(yǔ)音識(shí)別得到語(yǔ)音輸出信息;
所述輸出模塊,用于將所述在線語(yǔ)音識(shí)別處理模塊或所述離線語(yǔ)音識(shí)別處理模塊得到的語(yǔ)音輸出信息輸出。
2.根據(jù)權(quán)利要求1所述的連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng),其特征在于,所述連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng)還包括:?jiǎn)拘涯K;當(dāng)所述連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng)在預(yù)設(shè)時(shí)間內(nèi)未收到用戶控制語(yǔ)音時(shí),所述連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng)進(jìn)入休眠狀態(tài),當(dāng)再次使用所述連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng)時(shí),通過所述喚醒模塊,利用特定喚醒詞將處于休眠狀態(tài)的連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng)喚醒進(jìn)入待命狀態(tài)。
3.根據(jù)權(quán)利要求1所述的連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng),其特征在于,所述MIC采用線性雙麥克風(fēng)陣列,所述預(yù)處理模塊在對(duì)所述用戶控制語(yǔ)音進(jìn)行音頻預(yù)處理時(shí)包括:
通過AD芯片對(duì)所述MIC輸入的用戶控制語(yǔ)音進(jìn)行采集,獲得所述用戶控制語(yǔ)音;
對(duì)所述用戶控制語(yǔ)音進(jìn)行分幀處理,將所述用戶控制語(yǔ)音按幀劃分,獲得多個(gè)用戶控制語(yǔ)音幀;
在所述用戶控制語(yǔ)音幀中查找靜音信號(hào)語(yǔ)音幀,并在所述用戶控制語(yǔ)音幀中將所述靜音信號(hào)語(yǔ)音幀去除,得到第一處理后的用戶控制語(yǔ)音;其中,在所述用戶控制語(yǔ)音幀中查找靜音信號(hào)語(yǔ)音幀是通過聲音識(shí)別模型進(jìn)行識(shí)別匹配得到的,所述聲音識(shí)別模型是根據(jù)靜音信號(hào)生成的聲學(xué)模型,在通過聲音識(shí)別模型進(jìn)行識(shí)別匹配時(shí),提取所述用戶控制語(yǔ)音幀語(yǔ)音特征,并將所述語(yǔ)音特征在所述聲音識(shí)別模型中進(jìn)行匹配,獲得所述語(yǔ)音特征的匹配值,再針對(duì)所述語(yǔ)音特征的匹配值進(jìn)行判斷,將所述語(yǔ)音特征的匹配值大于預(yù)設(shè)閾值的用戶控制語(yǔ)音幀判斷為靜音信號(hào)語(yǔ)音幀;
針對(duì)所述第一處理后的用戶控制語(yǔ)音進(jìn)行自身聲音消除處理,包括:將所述第一處理后的用戶控制語(yǔ)音通過功放由喇叭進(jìn)行播放,同時(shí)所述MIC進(jìn)行聲音采集,并將采集到的聲音傳輸至所述AD芯片,再通過回聲消除算法得到預(yù)處理后的語(yǔ)音。
4.根據(jù)權(quán)利要求1所述的連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng),其特征在于,所述在線語(yǔ)音識(shí)別處理模塊在通過云端平臺(tái)對(duì)預(yù)處理后的語(yǔ)音進(jìn)行語(yǔ)音識(shí)別得到語(yǔ)音輸出信息時(shí),通過TPC/IP協(xié)議獲取所述預(yù)處理后的語(yǔ)音;針對(duì)所述預(yù)處理后的語(yǔ)音進(jìn)行自然語(yǔ)言處理識(shí)別出用戶的意圖;針對(duì)所述用戶的意圖進(jìn)行意圖識(shí)別,確定所述用戶的意圖的合理性;當(dāng)所述用戶的意圖合理時(shí),根據(jù)所述用戶的意圖進(jìn)行資源訪問,獲得目標(biāo)資源,并將所述目標(biāo)資源傳輸至所述中央處理單元,所述中央處理單元針對(duì)所述目標(biāo)資源進(jìn)行交互信息輸出,得到語(yǔ)音輸出信息。
5.根據(jù)權(quán)利要求1所述的連續(xù)語(yǔ)音指令快速識(shí)別控制系統(tǒng),其特征在于,所述離線語(yǔ)音識(shí)別處理模塊在通過神經(jīng)網(wǎng)絡(luò)RNN模型對(duì)預(yù)處理后的語(yǔ)音進(jìn)行語(yǔ)音識(shí)別得到語(yǔ)音輸出信息時(shí),針對(duì)所述預(yù)處理后的語(yǔ)音進(jìn)行特征提取,獲得預(yù)處理后的語(yǔ)音特征,然后根據(jù)所述預(yù)處理后的語(yǔ)音特征進(jìn)行模型訓(xùn)練和模型識(shí)別,所述模型訓(xùn)練包括:根據(jù)所述語(yǔ)音特征以及調(diào)整模型參數(shù)對(duì)音頻進(jìn)行模型建立,得到初始狀態(tài)下的神經(jīng)網(wǎng)絡(luò)RNN模型,對(duì)所述初始狀態(tài)下的神經(jīng)網(wǎng)絡(luò)RNN模型進(jìn)行模型訓(xùn)練,得到優(yōu)化神經(jīng)網(wǎng)絡(luò)RNN模型模板,并將所述優(yōu)化神經(jīng)網(wǎng)絡(luò)RNN模型模板保存到模型存儲(chǔ)單元中;所述模型識(shí)別包括:根據(jù)所述語(yǔ)音特征在所模型存儲(chǔ)單元中進(jìn)行模型匹配,得到優(yōu)化神經(jīng)網(wǎng)絡(luò)RNN模型,并根據(jù)失真判決準(zhǔn)則進(jìn)行識(shí)別判斷,得到語(yǔ)音輸出信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市輕生活科技有限公司,未經(jīng)深圳市輕生活科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210347366.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)





