[發(fā)明專利]一種基于soc芯片的語(yǔ)音喚醒方法在審
| 申請(qǐng)?zhí)枺?/td> | 201611003861.0 | 申請(qǐng)日: | 2016-11-15 |
| 公開(公告)號(hào): | CN106601229A | 公開(公告)日: | 2017-04-26 |
| 發(fā)明(設(shè)計(jì))人: | 陳曉鵬;殷瑞祥;徐向民;張偉彬;邢曉芬 | 申請(qǐng)(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號(hào): | G10L15/02 | 分類號(hào): | G10L15/02;G10L15/14;G10L19/26;G10L25/18;G10L25/24;G10L25/78 |
| 代理公司: | 廣州市華學(xué)知識(shí)產(chǎn)權(quán)代理有限公司44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 soc 芯片 語(yǔ)音 喚醒 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種基于soc芯片的語(yǔ)音喚醒方法。
背景技術(shù)
隨著時(shí)代的發(fā)展,越來(lái)越多的電子設(shè)備進(jìn)入人們的日常生活中,人們?cè)谙硎茈娮釉O(shè)備帶來(lái)便利的同時(shí),希望電子設(shè)備能更加智能,實(shí)現(xiàn)無(wú)觸控的交互方式。
語(yǔ)音喚醒,即用戶說(shuō)出設(shè)定的語(yǔ)音指令,讓處于休眠狀態(tài)下的設(shè)備直接進(jìn)入到等待指令狀態(tài)。通過(guò)該技術(shù),任何人在任何環(huán)境、任何時(shí)間對(duì)設(shè)備直接說(shuō)出預(yù)設(shè)的喚醒詞,就能激活設(shè)備,從而實(shí)現(xiàn)低功耗和無(wú)觸控的交互。
然而目前出現(xiàn)的語(yǔ)音喚醒技術(shù)大部分是基于計(jì)算機(jī)和手機(jī)終端實(shí)現(xiàn)的,需要強(qiáng)大的處理器進(jìn)行支撐,不適合用于工業(yè)應(yīng)用。而基于mcu實(shí)現(xiàn)的語(yǔ)音喚醒技術(shù)雖然成本低廉,但是由于處理器性能的限制無(wú)法達(dá)到理想的效果。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,提供一種基于soc芯片的語(yǔ)音喚醒方法,通過(guò)采用魯棒性高的算法實(shí)現(xiàn)的實(shí)時(shí)系統(tǒng)具有較高的識(shí)別率,達(dá)到低功耗和高性能的要求。
為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種基于soc芯片的語(yǔ)音喚醒方法,包括以下步驟:
S1、芯片采集語(yǔ)音數(shù)據(jù),并對(duì)其進(jìn)行采樣,將模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào);
S2、將數(shù)字信號(hào)的語(yǔ)音數(shù)據(jù)進(jìn)行MFCC特征提?。?/p>
S3、對(duì)MFCC特征值進(jìn)行語(yǔ)音活動(dòng)檢測(cè),判斷當(dāng)前MFCC特征值的新一幀MFCC數(shù)據(jù)是否為語(yǔ)音幀,若否則返回步驟S2并釋放數(shù)據(jù),若是則將MFCC特征值進(jìn)入下一步驟處理;
S4、通過(guò)基于HMM模型的語(yǔ)音識(shí)別算法對(duì)MFCC特征值進(jìn)行識(shí)別,若識(shí)別結(jié)果為有效指令,則喚醒控制設(shè)備;反之則返回步驟S2。
進(jìn)一步地,所述步驟S2中MFCC特征提取,其具體為:
1)、數(shù)字信號(hào)的預(yù)處理,包括預(yù)加重、分幀和加窗;
2)、對(duì)每一幀信號(hào)進(jìn)行FFT變換,求頻譜,進(jìn)而求得幅度譜|Xn(k)|;
3)、對(duì)幅度譜|Xn(k)|加Mel濾波器組Wl(k),公式如下:
其中k指FFT的第k個(gè)點(diǎn);o(l)、c(l)、h(l)分別為第l個(gè)三角濾波器的下限頻率、中心頻率和上限頻率;
4)、對(duì)所有的濾波器輸出做對(duì)數(shù)運(yùn)算,再進(jìn)一步做離散余弦變換DCT得MFCC特征值,公式如下:
其中N、L為26,指濾波器個(gè)數(shù);i指MFCC系數(shù)階數(shù),i取12,即為得到了12個(gè)倒譜特征;此外,再加上一幀的對(duì)數(shù)能量作為第13個(gè)特征參數(shù),定義如下:
其中,Xn(k)為幅度,由此可得到13個(gè)特征參數(shù),包括12個(gè)倒譜特征加1個(gè)對(duì)數(shù)能量;
5)、所求的13個(gè)標(biāo)準(zhǔn)的倒譜參數(shù)MFCC只反映了語(yǔ)音參數(shù)的靜態(tài)特性,語(yǔ)音的動(dòng)態(tài)特性根據(jù)所述靜態(tài)特征的差分譜來(lái)描述;計(jì)算13個(gè)MFCC特征的一階差分dtm(i)和二階差分dtmm(i):
13個(gè)標(biāo)準(zhǔn)MFCC特征和它的13個(gè)一階差分、13個(gè)二階差分組成39維的MFCC特征參數(shù),至此MFCC特征提取完畢。
進(jìn)一步地,所述步驟S3中對(duì)特征值進(jìn)行語(yǔ)音活動(dòng)檢測(cè),采用基于GMM模型的語(yǔ)音活動(dòng)檢測(cè)方法,其假設(shè)語(yǔ)音和背景噪音在特定的特征空間中符合高斯混合分布,在特征空間中分別構(gòu)建靜音模型、非靜音模型;接著對(duì)MFCC特征的新一幀MFCC數(shù)據(jù)進(jìn)行計(jì)算,分別算出靜音模型的似然值P1、非靜音模型的似然值P2;比較似然值P1、似然值P2的大小,若P1大于P2則當(dāng)前MFCC數(shù)據(jù)幀為語(yǔ)音幀,否則靜音幀。
進(jìn)一步地,若所述當(dāng)前MFCC數(shù)據(jù)幀被判斷為語(yǔ)音幀后,判斷下一幀MFCC數(shù)據(jù)幀時(shí),似然值P1和似然值P2分別乘以對(duì)應(yīng)的轉(zhuǎn)移概率,比較兩個(gè)乘積結(jié)果,若似然值P1的乘積結(jié)果大于似然值P2的乘積結(jié)果,則當(dāng)前MFCC數(shù)據(jù)幀為語(yǔ)音幀,否則為靜音幀;
若所述當(dāng)前MFCC數(shù)據(jù)幀被判斷為靜音幀后,判斷下一幀MFCC數(shù)據(jù)幀時(shí),似然值P1和似然值P2分別乘以對(duì)應(yīng)的轉(zhuǎn)移概率,比較兩個(gè)乘積結(jié)果,若似然值P1的乘積結(jié)果大于似然值P2的乘積結(jié)果,則當(dāng)前MFCC數(shù)據(jù)幀為語(yǔ)音幀,否則為靜音幀;
所述對(duì)應(yīng)的轉(zhuǎn)移概率為預(yù)先設(shè)置好的模型數(shù)據(jù)。
進(jìn)一步地,所述靜音模型的似然值P1、非靜音模型的似然值P2的計(jì)算方法,具體為:
其中靜音模型、非靜音模型均由13個(gè)39維高斯模型構(gòu)成;一個(gè)M階高斯模型的概率密度函數(shù)是由M個(gè)高斯概率密度函數(shù)加權(quán)求和得到的,如下式3.1:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611003861.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)





