[發明專利]一種基于soc芯片的語音喚醒方法在審
| 申請號: | 201611003861.0 | 申請日: | 2016-11-15 |
| 公開(公告)號: | CN106601229A | 公開(公告)日: | 2017-04-26 |
| 發明(設計)人: | 陳曉鵬;殷瑞祥;徐向民;張偉彬;邢曉芬 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/14;G10L19/26;G10L25/18;G10L25/24;G10L25/78 |
| 代理公司: | 廣州市華學知識產權代理有限公司44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 soc 芯片 語音 喚醒 方法 | ||
1.一種基于soc芯片的語音喚醒方法,其特征在于,包括以下步驟:
S1、芯片采集語音數據,并對其進行采樣,將模擬信號轉換成數字信號;
S2、將數字信號的語音數據進行MFCC特征提?。?/p>
S3、對MFCC特征值進行語音活動檢測,判斷當前MFCC特征值的新一幀MFCC數據是否為語音幀,若否則返回步驟S2并釋放數據,若是則將MFCC特征值進入下一步驟處理;
S4、通過基于HMM模型的語音識別算法對MFCC特征值進行識別,若識別結果為有效指令,則喚醒控制設備;反之則返回步驟S2。
2.如權利要求1所述的一種基于soc芯片的語音喚醒方法,其特征在于,所述步驟S2中MFCC特征提取,其具體為:
1)、數字信號的預處理,包括預加重、分幀和加窗;
2)、對每一幀信號進行FFT變換,求頻譜,進而求得幅度譜|Xn(k)|;
3)、對幅度譜|Xn(k)|加Mel濾波器組Wl(k),公式如下:
其中k指FFT的第k個點;o(l)、c(l)、h(l)分別為第l個三角濾波器的下限頻率、中心頻率和上限頻率;
4)、對所有的濾波器輸出做對數運算,再進一步做離散余弦變換DCT得MFCC特征值,公式如下:
其中N、L為26,指濾波器個數;i指MFCC系數階數,i取12,即為得到了12個倒譜特征;此外,再加上一幀的對數能量作為第13個特征參數,定義如下:
其中,Xn(k)為幅度,由此可得到13個特征參數,包括12個倒譜特征加1個對數能量;
5)、所求的13個標準的倒譜參數MFCC只反映了語音參數的靜態特性,語音的動態特性根據所述靜態特征的差分譜來描述;計算13個MFCC特征的一階差分dtm(i)和二階差分dtmm(i):
13個標準MFCC特征和它的13個一階差分、13個二階差分組成39維的MFCC特征參數,至此MFCC特征提取完畢。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611003861.0/1.html,轉載請聲明來源鉆瓜專利網。





