[發明專利]一種基于soc芯片的語音喚醒方法在審

申請號：	201611003861.0	申請日：	2016-11-15
公開（公告）號：	CN106601229A	公開（公告）日：	2017-04-26
發明（設計）人：	陳曉鵬;殷瑞祥;徐向民;張偉彬;邢曉芬	申請（專利權）人：	華南理工大學
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/14;G10L19/26;G10L25/18;G10L25/24;G10L25/78
代理公司：	廣州市華學知識產權代理有限公司44245	代理人：	李斌
地址：	510640 廣***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 soc 芯片語音喚醒方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于soc芯片的語音喚醒方法，其特征在于，包括以下步驟：

S1、芯片采集語音數據，并對其進行采樣，將模擬信號轉換成數字信號；

S2、將數字信號的語音數據進行MFCC特征提?。?/p>

S3、對MFCC特征值進行語音活動檢測，判斷當前MFCC特征值的新一幀MFCC數據是否為語音幀，若否則返回步驟S2并釋放數據，若是則將MFCC特征值進入下一步驟處理；

S4、通過基于HMM模型的語音識別算法對MFCC特征值進行識別，若識別結果為有效指令，則喚醒控制設備；反之則返回步驟S2。

2.如權利要求1所述的一種基于soc芯片的語音喚醒方法，其特征在于，所述步驟S2中MFCC特征提取，其具體為：

1)、數字信號的預處理，包括預加重、分幀和加窗；

2)、對每一幀信號進行FFT變換，求頻譜，進而求得幅度譜|X_n(k)|；

3)、對幅度譜|X_n(k)|加Mel濾波器組W_l(k)，公式如下：

$<mrow><mi>m</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mi>o</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></mrow><mrow><mi>h</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></mrow></munderover><msub><mi>W</mi><mi>l</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>|</mo><msub><mi>X</mi><mi>n</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>|</mo><mo>,</mo><mi>l</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mn>...</mn><mo>,</mo><mn>26</mn></mrow>$

$<mrow><msub><mi>W</mi><mi>l</mi></msub><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mfrac><mrow><mi>k</mi><mo>-</mo><mi>o</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></mrow><mrow><mi>c</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow><mo>-</mo><mi>o</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo><mi>o</mi><mo>(</mo><mi>l</mi><mo>)</mo><mo>≤</mo><mi>k</mi><mo>≤</mo><mi>C</mi><mo>(</mo><mi>l</mi><mo>)</mo></mtd></mtr><mtr><mtd><mfrac><mrow><mi>h</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow><mo>-</mo><mi>k</mi></mrow><mrow><mi>h</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow><mo>-</mo><mi>c</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo><mi>c</mi><mo>(</mo><mi>l</mi><mo>)</mo><mo>≤</mo><mi>k</mi><mo>≤</mo><mi>h</mi><mo>(</mo><mi>l</mi><mo>)</mo></mtd></mtr></mtable></mfenced></mrow>$

其中k指FFT的第k個點；o(l)、c(l)、h(l)分別為第l個三角濾波器的下限頻率、中心頻率和上限頻率；

4)、對所有的濾波器輸出做對數運算，再進一步做離散余弦變換DCT得MFCC特征值，公式如下：

$<mrow><mi>c</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mfrac><mn>2</mn><mi>N</mi></mfrac></msqrt><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><mi>log</mi><mi> </mi><mi>m</mi><mrow><mo>(</mo><mi>l</mi><mo>)</mo></mrow><mi>c</mi><mi>o</mi><mi>s</mi><mo>{</mo><mrow><mrow><mo>(</mo><mrow><mi>l</mi><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac></mrow><mo>)</mo></mrow><mfrac><mrow><mi>i</mi><mi>π</mi></mrow><mi>L</mi></mfrac></mrow><mo>}</mo></mrow>$

其中N、L為26，指濾波器個數；i指MFCC系數階數，i取12，即為得到了12個倒譜特征；此外，再加上一幀的對數能量作為第13個特征參數，定義如下：

$<mrow><mi>c</mi><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow><mo>=</mo><mn>10</mn><mi>lg</mi><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mn>256</mn></munderover><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>n</mi></msub><mo>(</mo><mi>k</mi><mo>)</mo><mo>)</mo></mrow><mn>2</mn></msup></mrow>$

其中，X_n(k)為幅度，由此可得到13個特征參數，包括12個倒譜特征加1個對數能量；

5)、所求的13個標準的倒譜參數MFCC只反映了語音參數的靜態特性，語音的動態特性根據所述靜態特征的差分譜來描述；計算13個MFCC特征的一階差分dtm(i)和二階差分dtmm(i)：

$<mrow><mi>d</mi><mi>t</mi><mi>m</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>-</mo><mn>2</mn><mi>c</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>2</mn><mo>)</mo></mrow><mo>-</mo><mi>c</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><mi>c</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><mn>2</mn><mi>c</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mn>2</mn><mo>)</mo></mrow></mrow><mn>3</mn></mfrac></mrow>$

$<mrow><mi>d</mi><mi>t</mi><mi>m</mi><mi>m</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>-</mo><mn>2</mn><mi>d</mi><mi>t</mi><mi>m</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>2</mn><mo>)</mo></mrow><mo>-</mo><mi>d</mi><mi>t</mi><mi>m</mi><mrow><mo>(</mo><mi>i</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><mi>d</mi><mi>t</mi><mi>m</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>+</mo><mn>2</mn><mi>d</mi><mi>t</mi><mi>m</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mn>2</mn><mo>)</mo></mrow></mrow><mn>3</mn></mfrac></mrow>$

13個標準MFCC特征和它的13個一階差分、13個二階差分組成39維的MFCC特征參數，至此MFCC特征提取完畢。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于華南理工大學，未經華南理工大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611003861.0/1.html，轉載請聲明來源鉆瓜專利網。