[發(fā)明專利]基于增強(qiáng)脈沖的聲音識(shí)別方法在審

申請(qǐng)?zhí)枺?/td>	202010161164.8	申請(qǐng)日：	2020-03-10
公開（公告）號(hào)：	CN111681648A	公開（公告）日：	2020-09-18
發(fā)明（設(shè)計(jì)）人：	于強(qiáng);宋世明	申請(qǐng)（專利權(quán)）人：	天津大學(xué)
主分類號(hào)：	G10L15/16	分類號(hào)：	G10L15/16;G10L15/20;G10L19/00
代理公司：	天津市北洋有限責(zé)任專利代理事務(wù)所 12201	代理人：	程小艷
地址：	300072***	國(guó)省代碼：	天津;12
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于增強(qiáng) 脈沖聲音識(shí)別方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.基于增強(qiáng)脈沖的聲音識(shí)別方法，其特征在于，首先提出增強(qiáng)脈沖的新概念；之后，提出了兩種新的學(xué)習(xí)算法來(lái)處理增強(qiáng)脈沖；最后，結(jié)合稀疏關(guān)鍵點(diǎn)編碼方法，聲音被編碼成為稀疏的時(shí)空脈沖圖。

2.根據(jù)權(quán)利要求1所述的基于增強(qiáng)脈沖的聲音識(shí)別方法，其特征在于，所述增強(qiáng)神經(jīng)元模型如下：

增強(qiáng)脈沖使用了脈沖迸發(fā)數(shù)目來(lái)表示其他信息，我們將該數(shù)量抽象為脈沖系數(shù)，神經(jīng)元模型需要將脈沖系數(shù)納入其動(dòng)力學(xué)等式中，每個(gè)輸入脈沖對(duì)神經(jīng)元膜電位V(t)的影響不僅僅由突觸權(quán)重控制，影響的幅度還由脈沖系數(shù)控制；

其中，是到達(dá)第i個(gè)突觸的第j個(gè)脈沖的時(shí)間,表示相應(yīng)的脈沖系數(shù)，代表當(dāng)前神經(jīng)元第j個(gè)輸出脈沖的時(shí)間；

N和w_i表示突觸前神經(jīng)元的數(shù)目和相對(duì)應(yīng)的突觸權(quán)重，θ表示神經(jīng)元的閾值；K(t)是一個(gè)核函數(shù)，定義為：

V₀是一個(gè)常數(shù)因子，用來(lái)對(duì)K(t)進(jìn)行歸一化；τ_m表示膜電位的時(shí)間常數(shù)，τ_s表示突觸電流的時(shí)間常數(shù)。

3.根據(jù)權(quán)利要求1所述的基于增強(qiáng)脈沖的聲音識(shí)別方法，其特征在于，

1)AugTempotron學(xué)習(xí)算法

增強(qiáng)學(xué)習(xí)算法，即增強(qiáng)的Tmp(AugTmp)，來(lái)學(xué)習(xí)和處理增強(qiáng)脈沖；在學(xué)習(xí)和訓(xùn)練中，AugTmp訓(xùn)練神經(jīng)元對(duì)目標(biāo)類別(A)發(fā)射一個(gè)脈沖，同時(shí)對(duì)其他類別(B)保持沉默；當(dāng)錯(cuò)誤發(fā)生時(shí)，它將修改突觸權(quán)重；

其中，η為學(xué)習(xí)速率，t_max表示神經(jīng)元膜電位達(dá)到其最大值的時(shí)刻點(diǎn)；

或

2)AugTDP學(xué)習(xí)算法

選擇TDP多脈沖方法來(lái)開發(fā)新的增強(qiáng)多脈沖學(xué)習(xí)算法(AugTDP)，AugTDP學(xué)習(xí)算法是基于脈沖閾值表層Spike Threshold Surface(STS)函數(shù)被開發(fā)的，STS定義了一系列使輸出脈沖的數(shù)量從k變?yōu)閗-1的臨界閾值，參照TDP中的步驟，給定一個(gè)臨界閾值θ^*，其相對(duì)于權(quán)重w_i的導(dǎo)數(shù)可以表示為：

其中t_s^j＜t^*,j∈{1,2....,m}；t^*代表的膜電位等于θ^*時(shí)的臨界時(shí)間；m是t^*之前的輸出脈沖總數(shù)；使用t_m表示{t_s¹,t_s²....,t_s^m,t^*}；上式中各個(gè)部分的求解公式如下所示：

由此，我們可以得到梯度AugTDP對(duì)神經(jīng)元權(quán)重的更新規(guī)則如下：

其中n_o表示神經(jīng)元實(shí)際的脈沖輸出個(gè)數(shù)，n_d表示目標(biāo)個(gè)數(shù)。

4.根據(jù)權(quán)利要求1所述的基于增強(qiáng)脈沖的聲音識(shí)別方法，其特征在于，所述關(guān)鍵點(diǎn)編碼算法是將聲音轉(zhuǎn)換成脈沖模式圖：

關(guān)鍵點(diǎn)編碼算法首先對(duì)聲音信號(hào)進(jìn)行分幀、加窗、短時(shí)傅里葉變換、歸一化處理，從而得到歸一化的能量語(yǔ)譜圖S(t,f)；

之后通過log(S(t,i)+∈)-log(∈)(∈表示精度控制值)計(jì)算對(duì)數(shù)能量語(yǔ)譜圖，最后將對(duì)數(shù)能量語(yǔ)譜圖進(jìn)行歸一化；進(jìn)而，對(duì)預(yù)處理得到的語(yǔ)譜圖S(t,i)的局部時(shí)域和頻域分別提取關(guān)鍵點(diǎn)，關(guān)鍵點(diǎn)通過以下式表示：

其中，d_t和d_f分別表示時(shí)域的局域區(qū)域大小和頻域的局部區(qū)域大小。

5.根據(jù)權(quán)利要求4所述的基于增強(qiáng)脈沖的聲音識(shí)別方法，其特征在于，關(guān)鍵點(diǎn)編碼方法使用兩種掩碼機(jī)制：

1)基于相對(duì)值的掩碼機(jī)制：如果關(guān)鍵點(diǎn)的能量值小于對(duì)應(yīng)局部區(qū)域的平均能量值，則此關(guān)鍵點(diǎn)被刪除；

2)基于絕對(duì)值的掩碼機(jī)制：如果關(guān)鍵點(diǎn)的能量值小于固定的能量值，則該關(guān)鍵點(diǎn)被視為不重要的信息被刪除。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué)，未經(jīng)天津大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010161164.8/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取；識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)，例如對(duì)說(shuō)話者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】