[發(fā)明專利]語(yǔ)音識(shí)別任務(wù)中的保持注意力機(jī)制單調(diào)性方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110250627.2 | 申請(qǐng)日: | 2021-03-08 |
| 公開(kāi)(公告)號(hào): | CN112992129B | 公開(kāi)(公告)日: | 2022-09-30 |
| 發(fā)明(設(shè)計(jì))人: | 楊周旺;杜葉倩;王昊 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)技術(shù)大學(xué) |
| 主分類號(hào): | G10L15/06 | 分類號(hào): | G10L15/06;G10L15/16;G10L15/26;G06N3/08 |
| 代理公司: | 北京凱特來(lái)知識(shí)產(chǎn)權(quán)代理有限公司 11260 | 代理人: | 鄭立明;鄭哲 |
| 地址: | 230026 安*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)音 識(shí)別 任務(wù) 中的 保持 注意力 機(jī)制 調(diào)性 方法 | ||
1.一種語(yǔ)音識(shí)別任務(wù)中的保持注意力機(jī)制單調(diào)性方法,其特征在于,包括:
通過(guò)神經(jīng)網(wǎng)絡(luò)模塊,學(xué)習(xí)能夠擬合注意力機(jī)制權(quán)重分布的高斯分布的參數(shù),并進(jìn)行數(shù)值計(jì)算,使之符合設(shè)定要求;
將數(shù)值計(jì)算得到的參數(shù)值與注意力機(jī)制權(quán)重矩陣之間的均方誤差作為單調(diào)性損失,并將所述單調(diào)性損失作為原本優(yōu)化目標(biāo)的正則項(xiàng),得到最終的優(yōu)化目標(biāo);
基于所述最終的優(yōu)化目標(biāo)對(duì)語(yǔ)音識(shí)別框架進(jìn)行訓(xùn)練;
其中,通過(guò)神經(jīng)網(wǎng)絡(luò)模塊,得到高斯分布的參數(shù),即均值μ和方差σ的初步數(shù)值,在進(jìn)行數(shù)值計(jì)算時(shí),對(duì)均值μ的初步數(shù)值進(jìn)行截?cái)嗍怪秦?fù),再做放縮使得求和等于語(yǔ)音序列長(zhǎng)度,計(jì)算結(jié)果記為Δ;對(duì)方差σ進(jìn)行截?cái)嗍怪谠O(shè)定范圍內(nèi),計(jì)算結(jié)果記為∑;計(jì)算過(guò)程表示為:
Δ,∑=Cal(μ)(QWμ),Cal(σ)(QWσ)
其中,Wμ、Wσ各自表示神經(jīng)網(wǎng)絡(luò)模塊中對(duì)于均值μ、方差σ的映射權(quán)重,Q為注意力機(jī)制中的Query;令QWμ,QWσ=X,則Cal(μ)(X)、Cal(σ)(X)的計(jì)算公式為:
Cal(σ)(X)=clamp(X,σmin,σmax)
上式中,Xi為QWμ的第i行,inf表示無(wú)窮大,J表示語(yǔ)音識(shí)別框架中編碼器的序列長(zhǎng)度,clamp(.)為區(qū)間限定函數(shù),將括號(hào)中的三個(gè)數(shù)值對(duì)應(yīng)的表示為(x,xmin,xmax),如果輸入為矩陣則為每一個(gè)元素進(jìn)行計(jì)算,表示為:
2.根據(jù)權(quán)利要求1所述的一種語(yǔ)音識(shí)別任務(wù)中的保持注意力機(jī)制單調(diào)性方法,其特征在于,所述通過(guò)神經(jīng)網(wǎng)絡(luò)模塊,學(xué)習(xí)能夠擬合注意力機(jī)制權(quán)重分布的高斯分布的參數(shù)包括:
所述語(yǔ)音識(shí)別框架為包含注意力機(jī)制的編解碼框架,連接編碼器和解碼器的注意力機(jī)制的三個(gè)輸入Query、Key、Value分別來(lái)自解碼器、編碼器、編碼器;
神經(jīng)網(wǎng)絡(luò)模塊的輸入為Query,通過(guò)神經(jīng)網(wǎng)絡(luò)模塊的映射操作,得到高斯分布的參數(shù)均值μ和方差σ的初步數(shù)值;其中,均值μ的映射權(quán)重Wμ與方差σ映射權(quán)重Wσ不共享。
3.根據(jù)權(quán)利要求1或2所述的一種語(yǔ)音識(shí)別任務(wù)中的保持注意力機(jī)制單調(diào)性方法,其特征在于,計(jì)算參數(shù)值與注意力機(jī)制權(quán)重之間的均方誤差的過(guò)程包括:
高斯分布的參數(shù)包含了均值μ和方差σ的初步數(shù)值,數(shù)值計(jì)算結(jié)果對(duì)應(yīng)記為Δ,∑,由Δ與∑對(duì)應(yīng)的計(jì)算每個(gè)位置高斯分布參數(shù)的均值μi與σi,從而計(jì)算每個(gè)位置上的數(shù)值然后,與注意力機(jī)制權(quán)重矩陣a相減,計(jì)算均方誤差,計(jì)算過(guò)程表示為:
μi,σi=μi-1+Δi,∑i
其中,i,j為位置索引,I、J分別表示語(yǔ)音識(shí)別框架中解碼器、編碼器的信息序列長(zhǎng)度,表示均方誤差。
4.根據(jù)權(quán)利要求1或2所述的一種語(yǔ)音識(shí)別任務(wù)中的保持注意力機(jī)制單調(diào)性方法,其特征在于,所述將所述單調(diào)性損失作為原本優(yōu)化目標(biāo)的正則項(xiàng),得到最終的優(yōu)化目標(biāo)包括:
對(duì)于包含注意力機(jī)制的編解碼框架,對(duì)解碼器部分的N個(gè)layer和每個(gè)layer的H個(gè)head的單調(diào)性損失取平均,表示為:
將lossmono作為原本優(yōu)化目標(biāo)lossCE的正則項(xiàng),得到最終的優(yōu)化目標(biāo)loss:
loss=lossCE+λ*lossmono
其中,λ為正則項(xiàng)系數(shù),n=1,...,N,h=1,...,H,表示對(duì)第n個(gè)layer、第h個(gè)head的注意力機(jī)制計(jì)算出的單調(diào)性損失。
5.根據(jù)權(quán)利要求1或2所述的一種語(yǔ)音識(shí)別任務(wù)中的保持注意力機(jī)制單調(diào)性方法,其特征在于,預(yù)先收集語(yǔ)音數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),并基于所述最終的優(yōu)化目標(biāo)對(duì)語(yǔ)音識(shí)別框架進(jìn)行訓(xùn)練;對(duì)于訓(xùn)練后的語(yǔ)音識(shí)別框架,使用新的語(yǔ)音數(shù)據(jù)樣本進(jìn)行測(cè)試,獲得語(yǔ)音識(shí)別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)技術(shù)大學(xué),未經(jīng)中國(guó)科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110250627.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價(jià)值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種自動(dòng)分配和推送的任務(wù)管理平臺(tái)及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲(chǔ)介質(zhì)
- 基于會(huì)話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)





