[發(fā)明專利]基于transformer框架的多通道聲紋識(shí)別方法及裝置、設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202111682904.3 | 申請(qǐng)日: | 2021-12-31 |
| 公開(kāi)(公告)號(hào): | CN114446308A | 公開(kāi)(公告)日: | 2022-05-06 |
| 發(fā)明(設(shè)計(jì))人: | 潘文安;謝悅皎 | 申請(qǐng)(專利權(quán))人: | 香港中文大學(xué)(深圳) |
| 主分類號(hào): | G10L17/02 | 分類號(hào): | G10L17/02;G10L17/18;G10L17/04;G10L25/18;G10L25/45 |
| 代理公司: | 深圳市欣亞知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44621 | 代理人: | 葛勤;程光慧 |
| 地址: | 518000 廣東省深*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 transformer 框架 通道 聲紋 識(shí)別 方法 裝置 設(shè)備 | ||
1.一種基于transformer框架的多通道聲紋識(shí)別方法,其特征在于,所述方法包括:
將待識(shí)別的音頻信息進(jìn)行聲源分解,再通過(guò)短時(shí)傅里葉變換得到三通道頻譜圖Ⅰ;
對(duì)同一組所述三通道頻譜圖Ⅰ分別同時(shí)進(jìn)行轉(zhuǎn)置、填補(bǔ)或截?cái)啵玫絻山M三通道頻譜圖Ⅱ;
將所述兩組三通道頻譜圖Ⅱ輸入至改進(jìn)的LeViT神經(jīng)網(wǎng)絡(luò)模型中,并利用所述改進(jìn)的LeViT神經(jīng)網(wǎng)絡(luò)模型對(duì)所述音頻信息的聲紋進(jìn)行識(shí)別處理輸出所述音頻信息的聲紋識(shí)別信息,其中所述聲紋識(shí)別信息至少包括所述音頻信息對(duì)應(yīng)的說(shuō)話者。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述改進(jìn)的LeViT神經(jīng)網(wǎng)絡(luò)模型包括特征提取模型模塊、自注意力-多層感知機(jī)模塊和收縮自注意力模塊,所述將所述兩組三通道頻譜圖Ⅱ輸入至改進(jìn)的LeViT神經(jīng)網(wǎng)絡(luò)模型,并利用改進(jìn)的LeViT神經(jīng)網(wǎng)絡(luò)模型對(duì)所述音頻信息的聲紋進(jìn)行識(shí)別處理,具體包括:
通過(guò)所述特征提取模塊對(duì)所述兩組三通道頻譜圖Ⅱ進(jìn)行特征提取;
依次通過(guò)第一階段、第二階段、第三階段對(duì)進(jìn)行特征提取后的所述兩組三通道頻譜圖Ⅱ進(jìn)行處理;所述第一階段、第二階段依次包括所述自注意力-多層感知機(jī)模塊、收縮自注意力模塊以及多層感知機(jī)模塊,所述第三階段依次包括自注意力-多層感知機(jī)模塊以及平均池化層模塊。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)同一組所述三通道頻譜圖Ⅰ分別同時(shí)進(jìn)行轉(zhuǎn)置、填補(bǔ)或截?cái)啵玫絻山M三通道頻譜圖Ⅱ,還包括:
通過(guò)梅爾濾波器對(duì)所述三通道頻譜圖Ⅰ進(jìn)行過(guò)濾處理。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述自注意力模塊對(duì)所述三通道頻譜圖Ⅱ處理,具體包括:
對(duì)特征提取后的所述兩組三通道頻譜圖Ⅱ進(jìn)行線性變換,再計(jì)算第一自注意力;
對(duì)所述第一自注意力進(jìn)行轉(zhuǎn)置、維度變化并輸入激活函數(shù)中計(jì)算,再通過(guò)第一線性層得到第一張量維度。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對(duì)特征提取后的所述兩組三通道頻譜圖Ⅱ進(jìn)行線性變換,再計(jì)算第一自注意力具體包括:
對(duì)特征提取后的所述兩組三通道頻譜圖Ⅱ進(jìn)行線性變換,得到所述第一自注意力中的參數(shù),所述參數(shù)至少包括Q、K、V,其中Q為query查詢參數(shù),K為key相關(guān)性參數(shù),V為value被查詢參數(shù);
通過(guò)所述參數(shù)Q、K、V計(jì)算所述第一自注意力。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述收縮自注意力模塊對(duì)所述三通道頻譜圖Ⅱ處理,具體包括:
對(duì)通過(guò)所述自注意力-多層感知機(jī)模塊處理后的所述兩組三通道頻譜圖Ⅱ進(jìn)行采樣后,得到第二自注意力的參數(shù)Q、K、V;
將所述參數(shù)Q的長(zhǎng)寬減少一半,再計(jì)算所述第二自注意力;
對(duì)所述第二自注意力進(jìn)行轉(zhuǎn)置、維度變化并輸入激活函數(shù)中計(jì)算,再通過(guò)第二線性層得到第二張量維度。
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述依次通過(guò)第一階段、第二階段、第三階段對(duì)進(jìn)行特征提取后的所述兩組三通道頻譜圖Ⅱ進(jìn)行處理之后還包括:
將通過(guò)所述第三階段處理后的所述兩組三通道頻譜圖Ⅱ輸入至softmax分類器中,得到所述音頻信息對(duì)應(yīng)的說(shuō)話者。
8.一種基于transformer框架的多通道聲紋識(shí)別裝置,其特征在于,包括:
變換模塊:用于將待識(shí)別的音頻信息進(jìn)行聲源分解,再通過(guò)短時(shí)傅里葉變換得到三通道頻譜圖Ⅰ;
處理模塊:用于對(duì)同一組所述三通道頻譜圖Ⅰ分別同時(shí)進(jìn)行轉(zhuǎn)置、填補(bǔ)或截?cái)啵玫絻山M三通道頻譜圖Ⅱ;
識(shí)別模塊:用于將所述兩組三通道頻譜圖Ⅱ輸入至改進(jìn)的LeViT神經(jīng)網(wǎng)絡(luò)模型中,并利用所述改進(jìn)的LeViT神經(jīng)網(wǎng)絡(luò)模型對(duì)所述音頻信息的聲紋進(jìn)行識(shí)別處理輸出所述音頻信息的聲紋識(shí)別信息,其中所述聲紋識(shí)別信息至少包括所述音頻信息對(duì)應(yīng)的說(shuō)話者。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于香港中文大學(xué)(深圳),未經(jīng)香港中文大學(xué)(深圳)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111682904.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡(luò)模型的商品銷量預(yù)測(cè)方法及裝置
- 一種基于Transformer模型自然場(chǎng)景文字識(shí)別方法
- 一種深度Transformer級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法
- 點(diǎn)云分割方法、系統(tǒng)、介質(zhì)、計(jì)算機(jī)設(shè)備、終端及應(yīng)用
- 基于Transformer的中文智能對(duì)話方法
- 一種基于改進(jìn)Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機(jī)器翻譯模型優(yōu)化方法
- 基于Transformer和增強(qiáng)交互型MPNN神經(jīng)網(wǎng)絡(luò)的小分子表示學(xué)習(xí)方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測(cè)方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空?qǐng)D像中的飛機(jī)檢測(cè)方法





