[發(fā)明專(zhuān)利]基于多任務(wù)自注意力機(jī)制的語(yǔ)言學(xué)習(xí)者聲紋識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110197641.0 | 申請(qǐng)日: | 2021-02-22 |
| 公開(kāi)(公告)號(hào): | CN112908341B | 公開(kāi)(公告)日: | 2023-01-03 |
| 發(fā)明(設(shè)計(jì))人: | 王興梅;王涵;汪進(jìn)利;趙中華 | 申請(qǐng)(專(zhuān)利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類(lèi)號(hào): | G10L17/02 | 分類(lèi)號(hào): | G10L17/02;G10L17/04;G10L17/06;G10L17/18;G10L25/24 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 任務(wù) 注意力 機(jī)制 語(yǔ)言 學(xué)習(xí)者 聲紋 識(shí)別 方法 | ||
本發(fā)明提供的是一種基于多任務(wù)自注意力機(jī)制的語(yǔ)言學(xué)習(xí)者聲紋識(shí)別方法。包括如下步驟:(1)對(duì)原始語(yǔ)音信號(hào)進(jìn)行預(yù)處理;(2)提出構(gòu)建多任務(wù)自注意力網(wǎng)絡(luò)(Multi?Task Self?Attention Network,MT?SANet)模型;(3)提出從新的角度將學(xué)習(xí)語(yǔ)言過(guò)程中的不同學(xué)習(xí)階段納入輔助任務(wù);(4)完成基于多任務(wù)自注意力機(jī)制的語(yǔ)言學(xué)習(xí)者聲紋識(shí)別。本發(fā)明為了取得更好的語(yǔ)言學(xué)習(xí)者的聲紋識(shí)別效果,提出一種基于多任務(wù)自注意力機(jī)制的語(yǔ)言學(xué)習(xí)者聲紋識(shí)別方法。本發(fā)明提出的基于多任務(wù)自注意力機(jī)制的語(yǔ)言學(xué)習(xí)者聲紋識(shí)別方法,能更好的提高聲紋識(shí)別的正確率和泛化能力,具有一定的有效性。
技術(shù)領(lǐng)域
本發(fā)明涉及的是聲紋識(shí)別技術(shù)領(lǐng)域。聲紋識(shí)別分為說(shuō)話人辨認(rèn)和說(shuō)話人驗(yàn)證,本發(fā)明主要研究說(shuō)話人辨認(rèn),具體來(lái)說(shuō)是一種針對(duì)語(yǔ)言學(xué)習(xí)者的多任務(wù)說(shuō)話人辨認(rèn)方法。
背景技術(shù)
語(yǔ)音作為語(yǔ)言的聲音表現(xiàn)形式,不僅包含了語(yǔ)言語(yǔ)義信息,同時(shí)也傳達(dá)了說(shuō)話人語(yǔ)種、性別、年齡、情感、生理、心理等多種豐富的副語(yǔ)言語(yǔ)音屬性信息。聲紋識(shí)別作為生物識(shí)別的一種,是根據(jù)說(shuō)話人的聲波特性進(jìn)行身份辨識(shí),由于聲紋作為一種行為特征,具有唯一性和獨(dú)特性,以及在安全性、成本、便捷性等方面的應(yīng)用優(yōu)勢(shì),使得聲紋識(shí)別被廣泛應(yīng)用于金融安全、國(guó)防安全、智能家居等領(lǐng)域。近年來(lái),國(guó)內(nèi)外學(xué)者對(duì)聲紋識(shí)別進(jìn)行了深入的分析研究,其中在已有的文獻(xiàn)中最著名和效果最好的聲紋識(shí)別方法主要包括:1.基于概率線性鑒別分析模型的文本無(wú)關(guān)聲紋識(shí)別:2017年Khosravani A,Homayounpour M.A PLDAapproach for language and text independent speaker recognition.ComputerSpeechLanguage,2017,45(5):457-474.提出利用來(lái)自雙語(yǔ)使用者的多語(yǔ)種數(shù)據(jù)訓(xùn)練概率線性鑒別分析模型,實(shí)現(xiàn)文本無(wú)關(guān)的多語(yǔ)言聲紋識(shí)別,取得了較高的識(shí)別正確率。2.基于i-Vector概率線性鑒別分析模型的非并行語(yǔ)音轉(zhuǎn)換研究:2017年Tomi Kinnunen,LauriJuvela,Paavo Alku,Junichi Yamagishi.Nonparallel Voice Conversion Using i-Vector PLDA:Towards Unifying Speaker Verification and Transformation[C]//2017IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),New Orleans,United States,2017:5535-5539.提出采用i-vector方法進(jìn)行語(yǔ)音轉(zhuǎn)換,將說(shuō)話人驗(yàn)證和轉(zhuǎn)換相統(tǒng)一,在任何階段無(wú)需并行語(yǔ)段或時(shí)間對(duì)齊處理,其性能優(yōu)于基于HMM-GMM的方法。3.基于質(zhì)心深度度量學(xué)習(xí)的說(shuō)話人識(shí)別方法:2019年Jixuan Wang,Kuan-Chieh Wang,Marc T.Law,Frank Rudzicz,Michael Brudno.Centroid-based DeepMetric Learning for Speaker Recognition[C]//2019IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP),Brighton,England,2019:3652-3656.提出使用原型網(wǎng)絡(luò)損耗優(yōu)化說(shuō)話人嵌入模型,在說(shuō)話人驗(yàn)證和識(shí)別任務(wù)中取得了相對(duì)較好的效果。4.一種基于自動(dòng)語(yǔ)音識(shí)別的數(shù)據(jù)增強(qiáng)方法:2019年Daniel S.Park,WilliamChan,Yu Zhang,Chung-Cheng Chiu,Barret Zoph,Ekin D.Cubuk,QuocV.Le.Specaugment:A simple data augmentation method for automatic speechrecognition[C]//2019Interspeech,Graz,Austria,2019:2613-2617.提出在語(yǔ)音識(shí)別任務(wù)中對(duì)數(shù)據(jù)采用變形功能,頻道屏蔽塊和時(shí)間步長(zhǎng)屏蔽塊的增強(qiáng)策略。該方法在LibriSpeech和Switchboard等識(shí)別任務(wù)上大幅提升了語(yǔ)音識(shí)別率。5.基于新特征提取方法的非對(duì)稱(chēng)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的說(shuō)話人識(shí)別模型:2020年Xingmei Wang,Fuzhao Xue,WeiWang,Anhua Liu.A network model of speaker identification with new featureextraction methods and asymmetric BLSTM.Neurocomputing,2020,403:167-181.提出將梅爾譜圖和耳蝸圖結(jié)合產(chǎn)生兩個(gè)新特征,在短時(shí)間內(nèi)獲得更豐富的聲紋功能,在此基礎(chǔ)上,提出一種非對(duì)稱(chēng)的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),提高了說(shuō)話人識(shí)別的正確率。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110197641.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種基于多興趣重復(fù)網(wǎng)絡(luò)的會(huì)話推薦方法
- 下一篇:一種中央空調(diào)冷水機(jī)組負(fù)荷優(yōu)化方法、系統(tǒng)、介質(zhì)及設(shè)備
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價(jià)值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種自動(dòng)分配和推送的任務(wù)管理平臺(tái)及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲(chǔ)介質(zhì)
- 基于會(huì)話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測(cè)設(shè)備
- 一種考慮激勵(lì)機(jī)制電量電價(jià)彈性矩陣的耗電量估測(cè)方法
- 選擇區(qū)塊鏈共識(shí)機(jī)制的方法、裝置以及共識(shí)節(jié)點(diǎn)
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲(chǔ)設(shè)備糾錯(cuò)方法及糾錯(cuò)裝置
- 區(qū)塊鏈中共識(shí)機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車(chē)市場(chǎng)準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)





