[發(fā)明專(zhuān)利]說(shuō)話(huà)人識(shí)別網(wǎng)絡(luò)模型訓(xùn)練方法、說(shuō)話(huà)人識(shí)別方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201810025592.0 | 申請(qǐng)日: | 2018-01-11 |
| 公開(kāi)(公告)號(hào): | CN108417217B | 公開(kāi)(公告)日: | 2021-07-13 |
| 發(fā)明(設(shè)計(jì))人: | 錢(qián)彥旻;黃子礫;王帥 | 申請(qǐng)(專(zhuān)利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類(lèi)號(hào): | G10L17/04 | 分類(lèi)號(hào): | G10L17/04;G10L17/18 |
| 代理公司: | 北京商專(zhuān)永信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 方挺;車(chē)江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 說(shuō)話(huà) 識(shí)別 網(wǎng)絡(luò) 模型 訓(xùn)練 方法 系統(tǒng) | ||
本發(fā)明公開(kāi)一種說(shuō)話(huà)人識(shí)別網(wǎng)絡(luò)模型訓(xùn)練方法,包括:從訓(xùn)練數(shù)據(jù)集中獲取第i話(huà)語(yǔ)三元組并將第i話(huà)語(yǔ)三元組輸入至卷積神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)對(duì)第i話(huà)語(yǔ)三元組進(jìn)行特征提取得到第i話(huà)語(yǔ)特征三元組并輸入至線性神經(jīng)網(wǎng)絡(luò);將預(yù)先獲取的第一說(shuō)話(huà)人的第一身份向量信息和第二說(shuō)話(huà)人的第二身份向量信息輸入至線性神經(jīng)網(wǎng)絡(luò)進(jìn)行融合處理,以得到融合后的第i話(huà)語(yǔ)特征三元組;根據(jù)融合后的第i話(huà)語(yǔ)特征三元組計(jì)算三元組損失,以調(diào)整所述網(wǎng)絡(luò)模型。本發(fā)明實(shí)施例得到的說(shuō)話(huà)人識(shí)別網(wǎng)絡(luò)模型能夠更加準(zhǔn)確的實(shí)現(xiàn)說(shuō)話(huà)人的識(shí)別功能,具有最低的等錯(cuò)誤率。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種說(shuō)話(huà)人識(shí)別網(wǎng)絡(luò)模型訓(xùn)練方法、說(shuō)話(huà)人識(shí)別方法及系統(tǒng)。
背景技術(shù)
說(shuō)話(huà)人識(shí)別技術(shù)作為生物特征識(shí)別的一個(gè)方向,在理論和應(yīng)用領(lǐng)域都得到了快速發(fā)展和廣泛關(guān)注。在對(duì)經(jīng)典說(shuō)話(huà)人識(shí)別算法的中,從理論和實(shí)際應(yīng)用中分析了經(jīng)典算法存在的缺陷,由此推出了基于i-vector的說(shuō)話(huà)人識(shí)別算法,在i-vector框架中,對(duì)每一幀語(yǔ)音數(shù)據(jù)提取i-vector低維表示,將所有幀的低維表示進(jìn)行平均得到說(shuō)話(huà)人的表示。
但是,發(fā)明人在實(shí)現(xiàn)本發(fā)明的過(guò)程中發(fā)現(xiàn),在注冊(cè)語(yǔ)句較短的情況下,i-vector作為說(shuō)話(huà)人的表示類(lèi)內(nèi)方差較大(即,對(duì)于同一說(shuō)話(huà)人的不同話(huà)語(yǔ)的識(shí)別結(jié)果之間距離相差較大),類(lèi)間方差小(即,不同說(shuō)話(huà)人的識(shí)別結(jié)果之間距離較小),從而導(dǎo)致識(shí)別準(zhǔn)確率在注冊(cè)語(yǔ)句較短時(shí)較低。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種說(shuō)話(huà)人識(shí)別網(wǎng)絡(luò)模型訓(xùn)練方法、說(shuō)話(huà)人識(shí)別方法及系統(tǒng),至少能夠用于解決現(xiàn)有技術(shù)中說(shuō)話(huà)人識(shí)別準(zhǔn)確率低的技術(shù)問(wèn)題。
第一方面,本發(fā)明實(shí)施例提供一種說(shuō)話(huà)人識(shí)別網(wǎng)絡(luò)模型訓(xùn)練方法,所述網(wǎng)絡(luò)模型包括卷積神經(jīng)網(wǎng)絡(luò)和線性神經(jīng)網(wǎng)絡(luò),所述方法包括:
從訓(xùn)練數(shù)據(jù)集中獲取第i話(huà)語(yǔ)三元組,所述訓(xùn)練數(shù)據(jù)集中包括多個(gè)說(shuō)話(huà)人的話(huà)語(yǔ),每個(gè)說(shuō)話(huà)人對(duì)應(yīng)多個(gè)話(huà)語(yǔ),所述第i話(huà)語(yǔ)三元組由選自所述多個(gè)說(shuō)話(huà)人的第一說(shuō)話(huà)人的第一話(huà)語(yǔ)和第二話(huà)語(yǔ),以及選自所述多個(gè)說(shuō)話(huà)人的第二說(shuō)話(huà)人的第三話(huà)語(yǔ)構(gòu)成;
將所述第i話(huà)語(yǔ)三元組輸入至所述卷積神經(jīng)網(wǎng)絡(luò),所述卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述第i話(huà)語(yǔ)三元組進(jìn)行特征提取得到第i話(huà)語(yǔ)特征三元組并輸入至所述線性神經(jīng)網(wǎng)絡(luò),所述第i話(huà)語(yǔ)特征三元組包括對(duì)應(yīng)于所述第一至第三話(huà)語(yǔ)的第一至第三話(huà)語(yǔ)向量信息;
將預(yù)先獲取的所述第一說(shuō)話(huà)人的第一身份向量信息和所述第二說(shuō)話(huà)人的第二身份向量信息輸入至所述線性神經(jīng)網(wǎng)絡(luò),所述線性神經(jīng)網(wǎng)絡(luò)將所述第一身份向量信息分別與所述第一話(huà)語(yǔ)向量信息和第二話(huà)語(yǔ)向量信息進(jìn)行加權(quán)和,并將所述第二身份向量信息與所述第三話(huà)語(yǔ)向量信息進(jìn)行加權(quán)和,以得到融合后的第i話(huà)語(yǔ)特征三元組;
根據(jù)所述融合后的第i話(huà)語(yǔ)特征三元組計(jì)算三元組損失(TripletLoss),以調(diào)整所述網(wǎng)絡(luò)模型,其中i取值1至N,N為訓(xùn)練數(shù)據(jù)集中所包含的所有話(huà)語(yǔ)三元組的個(gè)數(shù)。
第二方面,本發(fā)明實(shí)施例提供一種說(shuō)話(huà)人識(shí)別方法,基于本發(fā)明實(shí)施例中所述的網(wǎng)絡(luò)模型實(shí)現(xiàn),所述方法包括:
說(shuō)話(huà)人注冊(cè):
將獲取說(shuō)話(huà)人的多個(gè)注冊(cè)話(huà)語(yǔ)輸入至所述卷積神經(jīng)網(wǎng)絡(luò)以得到相應(yīng)的注冊(cè)話(huà)語(yǔ)向量信息;
基于所述多個(gè)注冊(cè)話(huà)語(yǔ)生成對(duì)應(yīng)于說(shuō)話(huà)人的注冊(cè)身份向量信息;
所述線性神經(jīng)網(wǎng)絡(luò)基于所述注冊(cè)身份向量信息和所述注冊(cè)話(huà)語(yǔ)向量信息生成注冊(cè)融合向量信息并存儲(chǔ);
說(shuō)話(huà)人識(shí)別:
將說(shuō)話(huà)人的測(cè)試話(huà)語(yǔ)輸入至所述卷積神經(jīng)網(wǎng)絡(luò)以得到相應(yīng)的測(cè)試話(huà)語(yǔ)向量信息;
基于所述測(cè)試話(huà)語(yǔ)生成對(duì)應(yīng)于說(shuō)話(huà)人的測(cè)試身份向量信息;
所述線性神經(jīng)網(wǎng)絡(luò)基于所述測(cè)試身份向量信息和所述測(cè)試話(huà)語(yǔ)向量信息生成測(cè)試融合向量信息并存儲(chǔ);
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810025592.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 基于事先知識(shí)的說(shuō)話(huà)者檢驗(yàn)及說(shuō)話(huà)者識(shí)別系統(tǒng)和方法
- 說(shuō)話(huà)人聲音的后臺(tái)學(xué)習(xí)
- 基于模型順序自適應(yīng)技術(shù)的說(shuō)話(huà)人確認(rèn)系統(tǒng)創(chuàng)建方法
- 語(yǔ)音合成字典生成裝置和語(yǔ)音合成字典生成方法
- 說(shuō)話(huà)人識(shí)別方法和說(shuō)話(huà)人識(shí)別設(shè)備
- 語(yǔ)音處理的方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種基于多說(shuō)話(huà)人條件下目標(biāo)說(shuō)話(huà)人語(yǔ)音提取方法
- 一種語(yǔ)音處理方法、介質(zhì)及系統(tǒng)
- 語(yǔ)音翻譯裝置、語(yǔ)音翻譯方法以及記錄介質(zhì)
- 說(shuō)話(huà)人識(shí)別方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





