[發(fā)明專利]語(yǔ)音分離方法和語(yǔ)音分離裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010628957.6 | 申請(qǐng)日: | 2020-07-02 |
| 公開(kāi)(公告)號(hào): | CN111785291A | 公開(kāi)(公告)日: | 2020-10-16 |
| 發(fā)明(設(shè)計(jì))人: | 楊劍宇;李健;武衛(wèi)東 | 申請(qǐng)(專利權(quán))人: | 北京捷通華聲科技股份有限公司 |
| 主分類號(hào): | G10L21/0272 | 分類號(hào): | G10L21/0272;G10L17/00 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 霍文娟 |
| 地址: | 100193 北京市海淀區(qū)東北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)音 分離 方法 裝置 | ||
本申請(qǐng)?zhí)峁┝艘环N語(yǔ)音分離方法和語(yǔ)音分離裝置,該語(yǔ)音分離方法包括:獲取目標(biāo)語(yǔ)音,目標(biāo)語(yǔ)音的結(jié)束時(shí)間為當(dāng)前時(shí)間,且目標(biāo)語(yǔ)音的時(shí)長(zhǎng)等于預(yù)定時(shí)間;將目標(biāo)語(yǔ)音切分為多個(gè)目標(biāo)語(yǔ)音片段;將多個(gè)目標(biāo)語(yǔ)音片段輸入語(yǔ)音數(shù)據(jù)庫(kù);將多個(gè)目標(biāo)語(yǔ)音片段輸入分離模型進(jìn)行分類,得到各說(shuō)話人的語(yǔ)音片段集合,分離模型包括至少一個(gè)聲紋特征模塊,聲紋特征模塊與說(shuō)話人一一對(duì)應(yīng),分離模型至少重新建立兩次,每次建立時(shí)根據(jù)當(dāng)前的語(yǔ)音數(shù)據(jù)庫(kù)建立,且任意兩次建立的分離模型為根據(jù)不同的語(yǔ)音數(shù)據(jù)庫(kù)建立的。上述方法通過(guò)重建進(jìn)行修正,以確保語(yǔ)音片段集合中的目標(biāo)語(yǔ)音片段為同一個(gè)說(shuō)話人的語(yǔ)音,提高了語(yǔ)音分離的準(zhǔn)確率。
技術(shù)領(lǐng)域
本申請(qǐng)涉及語(yǔ)音處理技術(shù)領(lǐng)域,具體而言,涉及一種語(yǔ)音分離方法和語(yǔ)音分離裝置。
背景技術(shù)
目前對(duì)于多人說(shuō)話人分離,業(yè)內(nèi)通常的做法是使用硬件設(shè)備(如麥克風(fēng)陣列、雙向麥克風(fēng)等)進(jìn)行聲音收集上的說(shuō)話人分離,或者使用聲音特征的聚類分類算法在單聲道音頻上進(jìn)行說(shuō)話人分離。
說(shuō)話人分離本身只是將人聲音頻按照不同發(fā)音人進(jìn)行分類的操作,其中不涉及聲音所屬發(fā)音人的具體身份的識(shí)別,對(duì)聲音所屬發(fā)音人具體身份的識(shí)別屬于聲紋識(shí)別(說(shuō)話人識(shí)別)技術(shù)解決的問(wèn)題。
依賴于麥克風(fēng)等硬件的話者分離系統(tǒng)受制于硬件本身,使用起來(lái)靈活性較差,可適用的場(chǎng)景也非常局限。而現(xiàn)有的不依賴于硬件的多人說(shuō)話人分離技術(shù)在落地時(shí)主要有兩個(gè)問(wèn)題很難解決,第一個(gè)問(wèn)題是說(shuō)話人數(shù)不確定的問(wèn)題,第二個(gè)問(wèn)題是分離模型通常具有一種不可折返的單向性,即分離模型的實(shí)時(shí)更新一般都是基于已有分離模型,分離模型更新的方向受已有分離模型的影響很大。現(xiàn)有技術(shù)中進(jìn)行說(shuō)話人分離的基礎(chǔ)是對(duì)已有聲音特征的類中心點(diǎn)和初始化的預(yù)設(shè)類中心點(diǎn)進(jìn)行分類,其中缺少了對(duì)已有聲音特征類中心點(diǎn)進(jìn)行合并和分離的關(guān)鍵操作。即當(dāng)甲和乙的聲音特征接近時(shí),甲和乙的聲音可能同屬于一個(gè)聲音特征類中心點(diǎn),一旦發(fā)生此種情況則在后續(xù)的結(jié)果中甲和乙都會(huì)被分為同一個(gè)說(shuō)話人。同理,當(dāng)甲的某句話的語(yǔ)音特征被誤分類到初始化的預(yù)設(shè)類中心點(diǎn)時(shí),系統(tǒng)會(huì)自動(dòng)為甲建立一個(gè)新的類中心點(diǎn),一旦發(fā)生此種情況則在后續(xù)的結(jié)果中甲有可能被不斷分為兩個(gè)不同的說(shuō)話人。
同時(shí),目前說(shuō)話人識(shí)別和說(shuō)話人分離一般是作為兩個(gè)獨(dú)立問(wèn)題分開(kāi)來(lái)進(jìn)行討論和解決的。說(shuō)話人識(shí)別是指將人聲和說(shuō)話人身份進(jìn)行對(duì)應(yīng)的技術(shù),也叫聲紋識(shí)別。說(shuō)話人分離是指將含有多個(gè)說(shuō)話人說(shuō)話聲音的音頻按照不同說(shuō)話人進(jìn)行切分,并將切出來(lái)的聲音分配給不同的說(shuō)話人。說(shuō)話人分離一般指將聲音分開(kāi)并對(duì)應(yīng)到不同的說(shuō)話人身上,但是聲音和說(shuō)話人的真實(shí)身份并不會(huì)有一個(gè)對(duì)應(yīng)關(guān)系。
在實(shí)際應(yīng)用場(chǎng)景中,說(shuō)話人識(shí)別和說(shuō)話人分離往往是不可分割的兩個(gè)功能,用戶在知道第一句話和第二句話分別是兩個(gè)人說(shuō)的同時(shí),還想知道第一句話是張三說(shuō)的還是李四說(shuō)的。在這種需求的驅(qū)動(dòng)下,可以精確識(shí)別說(shuō)話人身份的說(shuō)話人分離問(wèn)題亟需被解決。
在背景技術(shù)部分中公開(kāi)的以上信息只是用來(lái)加強(qiáng)對(duì)本文所描述技術(shù)的背景技術(shù)的理解,因此,背景技術(shù)中可能包含某些信息,這些信息對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)并未形成在本國(guó)已知的現(xiàn)有技術(shù)。
發(fā)明內(nèi)容
本申請(qǐng)的主要目的在于提供一種語(yǔ)音分離方法和語(yǔ)音分離裝置,以解決現(xiàn)有技術(shù)中語(yǔ)音分離的準(zhǔn)確率較低的問(wèn)題。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種語(yǔ)音分離方法,包括:獲取目標(biāo)語(yǔ)音,所述目標(biāo)語(yǔ)音的結(jié)束時(shí)間為當(dāng)前時(shí)間,且所述目標(biāo)語(yǔ)音的時(shí)長(zhǎng)等于預(yù)定時(shí)間;將所述目標(biāo)語(yǔ)音切分為多個(gè)目標(biāo)語(yǔ)音片段;將多個(gè)所述目標(biāo)語(yǔ)音片段輸入語(yǔ)音數(shù)據(jù)庫(kù);將多個(gè)所述目標(biāo)語(yǔ)音片段輸入分離模型進(jìn)行分類,得到各說(shuō)話人的語(yǔ)音片段集合,所述語(yǔ)音片段集合包括至少一個(gè)所述目標(biāo)語(yǔ)音片段,所述分離模型包括至少一個(gè)聲紋特征模塊,所述聲紋特征模塊與所述說(shuō)話人一一對(duì)應(yīng),所述分離模型至少重新建立兩次,每次建立時(shí)根據(jù)當(dāng)前的所述語(yǔ)音數(shù)據(jù)庫(kù)建立,且任意兩次建立的所述分離模型為根據(jù)不同的所述語(yǔ)音數(shù)據(jù)庫(kù)建立的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京捷通華聲科技股份有限公司,未經(jīng)北京捷通華聲科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010628957.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種截骨鋸片防抖動(dòng)的控制方法和系統(tǒng)
- 下一篇:用于航空發(fā)動(dòng)機(jī)L型管路靜動(dòng)態(tài)力學(xué)性能測(cè)試的試驗(yàn)平臺(tái)
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





