[發(fā)明專利]語(yǔ)音分離方法和語(yǔ)音分離裝置在審

申請(qǐng)?zhí)枺?/td>	202010628957.6	申請(qǐng)日：	2020-07-02
公開(kāi)（公告）號(hào)：	CN111785291A	公開(kāi)（公告）日：	2020-10-16
發(fā)明（設(shè)計(jì)）人：	楊劍宇;李健;武衛(wèi)東	申請(qǐng)（專利權(quán)）人：	北京捷通華聲科技股份有限公司
主分類號(hào)：	G10L21/0272	分類號(hào)：	G10L21/0272;G10L17/00
代理公司：	北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240	代理人：	霍文娟
地址：	100193 北京市海淀區(qū)東北***	國(guó)省代碼：	北京;11
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語(yǔ)音分離方法裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書】：

本申請(qǐng)?zhí)峁┝艘环N語(yǔ)音分離方法和語(yǔ)音分離裝置，該語(yǔ)音分離方法包括：獲取目標(biāo)語(yǔ)音，目標(biāo)語(yǔ)音的結(jié)束時(shí)間為當(dāng)前時(shí)間，且目標(biāo)語(yǔ)音的時(shí)長(zhǎng)等于預(yù)定時(shí)間；將目標(biāo)語(yǔ)音切分為多個(gè)目標(biāo)語(yǔ)音片段；將多個(gè)目標(biāo)語(yǔ)音片段輸入語(yǔ)音數(shù)據(jù)庫(kù)；將多個(gè)目標(biāo)語(yǔ)音片段輸入分離模型進(jìn)行分類，得到各說(shuō)話人的語(yǔ)音片段集合，分離模型包括至少一個(gè)聲紋特征模塊，聲紋特征模塊與說(shuō)話人一一對(duì)應(yīng)，分離模型至少重新建立兩次，每次建立時(shí)根據(jù)當(dāng)前的語(yǔ)音數(shù)據(jù)庫(kù)建立，且任意兩次建立的分離模型為根據(jù)不同的語(yǔ)音數(shù)據(jù)庫(kù)建立的。上述方法通過(guò)重建進(jìn)行修正，以確保語(yǔ)音片段集合中的目標(biāo)語(yǔ)音片段為同一個(gè)說(shuō)話人的語(yǔ)音，提高了語(yǔ)音分離的準(zhǔn)確率。

技術(shù)領(lǐng)域

本申請(qǐng)涉及語(yǔ)音處理技術(shù)領(lǐng)域，具體而言，涉及一種語(yǔ)音分離方法和語(yǔ)音分離裝置。

背景技術(shù)

目前對(duì)于多人說(shuō)話人分離，業(yè)內(nèi)通常的做法是使用硬件設(shè)備(如麥克風(fēng)陣列、雙向麥克風(fēng)等)進(jìn)行聲音收集上的說(shuō)話人分離，或者使用聲音特征的聚類分類算法在單聲道音頻上進(jìn)行說(shuō)話人分離。

說(shuō)話人分離本身只是將人聲音頻按照不同發(fā)音人進(jìn)行分類的操作，其中不涉及聲音所屬發(fā)音人的具體身份的識(shí)別，對(duì)聲音所屬發(fā)音人具體身份的識(shí)別屬于聲紋識(shí)別(說(shuō)話人識(shí)別)技術(shù)解決的問(wèn)題。

依賴于麥克風(fēng)等硬件的話者分離系統(tǒng)受制于硬件本身，使用起來(lái)靈活性較差，可適用的場(chǎng)景也非常局限。而現(xiàn)有的不依賴于硬件的多人說(shuō)話人分離技術(shù)在落地時(shí)主要有兩個(gè)問(wèn)題很難解決，第一個(gè)問(wèn)題是說(shuō)話人數(shù)不確定的問(wèn)題，第二個(gè)問(wèn)題是分離模型通常具有一種不可折返的單向性，即分離模型的實(shí)時(shí)更新一般都是基于已有分離模型，分離模型更新的方向受已有分離模型的影響很大。現(xiàn)有技術(shù)中進(jìn)行說(shuō)話人分離的基礎(chǔ)是對(duì)已有聲音特征的類中心點(diǎn)和初始化的預(yù)設(shè)類中心點(diǎn)進(jìn)行分類，其中缺少了對(duì)已有聲音特征類中心點(diǎn)進(jìn)行合并和分離的關(guān)鍵操作。即當(dāng)甲和乙的聲音特征接近時(shí)，甲和乙的聲音可能同屬于一個(gè)聲音特征類中心點(diǎn)，一旦發(fā)生此種情況則在后續(xù)的結(jié)果中甲和乙都會(huì)被分為同一個(gè)說(shuō)話人。同理，當(dāng)甲的某句話的語(yǔ)音特征被誤分類到初始化的預(yù)設(shè)類中心點(diǎn)時(shí)，系統(tǒng)會(huì)自動(dòng)為甲建立一個(gè)新的類中心點(diǎn)，一旦發(fā)生此種情況則在后續(xù)的結(jié)果中甲有可能被不斷分為兩個(gè)不同的說(shuō)話人。

同時(shí)，目前說(shuō)話人識(shí)別和說(shuō)話人分離一般是作為兩個(gè)獨(dú)立問(wèn)題分開(kāi)來(lái)進(jìn)行討論和解決的。說(shuō)話人識(shí)別是指將人聲和說(shuō)話人身份進(jìn)行對(duì)應(yīng)的技術(shù)，也叫聲紋識(shí)別。說(shuō)話人分離是指將含有多個(gè)說(shuō)話人說(shuō)話聲音的音頻按照不同說(shuō)話人進(jìn)行切分，并將切出來(lái)的聲音分配給不同的說(shuō)話人。說(shuō)話人分離一般指將聲音分開(kāi)并對(duì)應(yīng)到不同的說(shuō)話人身上，但是聲音和說(shuō)話人的真實(shí)身份并不會(huì)有一個(gè)對(duì)應(yīng)關(guān)系。

在實(shí)際應(yīng)用場(chǎng)景中，說(shuō)話人識(shí)別和說(shuō)話人分離往往是不可分割的兩個(gè)功能，用戶在知道第一句話和第二句話分別是兩個(gè)人說(shuō)的同時(shí)，還想知道第一句話是張三說(shuō)的還是李四說(shuō)的。在這種需求的驅(qū)動(dòng)下，可以精確識(shí)別說(shuō)話人身份的說(shuō)話人分離問(wèn)題亟需被解決。

在背景技術(shù)部分中公開(kāi)的以上信息只是用來(lái)加強(qiáng)對(duì)本文所描述技術(shù)的背景技術(shù)的理解，因此，背景技術(shù)中可能包含某些信息，這些信息對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)并未形成在本國(guó)已知的現(xiàn)有技術(shù)。

發(fā)明內(nèi)容

本申請(qǐng)的主要目的在于提供一種語(yǔ)音分離方法和語(yǔ)音分離裝置，以解決現(xiàn)有技術(shù)中語(yǔ)音分離的準(zhǔn)確率較低的問(wèn)題。

根據(jù)本發(fā)明實(shí)施例的一個(gè)方面，提供了一種語(yǔ)音分離方法，包括：獲取目標(biāo)語(yǔ)音，所述目標(biāo)語(yǔ)音的結(jié)束時(shí)間為當(dāng)前時(shí)間，且所述目標(biāo)語(yǔ)音的時(shí)長(zhǎng)等于預(yù)定時(shí)間；將所述目標(biāo)語(yǔ)音切分為多個(gè)目標(biāo)語(yǔ)音片段；將多個(gè)所述目標(biāo)語(yǔ)音片段輸入語(yǔ)音數(shù)據(jù)庫(kù)；將多個(gè)所述目標(biāo)語(yǔ)音片段輸入分離模型進(jìn)行分類，得到各說(shuō)話人的語(yǔ)音片段集合，所述語(yǔ)音片段集合包括至少一個(gè)所述目標(biāo)語(yǔ)音片段，所述分離模型包括至少一個(gè)聲紋特征模塊，所述聲紋特征模塊與所述說(shuō)話人一一對(duì)應(yīng)，所述分離模型至少重新建立兩次，每次建立時(shí)根據(jù)當(dāng)前的所述語(yǔ)音數(shù)據(jù)庫(kù)建立，且任意兩次建立的所述分離模型為根據(jù)不同的所述語(yǔ)音數(shù)據(jù)庫(kù)建立的。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京捷通華聲科技股份有限公司，未經(jīng)北京捷通華聲科技股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010628957.6/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂(lè)器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào)，以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào)，例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng)，例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式，例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】