[發(fā)明專利]音頻信號處理方法、裝置、設(shè)備及存儲介質(zhì)有效

申請?zhí)枺?/td>	202010189291.9	申請日：	2020-03-17
公開（公告）號：	CN111402898B	公開（公告）日：	2023-07-25
發(fā)明（設(shè)計）人：	鄧菁;王秋明	申請（專利權(quán)）人：	北京遠鑒信息技術(shù)有限公司
主分類號：	G10L17/02	分類號：	G10L17/02;G10L17/06
代理公司：	北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463	代理人：	曹瑞敏
地址：	100000 北京市海淀區(qū)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻信號處理方法裝置設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請?zhí)峁┮环N音頻信號處理方法、裝置、設(shè)備及存儲介質(zhì)，涉及語音處理技術(shù)領(lǐng)域。該方法包括：獲取待檢測音頻信號中多個語音片段的語音特征；根據(jù)第一個語音片段之后的每個待分類語音片段的語音特征和至少一個已分類語音片段的語音特征，確定每個待分類語音片段的類別；其中，第一個語音片段的類別為預(yù)設(shè)類別，至少一個已分類語音片段為每個待分類語音片段之前的至少一個語音片段；根據(jù)第一個語音片段的類別以及每個待分類語音片段的類別，確定待檢測音頻信號的總類別個數(shù)，并根據(jù)總類別個數(shù)，確定待檢測音頻信號的說話人數(shù)。相對于現(xiàn)有技術(shù)，避免了分離說話人所需的時間太長，影響確定說話人數(shù)目的實時性的問題。

技術(shù)領(lǐng)域

本申請涉及語音處理技術(shù)領(lǐng)域，具體而言，涉及一種音頻信號處理方法、裝置、設(shè)備及存儲介質(zhì)。

背景技術(shù)

對于聲紋識別系統(tǒng)來說，一般要求輸入的語音數(shù)據(jù)只包含有單一的說話人。若輸入語音中含有多個說話人的聲音，則會導(dǎo)致提取的聲紋特征錯誤，從而影響聲紋識別系統(tǒng)的性能。所以一般在聲紋識別之前，需要先判別輸入語音中說話人的數(shù)目，若判定語音中含有多個說話人，則該條語音不送入聲紋識別系統(tǒng)中。

現(xiàn)有技術(shù)中一般通過說話人分離技術(shù)來判斷當前輸入語音中的說話人數(shù)，該技術(shù)一般分為三個步驟：初始分割：找到說話人發(fā)生切換的時間點，并將輸入語音分割為多段語音；聚類：按照一定的距離準則或者模式識別方法來對初始分割后的語音段按說話人聚類；重分割：利用聚類結(jié)果，對每個說話人的聲紋特征進行更新，重新對原始語音進行分割。

但是現(xiàn)有技術(shù)的復(fù)雜度較高，耗時較長，會大大的增加分離說話人所需的時間，影響確定說話人數(shù)目的實時性。

發(fā)明內(nèi)容

本申請的目的在于，針對上述現(xiàn)有技術(shù)中的不足，提供一種音頻信號處理方法、裝置、設(shè)備及存儲介質(zhì)，以解決現(xiàn)有技術(shù)中分離說話人所需的時間太長，影響確定說話人數(shù)目的實時性的問題。

為實現(xiàn)上述目的，本申請實施例采用的技術(shù)方案如下：

第一方面，本申請一實施例提供了一種音頻信號處理方法，所述方法包括：

獲取待檢測音頻信號中多個語音片段的語音特征；

根據(jù)第一個語音片段之后的每個待分類語音片段的語音特征和至少一個已分類語音片段的語音特征，確定所述每個待分類語音片段的類別；其中，所述第一個語音片段的類別為預(yù)設(shè)類別，所述至少一個已分類語音片段為所述每個待分類語音片段之前的至少一個語音片段；

根據(jù)所述第一個語音片段的類別以及所述每個待分類語音片段的類別，確定所述待檢測音頻信號中的總類別個數(shù)，并根據(jù)所述總類別個數(shù)，確定所述待檢測音頻信號的說話人數(shù)。

可選地，所述根據(jù)第一個語音片段之后的每個待分類語音片段的語音特征和至少一個已分類語音片段的語音特征，確定所述每個待分類語音片段的類別，包括：

根據(jù)第一個語音片段之后的每個待分類語音片段的語音特征和所述至少一個已分類語音片段的語音特征，分別計算所述每個待分類語音片段與所述至少一個已分類語音片段之間的第一特征距離；

根據(jù)所述第一特征距離，確定所述每個待分類語音片段的類別。

可選地，所述根據(jù)所述第一特征距離，確定所述每個待分類語音片段的類別，包括：

根據(jù)所述第一特征距離，判斷是否存在與所述待分類語音片段的類別相同的所述已分類語音片段；

若存在，則確定所述已分類語音片段的類別為所述待分類語音片段的類別；

若所述至少一個已分類語音片段中不存在與所述每個待分類語音片段的類別相同的已分類語音片段，則建立新類別，并確定所述待分類語音片段的類別為所述新類別。

可選地，所述根據(jù)所述第一特征距離，判斷是否存在與所述待分類語音片段的類別相同的所述已分類語音片段，包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京遠鑒信息技術(shù)有限公司，未經(jīng)北京遠鑒信息技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010189291.9/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于顏色特征和模板匹配相結(jié)合的車牌定位算法
下一篇：一種新型發(fā)動機排氣管密封結(jié)構(gòu)

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L17-00 講話者辨認或驗證

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】