[發(fā)明專利]音頻信號處理方法、裝置、設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010189291.9 | 申請日: | 2020-03-17 |
| 公開(公告)號: | CN111402898B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設(shè)計)人: | 鄧菁;王秋明 | 申請(專利權(quán))人: | 北京遠鑒信息技術(shù)有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/06 |
| 代理公司: | 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463 | 代理人: | 曹瑞敏 |
| 地址: | 100000 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 信號 處理 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本申請?zhí)峁┮环N音頻信號處理方法、裝置、設(shè)備及存儲介質(zhì),涉及語音處理技術(shù)領(lǐng)域。該方法包括:獲取待檢測音頻信號中多個語音片段的語音特征;根據(jù)第一個語音片段之后的每個待分類語音片段的語音特征和至少一個已分類語音片段的語音特征,確定每個待分類語音片段的類別;其中,第一個語音片段的類別為預(yù)設(shè)類別,至少一個已分類語音片段為每個待分類語音片段之前的至少一個語音片段;根據(jù)第一個語音片段的類別以及每個待分類語音片段的類別,確定待檢測音頻信號的總類別個數(shù),并根據(jù)總類別個數(shù),確定待檢測音頻信號的說話人數(shù)。相對于現(xiàn)有技術(shù),避免了分離說話人所需的時間太長,影響確定說話人數(shù)目的實時性的問題。
技術(shù)領(lǐng)域
本申請涉及語音處理技術(shù)領(lǐng)域,具體而言,涉及一種音頻信號處理方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
對于聲紋識別系統(tǒng)來說,一般要求輸入的語音數(shù)據(jù)只包含有單一的說話人。若輸入語音中含有多個說話人的聲音,則會導(dǎo)致提取的聲紋特征錯誤,從而影響聲紋識別系統(tǒng)的性能。所以一般在聲紋識別之前,需要先判別輸入語音中說話人的數(shù)目,若判定語音中含有多個說話人,則該條語音不送入聲紋識別系統(tǒng)中。
現(xiàn)有技術(shù)中一般通過說話人分離技術(shù)來判斷當前輸入語音中的說話人數(shù),該技術(shù)一般分為三個步驟:初始分割:找到說話人發(fā)生切換的時間點,并將輸入語音分割為多段語音;聚類:按照一定的距離準則或者模式識別方法來對初始分割后的語音段按說話人聚類;重分割:利用聚類結(jié)果,對每個說話人的聲紋特征進行更新,重新對原始語音進行分割。
但是現(xiàn)有技術(shù)的復(fù)雜度較高,耗時較長,會大大的增加分離說話人所需的時間,影響確定說話人數(shù)目的實時性。
發(fā)明內(nèi)容
本申請的目的在于,針對上述現(xiàn)有技術(shù)中的不足,提供一種音頻信號處理方法、裝置、設(shè)備及存儲介質(zhì),以解決現(xiàn)有技術(shù)中分離說話人所需的時間太長,影響確定說話人數(shù)目的實時性的問題。
為實現(xiàn)上述目的,本申請實施例采用的技術(shù)方案如下:
第一方面,本申請一實施例提供了一種音頻信號處理方法,所述方法包括:
獲取待檢測音頻信號中多個語音片段的語音特征;
根據(jù)第一個語音片段之后的每個待分類語音片段的語音特征和至少一個已分類語音片段的語音特征,確定所述每個待分類語音片段的類別;其中,所述第一個語音片段的類別為預(yù)設(shè)類別,所述至少一個已分類語音片段為所述每個待分類語音片段之前的至少一個語音片段;
根據(jù)所述第一個語音片段的類別以及所述每個待分類語音片段的類別,確定所述待檢測音頻信號中的總類別個數(shù),并根據(jù)所述總類別個數(shù),確定所述待檢測音頻信號的說話人數(shù)。
可選地,所述根據(jù)第一個語音片段之后的每個待分類語音片段的語音特征和至少一個已分類語音片段的語音特征,確定所述每個待分類語音片段的類別,包括:
根據(jù)第一個語音片段之后的每個待分類語音片段的語音特征和所述至少一個已分類語音片段的語音特征,分別計算所述每個待分類語音片段與所述至少一個已分類語音片段之間的第一特征距離;
根據(jù)所述第一特征距離,確定所述每個待分類語音片段的類別。
可選地,所述根據(jù)所述第一特征距離,確定所述每個待分類語音片段的類別,包括:
根據(jù)所述第一特征距離,判斷是否存在與所述待分類語音片段的類別相同的所述已分類語音片段;
若存在,則確定所述已分類語音片段的類別為所述待分類語音片段的類別;
若所述至少一個已分類語音片段中不存在與所述每個待分類語音片段的類別相同的已分類語音片段,則建立新類別,并確定所述待分類語音片段的類別為所述新類別。
可選地,所述根據(jù)所述第一特征距離,判斷是否存在與所述待分類語音片段的類別相同的所述已分類語音片段,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京遠鑒信息技術(shù)有限公司,未經(jīng)北京遠鑒信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010189291.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 亮度信號/色信號分離裝置和亮度信號/色信號分離方法
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 雙耳信號的信號生成
- 雙耳信號的信號生成
- 信號處理裝置、信號處理方法、信號處理程序
- USBTYPEC信號轉(zhuǎn)HDMI信號的信號轉(zhuǎn)換線
- 信號盒(信號轉(zhuǎn)換)
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置





