[發(fā)明專利]多人聲音頻處理方法、裝置、設備及可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010401608.0 | 申請日: | 2020-05-13 |
| 公開(公告)號: | CN111640450A | 公開(公告)日: | 2020-09-08 |
| 發(fā)明(設計)人: | 黃族良;陳昊亮 | 申請(專利權)人: | 廣州國音智能科技有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L25/18;G10L25/21;G10L25/30;G06N3/08;G06N3/04;G06F40/30;G06F40/289 |
| 代理公司: | 深圳市世紀恒程知識產(chǎn)權代理事務所 44287 | 代理人: | 陳文斌 |
| 地址: | 510000 廣東省廣州市黃埔*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 人聲 音頻 處理 方法 裝置 設備 可讀 存儲 介質(zhì) | ||
本發(fā)明公開了一種多人聲音頻處理方法、裝置、設備及可讀存儲介質(zhì),所述多人聲音頻處理方法通過將待檢測音頻進行分段,便于后續(xù)操作的進行,提高對待檢測音頻的處理效率;通過音頻片段的特征信息對音頻片段中的多人聲段落進行初步篩選;通過結合初始多人聲段落的語義識別結果對其中的無效段落進一步進行篩選,極大程度地保留了待檢測音頻中的有效單人聲部分,提高了待檢測音頻中剩余部分的有效性與利用率。
技術領域
本發(fā)明涉及語音處理技術領域,尤其涉及一種多人聲音頻處理方法、裝置、設備及可讀存儲介質(zhì)。
背景技術
在實際的聲學環(huán)境中,往往會同時存在多個不同的人聲以及其他雜音。這一多人聲混雜的情況為語音識別與音頻處理工作帶來許多困擾。尤其是在對語音音頻進行歸檔保存的過程中,混合音頻中存在的多人聲語音屬于不合格的情況。由于現(xiàn)有的從多人聲中分離目標語音的技術尚未達到成熟水平,因此在實際的音頻處理工作中,通常會將包含有多人聲的混合音頻整段丟棄,故而導致了存在多人聲的音頻的利用率低下的技術問題。
上述內(nèi)容僅用于輔助理解本發(fā)明的技術方案,并不代表承認上述內(nèi)容是現(xiàn)有技術。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種多人聲音頻處理方法,旨在解決存在多人聲的音頻的利用率低下的技術問題。
為實現(xiàn)上述目的,本發(fā)明提供一種多人聲音頻處理方法,所述多人聲音頻處理方法應用于多人聲音頻處理設備,所述多人聲音頻處理方法包括以下步驟:
獲取待檢測音頻,根據(jù)預設時間間隔將所述待檢測音頻分為多個音頻片段,其中,待檢測音頻包含多人聲部分與單人聲部分;
獲取多個音頻片段對應的多個特征信息,根據(jù)預設多人聲特征條件與所述多個特征信息識別所述多個音頻片段中的初始多人聲段落;
獲取所述初始多人聲段落的語義識別結果,根據(jù)所述語義識別結果確定并分離所述初始多人聲段落中的目標多人聲段落。
可選地,所述特征信息為頻域信息,所述預設多人聲特征條件為多人聲頻域條件,所獲取多個音頻片段對應的多個特征信息,根據(jù)預設多人聲特征條件與所述多個特征信息識別所述多個音頻片段中的初始多人聲段落的步驟包括:
將所述多個音頻片段進行傅里葉變換,獲取所述多個頻域信息;
分別判斷所述多個頻域信息中的最大頻域幅值是否滿足所述預設多人聲頻域條件;
若滿足,則將當前的最大頻域幅值對應的音頻片段作為初始多人聲段落;
在所述分別判斷所述多個頻域信息中的最大頻域幅值是否滿足所述預設多人聲頻域條件的步驟之后,還包括:
若不滿足,則將當前的最大頻域幅值對應的音頻片段作為單人聲段落。
可選地,所述分別判斷所述多個頻域信息中的最大頻域幅值是否滿足所述預設多人聲頻域條件的步驟包括:
分別判斷所述多個頻域信息中的最大頻域幅值按照時序與之前或之后的頻域信息的最大頻域幅值均值之間的差值是否超出預設閾值;
若超出預設閾值,則判定所述最大頻域幅值滿足所述預設多人聲頻域條件;
若未超出預設閾值,則判定所述最大頻域幅值不滿足所述預設多人聲頻域條件。
可選地,所述獲取所述初始多人聲段落的語義識別結果,根據(jù)所述語義識別結果確定并分離所述初始多人聲段落中的目標多人聲段落的步驟包括:
將所述初始多人聲段落輸入預設語義識別模型,獲取所述語義識別結果;
根據(jù)所述語義識別結果確定所述初始多人聲段落中的語義分割點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州國音智能科技有限公司,未經(jīng)廣州國音智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010401608.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





