[發明專利]一種音頻提取方法、裝置、設備和存儲介質在審

申請號：	202111328474.5	申請日：	2021-11-10
公開（公告）號：	CN114049898A	公開（公告）日：	2022-02-15
發明（設計）人：	郭震;李良斌;陳孝良	申請（專利權）人：	北京聲智科技有限公司
主分類號：	G10L17/02	分類號：	G10L17/02;G10L25/51
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	魯梅
地址：	100094 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種音頻提取方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供一種音頻提取方法、裝置、設備和存儲介質，在音頻提取過程中，由將待處理音頻中一段目標對象的語音音頻作為注冊音頻，對所述待處理音頻進行切分，得到多個窗口片段，再對窗口片段與注冊音頻進行相似度分析，最后基于當前窗口片段以及與當前窗口片段相鄰的窗口片段與所述注冊音頻的相似度，判斷所述當前窗口片段是否為目標對象的語音音頻，從而實現了目標對象的語音音頻的精準提取。

技術領域

本發明涉及音頻處理技術領域，具體涉及一種基于聲紋模型的特定說話人音頻的音頻提取方法、裝置、設備和存儲介質。

背景技術

為了得到一段語音中的目標對象的語音音頻，需要通過特定的技術手段將由該段語音中提取目標對象的語音音頻。

在現有方案中，通常采用語音分割聚類方法對目標對象的音頻信息進行提取，該方法基本應用于多人接連說話的場景。但是語音分割聚類方法的目標在于將所有說話人的音頻都區分開，將原有音頻分割聚類成多段音頻。而原有音頻中說話人個數是不確定的，在獲取到多段待處理音頻的聲紋信息特征后，聚類算法并不指定聚類的類數，因此實際應用中的聚類效果并不理想，可能會將兩人對話的音頻聚成多類，而且聚類后的音頻也并不純凈，會混有他人的聲音。

如何從錄音中準確的提取目標對象的音頻內容，成為本領域亟待解決的技術問題之一。

發明內容

有鑒于此，本發明實施例提供一種音頻提取方法、裝置、設備和存儲介質，以實現對目標對象的語音音頻的提取。

為實現上述目的，本發明實施例提供如下技術方案：

一種音頻提取方法，包括：

獲取待處理音頻和注冊音頻，所述注冊音頻為所述待處理音頻中的一段目標對象的語音音頻；

對所述待處理音頻進行切分，得到多個窗口片段；

提取所述注冊音頻以及所述窗口片段的特征向量；

對所述窗口片段的特征向量與所述注冊音頻的特征向量進行相似度分析；

基于當前窗口片段以及與當前窗口片段相鄰的窗口片段與所述注冊音頻的特征向量的相似度，判斷所述當前窗口片段是否為目標對象的語音音頻；

將目標對象的語音音頻確定為提取音頻。

可選的，上述音頻提取方法中，基于當前窗口片段以及與當前窗口片段相鄰的窗口片段與所述注冊音頻的特征向量的相似度，判斷所述當前窗口片段是否為目標對象的語音音頻，包括：