[發明專利]一種多麥克風語音采集方法及裝置有效
| 申請號: | 201810317139.7 | 申請日: | 2018-04-10 |
| 公開(公告)號: | CN108597498B | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 晏青 | 申請(專利權)人: | 廣州勢必可贏網絡科技有限公司 |
| 主分類號: | G10L15/05 | 分類號: | G10L15/05;G10L25/03;G10L25/60;G10L25/78 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 510000 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 麥克風 語音 采集 方法 裝置 | ||
本發明提供了一種多麥克風語音采集方法及裝置,本發明方法包括:通過多個麥克風進行語音采集,每個麥克風對應不同的語音采集通道,得到每個語音采集通道的語音信號;對語音信號進行模數轉換,得到語音數字信號;對語音數字信號的PCM二進制數據進行分幀處理,得到每幀PCM二進制數據對應的短時平穩音頻信號;依次按幀對短時平穩音頻信號進行語音激活檢測,確定短時平穩音頻信號對應的幀為語音幀或非語音幀;以預置幀數為步長對語音幀對應的片段音頻文件進行語音質量檢測,保存質量合格的片段音頻文件;將保存的質量合格的片段音頻文件拼接合成為完整的音頻文件。
技術領域
本發明涉及語音信號處理技術領域,尤其涉及一種多麥克風語音采集方法及裝置。
背景技術
聲紋識別系統模型的訓練需要從大量不同說話人語音(來自不同信道和不同背景噪聲)中統計出說話人信息,從而提高系統的抗噪性。由于背景環境噪聲、傳輸信道不同,造成訓練語音和測試語音的特征分布不一樣,從而會嚴重影響到說話人識別系統的識別效果。因此對人聲的采集過程應當覆蓋盡可能多的信道和背景噪聲。科大訊飛的《語音多信道模擬與采集方法》中,采用多通道同步采集并模擬多種語音信道,能快速獲得多種信道處理后的語音數據,提高采集效率。
現有技術中采用多麥克風采集的方法存在缺少定量評估語音質量的過程,導致了保存的音頻數據需要進行再次清洗,增加額外的工作量的技術問題。
發明內容
本發明提供了一種多麥克風語音采集方法及裝置,解決了現有技術中采用多麥克風采集的方法存在缺少定量評估語音質量的過程,導致的保存的音頻數據需要進行再次清洗,增加額外的工作量的技術問題。
本發明提供了一種多麥克風語音采集方法,包括:
S1、通過多個麥克風進行語音采集,每個麥克風對應不同的語音采集通道,得到每個語音采集通道的語音信號;
S2、對語音信號進行模數轉換,得到語音數字信號;
S3、對語音數字信號的PCM二進制數據進行分幀處理,得到每幀PCM二進制數據對應的短時平穩音頻信號;
S4、依次按幀對短時平穩音頻信號進行語音激活檢測,確定短時平穩音頻信號對應的幀為語音幀或非語音幀;
S5、以預置幀數為步長對語音幀對應的片段音頻文件進行語音質量檢測,保存質量合格的片段音頻文件;
S6、將保存的質量合格的片段音頻文件拼接合成為完整的音頻文件。
可選地,步驟S2之后,步驟S3之前還包括:
通過放大電路將語音數字信號放大至預置幅值。
可選地,步驟S5具體包括:
S501、對語音幀對應的片段音頻文件進行削頂檢測,并判斷片段音頻文件是否存在削頂失真,若是,則將片段音頻文件舍棄,若否,則執行步驟S502;
S502、計算片段音頻文件的信噪比,并判斷片段音頻文件的信噪比是否高于預置信噪比閾值,若是,則執行步驟S503,若否,則將片段音頻文件舍棄;
S503、計算片段音頻文件的有效時間占比,并判斷片段音頻文件的有效時間占比是否高于預置有效時間占比閾值,若是,則執行步驟S504,若否,則將片段音頻文件舍棄;
S504、計算片段音頻文件的平均能量值,并判斷片段音頻文件的平均能量值是否高于預置平均能量值閾值,若是,則確定片段音頻質量合格,并保存片段音頻文件,若否,則將片段音頻文件舍棄。
可選地,步驟S502中計算片段音頻文件的信噪比具體為:
獲取片段音頻文件的語音平均幅值;
獲取片段音頻文件的噪聲平均幅值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州勢必可贏網絡科技有限公司,未經廣州勢必可贏網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810317139.7/2.html,轉載請聲明來源鉆瓜專利網。





