[發明專利]語音激活檢測方法和裝置有效
| 申請號: | 202011572868.0 | 申請日: | 2020-12-23 |
| 公開(公告)號: | CN112614506B | 公開(公告)日: | 2022-10-25 |
| 發明(設計)人: | 王雪志;薛少飛 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L25/24 | 分類號: | G10L25/24;G10L25/87 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 激活 檢測 方法 裝置 | ||
本發明公開一種語音激活檢測方法和裝置,其中,語音激活檢測方法,包括:對接收的音頻進行處理生成音頻幀特征;基于神經網絡分類器對每一所述音頻幀特征為噪聲或語音的概率分布值進行計算;對每一所述音頻幀特征為噪聲或語音的概率分布值進行后處理,輸出每一所述音頻幀特征的狀態判定結果,其中,所述狀態判定結果包括靜音狀態、預音頻狀態、音頻狀態和預靜音狀態。本方案有效解決語音激活檢測過程中的一些異常幀以及解決人說話過程中會夾雜靜音和噪聲段的情況,極大提高語音激活檢測的準確性和可用性。通過優化語音激活檢測性能,可以進一步提升喚醒及識別性能。
技術領域
本發明屬于語音識別領域,尤其涉及語音激活檢測方法和裝置。
背景技術
語音激活檢測(VAD,Voice Activity Detection),其目的是檢測當前語音信號中是否包含語音信號存在,即對輸入信號進行判斷,將語音信號與各種背景噪聲信號區分出來,分別對兩種信號采用不同的處理方法。傳統的方式有通過過零率、短時能量來進行語音和噪聲信號的區分。最近幾年基于神經網絡的語音激活檢測蓬勃發展,極大提高了區分語音和噪聲信號的正確率。
短時過零率表示一幀語音中語音信號波形穿過橫軸(零電平)的次數,主要是基于語音音頻會有高的過零率,在沒有噪聲的位置表現良好,但是在有噪聲的地方表現并不好,抗干擾能力比較差,過零率只是統計了一定時間內波形穿過很軸的次數,當有噪聲時波形也會頻繁穿過橫軸;基于短時能量的方式同樣是計算出每幀的能量以后,根據能量的高低判斷是不是語音段,方式過于直接,實際效果差,當噪聲能量大時,也會被誤判成語音;基于神經網絡的語音激活檢測,是通過訓練一個神經網絡分類器,該分類器可以判斷一幀是否是語音還是噪聲,該方式對單幀的判斷比較好,但是沒有考慮幀之間的關系,以及實際人的語音中因為換氣的原因,語音中會有短暫的噪聲段,神經網絡本身判斷語音和噪聲幀準確率高,但是未考慮前后幀的影響、實際人的語音中因為換氣的因素,造成實際使用中性能變差。
發明內容
本發明實施例提供一種語音激活檢測方法及裝置,用于至少解決上述技術問題之一。
第一方面,本發明實施例提供一種語音激活檢測方法,包括:對接收的音頻進行處理生成音頻幀特征;基于神經網絡分類器對每一所述音頻幀特征為噪聲或語音的概率分布值進行計算;對每一所述音頻幀特征為噪聲或語音的概率分布值進行后處理,輸出每一所述音頻幀特征的狀態判定結果,其中,所述狀態判定結果包括靜音狀態、預音頻狀態、音頻狀態和預靜音狀態。
第二方面,本發明實施例提供一種語音激活檢測裝置,包括:音頻處理模塊,配置為對接收的音頻進行處理生成音頻幀特征;音頻分析模塊,基于神經網絡分類器對每一所述音頻幀特征為噪聲或語音的概率分布值進行計算;結果轉換模塊,配置為對每一所述音頻幀特征為噪聲或語音的概率分布值進行后處理,輸出每一所述音頻幀特征的狀態判定結果,其中,所述狀態判定結果包括靜音狀態、預音頻狀態、音頻狀態和預靜音狀態。
第三方面,提供一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行第一方面所述方法的步驟。
第四方面,本發明實施例還提供一種存儲介質,其包括:所述程序被處理器執行時實現第一方面所述方法的步驟
本申請實施例提供的方法通過有效解決語音激活檢測過程中的一些異常幀以及解決人說話過程中會夾雜靜音和噪聲段的情況,極大提高語音激活檢測的準確性和可用性。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明一實施例提供的一種語音激活檢測方法的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011572868.0/2.html,轉載請聲明來源鉆瓜專利網。





