[發明專利]多標簽語音活動檢測方法、裝置及存儲介質在審
| 申請號: | 202011624418.1 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112820324A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 趙建平;馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G10L25/30;G10L25/51 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 王迎;袁文婷 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽 語音 活動 檢測 方法 裝置 存儲 介質 | ||
本發明涉及一種人工智能,揭露一種多標簽語音活動檢測方法,包括:基于預設的噪聲種子模型,從預設無標注數據中確定有標注噪聲數據;根據預設語音數據、所述預設無標注噪聲數據及所述有標注噪聲數據,確定含噪特征數據;基于所述含噪特征數據訓練神經網絡模型,直至所述神經網絡模型收斂在預設范圍內,形成語音活動檢測模型;基于所述語音活動檢測模型對待檢測語音信號進行檢測,以獲取與所述待檢測語音信號對應的輸出標簽。本發明可以提高語音活動檢測的效率和準確度。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種多標簽語音活動檢測的方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
隨著人工智能和計算機技術的快速發展,大企業的人工客服電話系統已開始逐漸升級為智能客服系統,由語音對話系統與用戶進行對話溝通,解決用戶問題,同時降低企業客服人力成本,提高效率。
然而,在智能客服語音對話系統中,各種生活場景的噪音,包含穩態噪聲,沖擊噪聲,非穩態噪聲及非相干的多人說話干擾噪聲等,在很大程度上影響了智能語音系統中語音識別的準確度,影響正常的交互和用戶體驗。目前,在語音識別過程中,構建有效的語音活動檢測模型和語音降噪算法,可改善上述情況。
但是,傳統的語音活動檢測算法多采用能量,過零率或其他語音特征,并輔以分類模型進行檢測,在真實的噪聲場景下,其魯棒性較差。同時,對于語音降噪算法而言,傳統或者深度學習的語音降噪算法,對于不同的噪聲參數和泛化能力不同,使用同一參數,對于失配場景降噪失效,反而影響到語音識別的準確度。
發明內容
本發明提供一種多標簽語音活動檢測方法、裝置、電子設備及計算機可讀存儲介質,其主要目的在于解決傳統語音活動檢測方式存在的魯棒性差、檢測準確度低等問題。
為實現上述目的,本發明提供的一種多標簽語音活動檢測方法,包括:
基于預設的噪聲種子模型,從預設無標注數據中確定有標注噪聲數據;
根據預設語音數據、所述預設無標注噪聲數據及所述有標注噪聲數據,確定含噪特征數據;
基于所述含噪特征數據訓練神經網絡模型,直至所述神經網絡模型收斂在預設范圍內,形成語音活動檢測模型;
基于所述語音活動檢測模型對待檢測語音信號進行檢測,以獲取與所述待檢測語音信號對應的輸出標簽。
可選地,基于預設的噪聲種子模型,從預設無標注數據中確定有標注噪聲數據的過程包括:
獲取包含有標注和無標注的噪聲種子模型的訓練數據;
基于所述訓練數據訓練噪聲分類模型,直至所述噪聲分類模型收斂至預設范圍內,形成所述噪聲種子模型;
通過所述噪聲種子模型從預設無標注數據中篩選噪聲數據;
對篩選出的噪聲數據添加對應的噪聲標簽,形成所述有標注噪聲數據。
可選地,所述根據預設語音數據、所述預設無標注噪聲數據及所述有標注噪聲數據,確定含噪特征數據的過程包括:
根據預設比例確定所述預設語音數據、所述預設無標注噪聲數據及所述有標注噪聲數據的數據量占比;
對所述預設語音數據、所述預設無標注噪聲數據及所述有標注噪聲數據進行混響及加噪處理,以獲取所述含噪特征數據。
可選地,所述基于所述含噪特征數據訓練多層一維卷積模型,直至所述多層一維卷積模型收斂在預設范圍內,形成語音活動檢測模型的過程包括:
提取所述含噪特征數據的特征信息;
基于所述特征信息訓練多層一維卷積模型,直至所述多層一維卷積模型收斂在預設范圍內,形成所述語音活動檢測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011624418.1/2.html,轉載請聲明來源鉆瓜專利網。





