[發明專利]語音審核方法及裝置在審
| 申請號: | 202010887653.1 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN114125506A | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 雒曉帆;余帆帆;費凡 | 申請(專利權)人: | 上海嗶哩嗶哩科技有限公司 |
| 主分類號: | H04N21/235 | 分類號: | H04N21/235;H04N21/233;H04N21/4788;G10L15/26;G10L25/51;G10L15/02;G10L25/24;G10L25/12 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 李曉慶 |
| 地址: | 200433 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 審核 方法 裝置 | ||
1.一種語音審核方法,包括:
獲取待識別的語音數據;
對所述語音數據進行文本處理,獲得所述語音數據的文本信息;
對所述語音數據進行音質處理,獲得所述語音數據的音質信息;
在所述文本信息和所述音質信息滿足預設審核要求的情況下,確定所述語音數據通過審核。
2.根據權利要求1所述的語音審核方法,所述對所述語音數據進行文本處理,獲得所述語音數據的文本信息包括:
對所述語音數據進行預處理,提取預處理后的語音數據的語音特征;
將所述語音特征輸入聲學模型,獲得所述語音特征對應的音素信息;
基于預設的搜索算法在文字庫中確定所述音素信息對應的文字,并根據語言模型對所述文字進行語義分析,以獲得所述語音數據的文本信息。
3.根據權利要求2所述的語音審核方法,所述對所述語音數據進行預處理,提取預處理后的語音數據的語音特征包括:
對所述語音數據進行靜音點檢測,根據所述靜音點將所述語音數據切分為多個語音片段;
基于預設的特征提取算法提取每個語音片段的語音特征。
4.根據權利要求2或3所述的語音審核方法,所述將所述語音特征輸入聲學模型,獲得所述語音特征對應的音素信息之前,還包括:
獲取語音數據樣本;
對所述語音數據樣本進行靜音點檢測,根據所述靜音點將所述語音數據樣本切分為多個語音片段樣本;
基于預設的特征提取算法提取每個語音片段樣本的語音特征樣本;
根據所述語音特征樣本以及所述語音特征樣本對應的音素信息樣本對初始聲學模型進行訓練,獲得所述聲學模型。
5.根據權利要求1、2或3所述的語音審核方法,所述對所述語音數據進行音質處理,獲得所述語音數據的音質信息包括:
將所述語音數據輸入預先訓練的音質檢測模型,獲得所述語音數據的音質信息。
6.根據權利要求5所述的語音審核方法,所述將所述語音數據輸入預先訓練的音質檢測模型,獲得所述語音數據的音質信息之前,還包括:
獲取語音數據樣本以及所述語音數據樣本對應的音質信息,其中,所述音質信息包括所述語音數據樣本的音量、音色以及波形包絡;
基于所述語音數據樣本以及所述語音數據樣本對應的音質信息對初始音質檢測模型進行訓練,以獲得所述音質檢測模型。
7.根據權利要求1、2或3所述的語音審核方法,所述對所述語音數據進行音質處理,獲得所述語音數據的音質信息包括:
對所述語音數據進行音質處理,確定所述語音數據的聲音的振幅、頻譜、振幅開始和結束的瞬態;
根據所述語音數據的聲音的振幅,獲得所述語音數據的音量;
根據所述語音數據的聲音的頻譜,獲得所述語音數據的音色;
根據所述語音數據的聲音的振幅開始和結束的瞬態,獲得所述語音數據的波形包絡。
8.根據權利要求1、2或3所述的語音審核方法,所述在所述文本信息和所述音質信息滿足預設審核要求的情況下,確定所述語音數據通過審核包括:
在所述文本信息與預設詞庫中的關鍵詞匹配,以及所述音質信息與預設音質信息匹配的情況下,確定所述語音數據通過審核。
9.根據權利要求1、2或3所述的語音審核方法,所述確定所述語音數據通過審核之后,還包括:
將所述語音數據發送至對應的視頻播放平臺。
10.根據權利要求3所述的語音審核方法,所述預設的特征提取算法包括線性預測倒譜系數算法或者梅爾頻率倒譜系數算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海嗶哩嗶哩科技有限公司,未經上海嗶哩嗶哩科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010887653.1/1.html,轉載請聲明來源鉆瓜專利網。





