[發明專利]語音處理方法、裝置、電子設備及存儲介質有效
| 申請號: | 202010612566.5 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111710332B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 曲賀;王曉瑞;李巖 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G10L15/187 | 分類號: | G10L15/187;G10L15/02;G10L15/04;G10L15/08 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 謝曲曲 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 處理 方法 裝置 電子設備 存儲 介質 | ||
1.一種語音處理方法,其特征在于,包括:
獲取待識別語音,對所述待識別語音進行分幀處理,得到多個待檢測音幀;
提取每個待檢測音幀分別對應的語音特征;
對所述每個待檢測音幀分別對應的語音特征進行分類識別,得到所述每個待檢測音幀的檢測結果;
根據所述檢測結果對所述待識別語音進行切分,得到多個目標語音片段,其中,每個目標語音片段的長度小于或者等于第一閾值,且相鄰的目標語音片段的長度之和大于或等于第二閾值;
其中,所述根據所述檢測結果,對所述待識別語音進行切分,得到多個目標語音片段,包括:
根據所述檢測結果對所述待識別語音進行切分,得到多個原始語音片段,所述原始語音片段的長度小于或者等于所述第一閾值;
對所述原始語音片段進行片段融合,得到多個目標語音片段,其中,相鄰的所述目標語音片段的長度之和大于或等于所述第二閾值。
2.根據權利要求1所述的語音處理方法,其特征在于,所述根據所述檢測結果對所述待識別語音進行切分,得到多個原始語音片段,包括:
根據所述檢測結果確定當前原始語音片段中的第一個語音幀,作為所述當前原始語音片段的起始點;
從所述起始點開始,根據所述檢測結果確定所述當前原始語音片段中的語音幀和非語音幀,所述當前原始語音片段的長度為語音幀長度和非語音幀長度之和;
當檢測到所述當前原始語音片段的長度達到第一閾值時,或者當檢測到所述當前原始語音片段未達到所述第一閾值,但所述當前原始語音片段中的非語音幀長度大于隨當前語音幀長度變化的第一值時,則
將所述當前原始語音片段中的最后一個待檢測音幀作為所述當前原始語音片段的結束點,以此類推,得到每個原始語音片段。
3.根據權利要求2所述的語音處理方法,其特征在于,所述檢測結果包括非語音幀概率;根據所述檢測結果確定所述當前原始語音片段中的語音幀和非語音幀,包括:
獲取所述當前原始語音片段中的當前待檢測音幀的非語音幀概率;
獲取更新的所述當前原始語音片段中的當前語音幀長度,根據所述當前語音幀長度更新隨當前語音幀長度變化的第二值;
將所述當前待檢測音幀的非語音幀概率與所述第二值進行比較,根據比較結果確定當前待檢測音幀的語音分類結果,所述語音分類結果包括語音幀和非語音幀。
4.根據權利要求3所述的語音處理方法,其特征在于,所述根據所述檢測結果確定所述當前原始語音片段中的語音幀和非語音幀,還包括:
當確定所述當前待檢測音幀的語音分類結果為語音幀時,更新當前原始語音片段中的當前語音幀長度,根據所述當前語音幀長度更新所述第一值。
5.根據權利要求4所述的語音處理方法,其特征在于,所述當前語音幀長度越大,則所述第一值越小;所述當前語音幀長度越大,則所述第二值越小。
6.根據權利要求1所述的語音處理方法,其特征在于,所述對所述原始語音片段進行片段融合,得到多個目標語音片段,包括:
遍歷每個所述原始語音片段,當確定相鄰的原始語音片段的長度之和小于所述第二閾值時,則合并所述相鄰的原始語音片段;
更新融合后的所述原始語音片段的長度,直至確定所有相鄰的語音片段的長度之和大于或等于所述第二閾值,得到所述多個目標語音片段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010612566.5/1.html,轉載請聲明來源鉆瓜專利網。





