[發明專利]復合語音識別方法、裝置、設備及計算機可讀存儲介質有效
| 申請號: | 201910601019.4 | 申請日: | 2019-07-04 |
| 公開(公告)號: | CN110444202B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 吳冀平;彭俊清;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L25/24;G10L25/18;G10L25/27;G10L15/06 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 何姣 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 復合 語音 識別 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本發明涉及人工智能領域,使用了深度學習實現了通過膠囊網絡模型識別出復合語音信號的語音類型。具體共公開了一種復合語音識別方法、裝置、計算機設備及計算機可讀存儲介質,該方法包括:實時或定時檢測預置范圍內的復合語音;當檢測到所述復合語音時,獲取所述復合語音的聲音信號;對所述聲音信號進行短時傅里葉變換,生成所述復合語音信號的時頻圖;基于預置膠囊網絡模型,提取所述時頻圖的多個頻譜,獲取各個所述頻譜的梅爾頻率倒譜系數;通過所述預置膠囊網絡模型,計算出各個所述梅爾頻率倒譜系數的向量模,并根據各個所述梅爾頻率倒譜系數的向量模確定所述復合語音的類型。
技術領域
本發明涉及人工智能領域,尤其涉及復合語音識別方法、裝置、設備及計算機可讀存儲介質名稱。
背景技術
聲音事件檢測目的是自動地通過聲音檢測特定事件的發生和結束時間,并且對每個事件給出標簽。在這種技術的協助之下,計算機可以通過聲音理解周圍的環境,并且對其做出響應。聲音事件檢測在日常生活中具有廣闊的應用前景,包括聲音監測、生物聲學監測和智能家居等。根據是否允許多個聲音事件同時發生,分為單一或者復合聲音事件檢測。在單一聲音事件檢測中,頻譜中每個單獨的聲音事件都有一定的頻率以及幅度,但是對于復合聲音事件檢測,這些頻率或幅度可能重疊,現有的聲音檢測技術主要針對單一的聲音進行檢測識別,無法識別同時發生的重疊復合聲音類型。
發明內容
本發明的主要目的在于提供一種復合語音識別方法、裝置、設備及計算機可讀存儲介質名稱,旨在解決現有的聲音檢測技術無法識別同時發生的重疊復合聲音類型。
第一方面,本申請一種復合語音識別方法,所述復合語音識別方法包括:
實時或定時檢測預置范圍內的復合語音;
當檢測到所述復合語音時,獲取所述復合語音信號的聲音信號;
對所述聲音信號進行短時傅里葉變換,生成所述復合語音信號的時頻圖;
基于預置膠囊網絡模型,提取所述時頻圖的多個頻譜,獲取各個所述頻譜的梅爾頻率倒譜系數;
通過所述預置膠囊網絡模型,計算出各個所述梅爾頻率倒譜系數的向量模,并根據各個所述梅爾頻率倒譜系數的向量模確定所述復合語音的類型。
第二方面,本申請還提供一種復合語音識別裝置,所述復合語音識別裝置包括:
檢測單元,用于實時或定時檢測預置圍內的復合語音;
第一獲取模塊,用于當檢測到所述復合語音時,獲取所述復合語音的聲音信號;
生成模塊,用于對所述聲信號進行短時傅里葉變換,生成所述復合語音的時頻圖;
第二獲取模塊,用于基于預置膠囊網絡模型,提取所述時頻圖的多個頻譜圖,獲取各個所述頻譜圖的梅爾頻率倒譜系數;
第三獲取模塊,用于通過所述預置膠囊網絡模型,計算出各個所述梅爾頻率倒譜系數的向量模,并根據各個所述梅爾頻率倒譜系數的向量模確定獲取所述復合語音的類型。
第三方面,本申請還提供一種計算機設備,所述計算機設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的復合語音識別程序,所述復合語音識別程序被所述處理器執行時實現如上發明所述復合語音識別方法的步驟。
第四方面,本申請還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有復合語音識別程序,所述復合語音識別序被處理器執行時實現如上發明所述的復合語音識別方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910601019.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:飛行器的語音識別系統和方法
- 下一篇:語音識別方法、裝置及電子設備





