[發明專利]音頻識別方法和裝置、錄音終端及服務器、存儲介質有效
| 申請號: | 202010852414.2 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN111986657B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 沈忱;梁志婷;李健;王玉好 | 申請(專利權)人: | 上海明略人工智能(集團)有限公司 |
| 主分類號: | G10L15/05 | 分類號: | G10L15/05;G10L25/48;G10L25/78;G10L25/84 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 周婷婷 |
| 地址: | 200232 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 識別 方法 裝置 錄音 終端 服務器 存儲 介質 | ||
本發明公開了一種音頻識別方法和裝置、錄音終端及服務器、存儲介質。其中,該方法包括:獲取原始音頻數據;基于語音活動檢測VAD按照至少兩種語音強度生成至少兩個參考音頻文件;對至少兩個參考音頻文件分別進行識別標記,得到每個參考音頻文件中的語音標記數據;其中,語音標記數據用于指示參考音頻文件中的語音片段;將至少兩個參考音頻文件和各自對應的語音標記數據發送至服務器,以使服務器從至少兩個參考音頻文件中確定出目標音頻文件,并分離出目標音頻文件中的語音片段和噪音片段。本發明解決了相關技術提供的音頻識別方法存在識別處理操作較為復雜的技術問題。
技術領域
本發明涉及語音處理和識別技術領域,具體而言,涉及一種音頻識別方法和裝置、錄音終端及服務器、存儲介質。
背景技術
在對語音采用自動語音識別技術(Automatic?Speech?Recognition,簡稱ASR)進行轉錄前,需要對同一段音頻文件中不同人的聲音進行分離。但當錄音設備有多個時,就需要對多個錄音設備各自的音軌進行噪音處理,也就需要對多路音軌同時進行語音和噪聲分離才能完成ASR的轉錄工作。
也就是說,目前相關技術提供的音頻識別方法存在識別處理操作較為復雜的問題。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種音頻識別方法和裝置、錄音終端及服務器、存儲介質,以至少解決相關技術提供的音頻識別方法存在識別處理操作較為復雜的技術問題。
根據本發明實施例的一個方面,提供了一種音頻識別方法,包括:獲取原始音頻數據;基于語音活動檢測VAD按照至少兩種語音強度生成至少兩個參考音頻文件;對上述至少兩個參考音頻文件分別進行識別標記,得到每個參考音頻文件中的語音標記數據;其中,上述語音標記數據用于指示上述參考音頻文件中的語音片段;將上述至少兩個參考音頻文件和各自對應的上述語音標記數據發送至服務器,以使上述服務器從上述至少兩個參考音頻文件中確定出目標音頻文件,并分離出上述目標音頻文件中的語音片段和噪音片段。
根據本發明實施例的另一方面,還提供了一種音頻識別方法,包括:接收錄音終端發送的至少兩個參考音頻文件以及各自對應的語音標記數據;其中,上述至少兩個參考音頻文件是基于語音活動檢測VAD按照至少兩種語音強度生成的,上述語音標記數據用于指示上述參考音頻文件中的語音片段;基于自動語音識別ASR從至少兩個上述參考音頻文件中,確定出目標音頻文件;根據上述目標音頻文件對應的語音標記數據以及上述目標音頻文件中噪音的強度值,分離上述目標音頻文件中的語音片段和噪音片段。
根據本發明實施例的又一方面,還提供了一種音頻識別裝置,包括:第一獲取單元,用于獲取原始音頻數據;第一處理單元,用于基于語音活動檢測VAD按照至少兩種語音強度生成至少兩個參考音頻文件;第一標記單元,用于將上述至少兩個參考音頻文件分別進行識別標記,得到每組參考音頻文件對應的語音標記數據;其中,上述語音標記數據用于指示上述參考音頻文件中的語音片段;第一發送單元,用于將上述至少兩個參考音頻文件和各自對應的上述語音標記數據發送至服務器,以使上述服務器從上述至少兩個參考音頻文件中確定出目標音頻文件,并分離出上述目標音頻文件中的語音片段和噪音片段。
根據本發明實施例的又一方面,還提供了一種音頻識別裝置,包括:第一接收單元,用于接收錄音終端發送的至少兩個參考音頻文件以及各自對應的語音標記數據,其中,上述至少兩個參考音頻文件是基于語音活動檢測VAD按照至少兩種語音強度生成的,上述語音標記數據用于指示上述參考音頻文件中的語音片段;第一確定單元,用于基于自動語音識別ASR從至少兩個上述參考音頻文件中,確定出目標音頻文件;第一分離單元,用于根據上述目標音頻文件對應的語音標記數據以及上述目標音頻文件中噪音的強度值,分離上述目標音頻文件中的語音片段和噪音片段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海明略人工智能(集團)有限公司,未經上海明略人工智能(集團)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010852414.2/2.html,轉載請聲明來源鉆瓜專利網。





