[發明專利]音頻處理方法及裝置在審
| 申請號: | 202011111002.X | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112259083A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 林倩倩;吳凡;卓邦聲;高強;夏龍;郭常圳 | 申請(專利權)人: | 北京猿力未來科技有限公司 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/16;G10L15/06;G10L15/26;G10L25/03;G06F40/242;G06F40/279 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100102 北京市朝陽區廣順南大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 處理 方法 裝置 | ||
本說明書提供音頻處理方法及裝置,其中所述音頻處理方法包括:獲取目標音頻片段,以及與所述目標音頻片段對應的目標文本;將所述目標音頻片段轉換為待處理子文本,并在所述目標文本中確定與所述待處理子文本匹配的目標子文本;利用預設的音頻處理算法對所述目標音頻片段和所述目標子文本進行處理,獲得所述目標音頻片段對應的區別特征;根據所述區別特征建立所述目標音頻片段與所述目標子文本組成的樣本對,并將所述樣本對寫入樣本集。
技術領域
本說明書涉及音頻處理技術領域,特別涉及音頻處理方法及裝置。
背景技術
隨著互聯網技術的發展,機器學習被應用到越來越多的場景,如語音翻譯,風險預測,圖像識別等等,而不同領域的不同模型需要采用預設的樣本進行訓練才能夠使用,而在模型訓練之前獲取的數據通常是人工準備為主,主要包括數據提供和人工處理兩個過程,但是該過程不僅成本高且效率慢,需要滿足模型的訓練需求將花費較多的時間,因此亟需一種有效的方案以解決該問題。
發明內容
有鑒于此,本說明書實施例提供了一種音頻處理方法。本說明書同時涉及一種音頻處理裝置,一種計算設備,以及一種計算機可讀存儲介質,以解決現有技術中存在的技術缺陷。
根據本說明書實施例的第一方面,提供了一種音頻處理方法,包括:
獲取目標音頻片段,以及與所述目標音頻片段對應的目標文本;
將所述目標音頻片段轉換為待處理子文本,并在所述目標文本中確定與所述待處理子文本匹配的目標子文本;
利用預設的音頻處理算法對所述目標音頻片段和所述目標子文本進行處理,獲得所述目標音頻片段對應的區別特征;
根據所述區別特征建立所述目標音頻片段與所述目標子文本組成的樣本對,并將所述樣本對寫入樣本集。
可選的,所述獲取目標音頻片段,包括:
獲取音頻文件,并確定所述音頻文件對應的音量幅度特征;
根據所述音量幅度特征確定所述音頻文件中的靜默音頻片段,并按照所述靜默音頻片段對所述音頻文件進行切分;
根據切分結果確定所述目標音頻片段。
可選的,所述獲取與所述目標音頻片段對應的目標文本,包括:
獲取所述音頻文件對應的初始文本,并識別所述初始文本中的字符標記;
刪除所述字符標記中的非斷句字符標記,并根據刪除結果對所述初始文本進行標準化處理,獲得所述目標文本。
可選的,所述將所述目標音頻片段轉換為待處理子文本,包括:
將所述目標音頻片段輸入至語音識別模型進行處理,獲得所述語音識別模型輸出的所述待處理子文本。
可選的,所述在所述目標文本中確定與所述待處理子文本匹配的目標子文本,包括:
確定所述目標文本中包含的多個初始子文本,并按照文本長度對所述多個初始子文本中的各個初始子文本進行排序,獲得初始子文本列表;
計算所述待處理子文本與所述初始子文本列表中第i個初始子文本的匹配度,其中,i從1開始取值且i為正整數;
判斷所述匹配度是否大于預設匹配度閾值;
若是,將所述第i個初始子文本確定所述目標子文本;
若否,i自增1,返回執行所述計算所述待處理子文本與所述初始子文本列表中第i個初始子文本的匹配度。
可選的,所述利用預設的音頻處理算法對所述目標音頻片段和所述目標子文本進行處理,獲得所述目標音頻片段對應的區別特征步驟執行之前,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京猿力未來科技有限公司,未經北京猿力未來科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011111002.X/2.html,轉載請聲明來源鉆瓜專利網。





