[發明專利]音頻處理方法及裝置、存儲介質有效
| 申請號: | 201911215165.X | 申請日: | 2019-12-02 |
| 公開(公告)號: | CN110992984B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 楊文謹;周玎;徐常亮 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/30;G10L15/26;G10L17/00;G10L21/0272;G10L13/04;G10L13/047 |
| 代理公司: | 上海百一領御專利代理事務所(普通合伙) 31243 | 代理人: | 陳貞健;王路豐 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 處理 方法 裝置 存儲 介質 | ||
本申請實施例公開了一種音頻處理方法及裝置、存儲介質。所述音頻處理方法,包括:獲取原始音頻;基于所述原始音頻的聲學特征,識別出所述原始音頻中包含的特殊事件;獲得所述原始音頻的文本數據,提取所述文本數據的關鍵詞;根據所述特殊事件及所述關鍵詞,標注所述原始音頻生成音頻標簽。
技術領域
本申請涉及音頻技術領域,尤其涉及一種音頻處理方法及裝置、存儲介質。
背景技術
音頻是被播放后,用戶能夠聽到播放產生的聲音。在錄制或者獲取了一個原始音頻之后,用戶可能需要加工原始音頻的需求。但是現有方案完全依賴人工聽取和合成重點語音片段:用戶聽到音頻中的重點片段,手動選取時間范圍,打上有關標簽。例如,現有的音頻標注需要用戶反復拖動音頻播放條,對音頻內容反復查看,操作繁瑣特別是在直播型報道中,操作極其不便;用戶不能在第一時間將多段標注的素材輸出成一段音頻。
發明內容
有鑒于此,本申請實施例期望提供一種音頻處理方法及裝置、存儲介質。
本申請的技術方案是這樣實現的:
本申請實施例第一方面提供一種音頻處理方法,包括:
獲取原始音頻;
基于所述原始音頻的聲學特征,識別出所述原始音頻中包含的特殊事件;
獲得所述原始音頻的文本數據,提取所述文本數據的關鍵詞;
根據所述特殊事件及所述關鍵詞,標注所述原始音頻生成音頻標簽。
基于上述方案,所述方法還包括:
將所述原始音頻中不同語者的音頻數據,分離到不同音軌中得到分軌語音數據;
為每一個所述分軌語音數據分配語者標簽;其中,所述語者標簽為所述音頻標簽的一種。
基于上述方案,所述方法還包括:
根據所述音頻標簽,得到所述原始音頻的結構化音頻;
合成多個所述結構化音頻得到目標音頻。
基于上述方案,所述合成多個所述結構化音頻得到目標音頻,包括:
根據音頻模板,合成多個所述結構化音頻得到目標音頻。
基于上述方案,所述音頻模板包括:音頻獲取配置和/或音頻合成配置;
所述音頻獲取配置,用于選擇待合成所述目標音頻的所述結構化音頻;
所述音頻合成配置,用于將選擇的多個所述結構化音頻合成所述目標音頻。
基于上述方案,所述音頻獲取配置包括:音頻來源配置、標簽命中規則及音頻過濾規則的至少其中之一;
所述音頻合成配置包括:觸發規則、特殊事件預測規則、背景音樂BGM配置及音效配置的至少其中之一。
基于上述方案,所述基于所述原始音頻的聲學特征,識別出所述原始音頻中包含的特殊事件,包括:
根據所述聲學特征進行異常音分類及對異常音進行打分獲得打分值;
得到所述打分值最高的K個所述異常音的分類,其中,K為正整數;
確定K個所述異常音的分類為所述特殊事件。
基于上述方案,所述獲得所述原始音頻的文本數據,提取所述文本數據的關鍵詞,包括:
根據所述文本數據的詞頻,選擇詞頻滿足預定條件的字詞確定為所述關鍵詞。
基于上述方案,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911215165.X/2.html,轉載請聲明來源鉆瓜專利網。





