[發(fā)明專利]音頻特征點的檢測方法、裝置和計算機存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201911243686.6 | 申請日: | 2019-12-06 |
| 公開(公告)號: | CN112927713A | 公開(公告)日: | 2021-06-08 |
| 發(fā)明(設(shè)計)人: | 張偉;劉瑤;陳仁健 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/51;G10L25/57 |
| 代理公司: | 深圳市深佳知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285 | 代理人: | 常忠良 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 特征 檢測 方法 裝置 計算機 存儲 介質(zhì) | ||
本申請?zhí)峁┮环N音頻特征點的檢測方法、裝置和計算機存儲介質(zhì),獲取待檢測音頻,將待檢測音頻按預(yù)設(shè)的間隔劃分為多個音頻幀,基于時頻轉(zhuǎn)換算法計算每一個音頻幀在目標頻段的音頻信號強度,目標頻段指代預(yù)先指定的頻率區(qū)間,最后檢測得到待檢測音頻中的目標音頻幀;其中,目標音頻幀指代目標頻段的音頻信號強度滿足強度檢測條件的音頻幀;待檢測音頻的部分或全部目標音頻幀對應(yīng)的時間點作為待檢測音頻的特征點。本方案能夠計算各個音頻幀在特定音源所對應(yīng)的頻率區(qū)間上的信號強度,從而準確識別出音頻中特定音源的強度峰值。
技術(shù)領(lǐng)域
本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,特別涉及一種音頻特征點的檢測方法、裝置和計算機存儲介質(zhì)。
背景技術(shù)
音頻的特征點,指代音頻中具有用戶所指定的特征的若干個時間點,在視頻編輯和制作時,用戶需要檢測出視頻的背景音樂的特征點,在這些特征點處設(shè)置視頻特效,或者以這些特征點作為視頻畫面切換的時間點。
現(xiàn)有的檢測音頻的特征點的方式是,直接檢測音頻信號中的信號強度的峰值所對應(yīng)的時間點,然后將這些時間點作為特征點輸出給用戶。
音頻一般由多種不同音源產(chǎn)生的聲音組合而成(例如,多種樂器合奏中,不同樂器就是不同音源)。這類音頻中,用戶可能需要以其中某種音源的聲音的強度峰值對應(yīng)的時間點作為特征點,而現(xiàn)有的檢測方法以音頻整體的信號強度作為特征點檢測的依據(jù),難以識別出其中用戶指定的音源對應(yīng)的強度峰值,無法滿足用戶的需求。
發(fā)明內(nèi)容
基于上述現(xiàn)有技術(shù)的缺點,本申請?zhí)峁┮环N音頻特征點的檢測方法,以解決現(xiàn)有的檢測方法無法具體識別特定音源的強度峰值的問題。
本申請第一方面提供一種音頻特征點的檢測方法,包括:
獲取待檢測音頻;
將所述待檢測音頻按預(yù)設(shè)的間隔劃分為多個音頻幀;
針對每一個所述音頻幀,基于時頻轉(zhuǎn)換算法計算所述音頻幀的目標頻段的音頻信號強度;其中,所述目標頻段,指代預(yù)先指定的頻率區(qū)間;
檢測得到多個所述音頻幀中的目標音頻幀;其中,所述目標音頻幀指代目標頻段的音頻信號強度滿足強度檢測條件的音頻幀;所述待檢測音頻的部分或全部目標音頻幀對應(yīng)的時間點作為所述待檢測音頻的特征點。
可選的,所述檢測得到多個所述音頻幀中的目標音頻幀,包括:
針對每一個所述音頻幀,將所述音頻幀的目標頻段的音頻信號強度與預(yù)設(shè)的強度閾值進行比對;
將目標頻段的音頻信號強度大于所述強度閾值的音頻幀,確定為目標音頻幀。
可選的,所述檢測得到多個所述音頻幀中的目標音頻幀,包括:
針對每一個所述音頻幀,計算所述音頻幀的目標頻段的音頻信號強度,和所述音頻幀對應(yīng)的每一個第一參考音頻幀的目標頻段的音頻信號強度的差值;其中,所述音頻幀對應(yīng)的第一參考音頻幀,指代所述音頻幀之前的N個音頻幀和所述音頻幀之后的N個音頻幀,所述N是預(yù)設(shè)的正整數(shù);
將目標頻段的音頻信號強度,和對應(yīng)的每一個參考音頻幀的目標頻段的音頻信號強度的差值均大于預(yù)設(shè)的閾值的音頻幀,確定為所述目標音頻幀。
可選的,所述檢測得到多個所述音頻幀中的目標音頻幀之前,還包括:
針對每一個所述音頻幀,對所述音頻幀的目標頻段的音頻信號強度,以及所述音頻幀的第二參考音頻幀的目標頻段的音頻信號強度進行加權(quán)計算,得到所述音頻幀的加權(quán)后的目標頻段的音頻信號強度;其中,所述第二參考音頻幀指代所述音頻幀之前的M個音頻幀和所述音頻幀之后的M個音頻幀,所述M是預(yù)設(shè)的正整數(shù);
其中,所述目標音頻幀指代,加權(quán)后的目標頻段的音頻信號強度滿足強度檢測條件的音頻幀。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911243686.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





