[發明專利]一種歌聲偵測的方法有效
| 申請號: | 201810170413.2 | 申請日: | 2018-03-01 |
| 公開(公告)號: | CN108538309B | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 龔俊;熊永春 | 申請(專利權)人: | 杭州小影創新科技股份有限公司 |
| 主分類號: | G10L25/18 | 分類號: | G10L25/18;G10L17/00;G10L25/51;G10L25/81 |
| 代理公司: | 杭州天昊專利代理事務所(特殊普通合伙) 33283 | 代理人: | 董世博 |
| 地址: | 310000 浙江省杭州市西湖*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 歌聲 偵測 方法 | ||
1.一種歌聲偵測的方法,其特征在于,具體步驟如下:
101)獲取BGM頻譜特征步驟:選定出一段目標歌曲中沒有歌唱的純背景音樂即BGM,提取其頻譜特征,所述頻譜特征的獲取方式為先將BGM劃分為N個單元,提取每個單元的頻譜,而后求其頻譜均值來作為其頻譜特征;
102)剔除BGM步驟:根據步驟101)針對一個頻點,遍歷其前后5個單元的相應頻點的頻譜特征,并根據特征頻譜值來找出其中的次極大值,當次極大值大于等于頻譜值時,則該頻點為需要進行剔除處理的頻點;
103)人聲判斷步驟:將經過步驟102)處理后的音頻信號,利用WebRTC來判斷人聲,并將音頻信號分割為每次輸入10ms的音頻信號,WebRTC檢測后的結果為“真”表示是人聲,為“假”表示不是人聲;所述WebRTC是Google開放項目,其中的VAD功能用于檢測人聲;
104)偵測數據的后處理步驟:將步驟103)的判斷后的結果數據進行處理,最終將以時間段落的方式呈現歌聲,具體包括如下處理的狀況:
將步驟103)中經過判斷的每段檢測結果作為一個結果單元,根據其是否在歌聲區域進行進一步的判別處理,當該結果單元處于歌聲區域,并且WebRTC檢測結果為“真”,則計算已有歌聲區間的長度,當其大于歌聲區域的長度則判定構建為一段歌唱區間,并進行重置標志量,若其小于歌聲區域的長度則進行下一個結果單元的判定;當該結果單元處于歌聲區域,并且WebRTC檢測結果為“假”,則進行累加靜音時長,再進行比較該靜音時長與預設的一首歌的靜音閾值,若小于靜音閾值則直接進行下一個結果單元的判定,若大于靜音閾值則計算聲長,并與聲長下限閾值進行對比,若小于聲長下限閾值則丟棄這段數據,重置標志量,若大于聲長下限閾值則構建為一段歌唱區間,重置標志量;當該結果單元不處于歌聲區域,則進一步判定是否是歌聲,若是,則標志歌聲開始,若不是,則進行下一個結果單元的判定。
2.根據權利要求1所述的一種歌聲偵測的方法,其特征在于,所述步驟102)某個需要進行剔除處理的頻點的頻譜值為X(k),則處理后的頻譜值為
X′(k)=G*X(k) 公式(1)
其中G=0.000001為剔除增益;因直接這樣抹除BGM,其處理后的信號平滑性仍不足;聲音會有觸發、衰減、延續、釋放的過程,在觸發和釋放階段做平滑處理。
3.根據權利要求2所述的一種歌聲偵測的方法,其特征在于,所述平滑處理,具體處理方式如下:
觸發階段取20毫秒,釋放階段取100毫秒;
觸發階段,每一個單元的增益G1有:
G1=10gain/(20.0*(1+Ta*SampleRate/StepSize)) 公式(2)
其中,Ta是觸發時長,SampleRate是信號的采樣率,StepSize是分析步進,綜合性能與平滑度取StepSize=N/4,gain是以分貝計量的增益;
可通過如下公式(3)換算得到:
gain=20*log10G 公式(3)
釋放階段,每一個單元的增益G2有:
G2=10gain/(20.0*(1+Tr*SampleRate/StepSize)) 公式(4)
其中,Tr是釋放時長,其他參量含義與公式(2)相同。
4.根據權利要求3所述的一種歌聲偵測的方法,其特征在于,所述觸發階段、釋放階段在應用時,會出現一下子將信號衰減到很小,這就會大大降低信號的平滑度,因此需將所要求衰減的增益與觸發增益比較,取其中較大的值,以保證處理后的信號在時域上有較好的平滑度。
5.根據權利要求2所述的一種歌聲偵測的方法,其特征在于,所述觸發階段、釋放階段在應用時,在時域上的平滑處理,能保證處理后的信號隨時間不會出現過大躍變,但同一時間點,信號相鄰頻點之間仍存在出現躍變的狀況,因此會對出現該躍變進行處理;
令某一頻點的增益為Gi,前一個頻點的增益為Gi-1,后一個頻點的增益為Gi+1,取該頻點前后頻點增益的均值,平滑后,該頻點的增益為
進一步,轉換后得到公式(6):
X′(k)=G′*X(k) 公式(6)
其中G'是經過上述時域頻域平滑后的信號增益。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州小影創新科技股份有限公司,未經杭州小影創新科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810170413.2/1.html,轉載請聲明來源鉆瓜專利網。





