[發(fā)明專利]一種歌聲偵測(cè)的方法有效

申請(qǐng)?zhí)枺?/td>	201810170413.2	申請(qǐng)日：	2018-03-01
公開(kāi)（公告）號(hào)：	CN108538309B	公開(kāi)（公告）日：	2021-09-21
發(fā)明（設(shè)計(jì)）人：	龔俊;熊永春	申請(qǐng)（專利權(quán)）人：	杭州小影創(chuàng)新科技股份有限公司
主分類號(hào)：	G10L25/18	分類號(hào)：	G10L25/18;G10L17/00;G10L25/51;G10L25/81
代理公司：	杭州天昊專利代理事務(wù)所(特殊普通合伙) 33283	代理人：	董世博
地址：	310000 浙江省杭州市西湖***	國(guó)省代碼：	浙江;33
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種歌聲偵測(cè) 方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書】：

本發(fā)明公開(kāi)了一種歌聲偵測(cè)的方法，具體包括如下步驟：101）獲取BGM頻譜特征步驟，102）剔除BGM步驟，103）人聲判斷步驟，104）偵測(cè)數(shù)據(jù)的后處理步驟；本發(fā)明提供一種通過(guò)歌曲分析，偵測(cè)出歌聲段落，免去了手動(dòng)定位的繁瑣操作的一種歌聲偵測(cè)的方法。

技術(shù)領(lǐng)域

本發(fā)明涉及音頻處理領(lǐng)域，更具體的說(shuō)，其涉及用于一種歌聲偵測(cè)的方法。

背景技術(shù)

隨著智能手機(jī)的普及，音視頻編輯在手機(jī)上的應(yīng)用越來(lái)越廣，而利用手機(jī)制作一段自己專屬的MV逐漸成為一種風(fēng)尚。在手機(jī)上制作個(gè)人MV所選用的歌曲往往隨意性較大，在配置歌詞時(shí)，一般通用的歌詞文件所給出的時(shí)間點(diǎn)往往無(wú)法與歌曲相匹配，因此需要用戶自己配置字幕，實(shí)際使用時(shí)需要用戶自己定位以到“聲詞同步”的效果。

現(xiàn)有的做法：每一段歌唱開(kāi)始點(diǎn)，都需要用戶先聽(tīng)一下，大致確認(rèn)在什么位置，然后拖動(dòng)播放進(jìn)度條到大致范圍；再播放聽(tīng)一下，然后較為細(xì)致的來(lái)回拖動(dòng)；如此可能要反復(fù)幾輪。期間，萬(wàn)一出現(xiàn)誤操作，則需要重新來(lái)一遍。在手機(jī)上用這種手工方式做定位，需要消耗大量的時(shí)間和精力，限制了個(gè)人的創(chuàng)作與發(fā)揮。

發(fā)明內(nèi)容

本發(fā)明的目的在于提供一種通過(guò)歌曲分析，偵測(cè)出歌聲段落，免去了手動(dòng)定位的繁瑣操作的一種歌聲偵測(cè)的方法。

為了解決上述技術(shù)問(wèn)題，本發(fā)明的技術(shù)方案如下：

一種歌聲偵測(cè)的方法，具體步驟如下：

101)獲取BGM頻譜特征步驟：選定出目標(biāo)歌曲中一段沒(méi)有歌唱的純背景音樂(lè)即BGM，提取其頻譜特征，所述頻譜特征的獲取方式為先將BGM劃分為N個(gè)單元，提取每個(gè)單元的頻譜，而后求其頻譜均值來(lái)作為其頻譜特征；

102)剔除BGM步驟：根據(jù)步驟101)針對(duì)一個(gè)頻點(diǎn)，遍歷其前后5個(gè)單元的相應(yīng)頻點(diǎn)的頻譜特征，并根據(jù)頻譜特征得到的頻譜值來(lái)找出其中的次極大值；當(dāng)次極大值大于等于該值時(shí)，則該頻點(diǎn)為需要進(jìn)行剔除處理的頻點(diǎn)；

103)人聲判斷步驟：將經(jīng)過(guò)步驟102)處理后的音頻信號(hào)，利用WebRTC來(lái)判斷人聲，并將音頻信號(hào)分割為每次輸入10ms的音頻信號(hào)，WebRTC檢測(cè)后的結(jié)果為“真”表示是人聲，為“假”表示不是人聲；所述WebRTC是Google開(kāi)放項(xiàng)目，其中的VAD功能用于檢測(cè)人聲；

104)偵測(cè)數(shù)據(jù)的后處理步驟：將步驟103)的判斷后的結(jié)構(gòu)數(shù)據(jù)進(jìn)行處理，最終將以時(shí)間段落的方式呈現(xiàn)歌聲，具體包括如下處理的狀況：

將步驟103)中經(jīng)過(guò)判斷的每段檢測(cè)結(jié)果作為一個(gè)結(jié)果單元，根據(jù)其是否在歌聲區(qū)域進(jìn)行進(jìn)一步的判別處理，當(dāng)該結(jié)果單元處于歌聲區(qū)域，并且WebRTC檢測(cè)結(jié)果為“真”，則計(jì)算已有歌聲區(qū)間的長(zhǎng)度，當(dāng)其大于歌聲區(qū)間的長(zhǎng)度則判定構(gòu)建為一段歌唱區(qū)間，并進(jìn)行重置標(biāo)志量，若其小于歌聲區(qū)間的長(zhǎng)度則進(jìn)行下一個(gè)結(jié)果單元的判定；當(dāng)該結(jié)果單元處于歌聲區(qū)域，并且WebRTC檢測(cè)結(jié)果為“假”，則進(jìn)行累加靜音時(shí)長(zhǎng)，再將該靜音時(shí)長(zhǎng)與預(yù)設(shè)的一首歌的靜音閾值進(jìn)行比較，若小于靜音閾值則直接進(jìn)行下一個(gè)結(jié)構(gòu)單元的判定，若大于等于靜音閾值則計(jì)算前一段聲長(zhǎng)并與聲長(zhǎng)下限閾值進(jìn)行對(duì)比，若小于聲長(zhǎng)下限閾值則丟棄這段數(shù)據(jù)，重置標(biāo)志量，若大于下限閾值則構(gòu)建為一段歌唱區(qū)間，重置標(biāo)志量；當(dāng)該結(jié)果單元不處于歌聲區(qū)域，則進(jìn)一步判定是否是歌聲，若是，則標(biāo)志歌聲開(kāi)始，若不是，則進(jìn)行下一個(gè)結(jié)果單元的判定。

進(jìn)一步的，所述步驟102)某個(gè)需要進(jìn)行剔除處理的頻點(diǎn)的頻譜值為X(k)，則處理后的頻譜值為

X′(k)＝G*X(k) 公式(1)

其中G＝0.000001為剔除增益；因直接這樣抹除BGM，其處理后的信號(hào)平滑性仍不足。聲音會(huì)有觸發(fā)、衰減、延續(xù)、釋放的過(guò)程，因此還需進(jìn)一步結(jié)合該機(jī)理過(guò)程，在觸發(fā)和釋放階段做平滑處理。

進(jìn)一步的，所述平滑處理，具體處理方式如下：

觸發(fā)階段取20毫秒，釋放階段取100毫秒；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州小影創(chuàng)新科技股份有限公司，未經(jīng)杭州小影創(chuàng)新科技股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810170413.2/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：一種城市公交多源數(shù)據(jù)時(shí)間誤差消除方法
下一篇：用于移動(dòng)通信設(shè)備的用戶可選擇環(huán)境

同類專利

專利分類

G 物理

G10 樂(lè)器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】