[發明專利]一種基頻序列處理方法及裝置在審
| 申請號: | 201510834183.1 | 申請日: | 2015-11-25 |
| 公開(公告)號: | CN106776664A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 姚光超;唐文琦 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 王玲,王寶筠 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基頻 序列 處理 方法 裝置 | ||
技術領域
本發明實施例涉及信號處理技術領域,具體涉及一種基頻序列處理方法及裝置。
背景技術
基于內容的音頻檢索(英文全稱為Content Based Music Information Retrieval,英文簡稱為CBMIR)是一種新的音樂檢索方式,不同于傳統的文本檢索方式,基于內容的音頻檢索利用音樂本身的特征對其進行自動分類和匹配,從而取代文本描述的方式檢索音樂,給用戶帶來更多的便利和更好的用戶體驗。哼唱檢索(英文全稱為Query By Singing/Humming,英文簡稱為QBSH)是一種基于內容的音頻檢索方式,其通過用戶哼唱歌曲片段的方式進行檢索,是對傳統文本檢索的擴展,給用戶帶來了很大的便利。
現有技術中,哼唱檢索一般是從用戶哼唱的旋律中提取基頻序列,然后將基頻序列與預設的曲庫中的音樂進行相似度計算,從而獲得匹配結果。基頻序列提取結果正確與否對后續的匹配結果影響很大,因此基頻提取就成為一個重要的研究課題。然而,現有技術存在的基頻提取方法在準確率方面還沒有達到一個十分令人滿意的水平。發明人在實現本發明的過程中發現,當語音是一個干凈的語音時,大部分的基頻提取算法的結果都很好,但是當語音中混有較強的噪聲,或者語音是多個語音的混合,從而同時含有多個基頻的時候,現有技術的基頻提取結果都不十分準確。
發明內容
本發明實施例提供了一種基頻序列處理方法及裝置,可以提高提取的基頻序列的準確性。
為此,本發明實施例提供如下技術方案:
一方面,本發明實施例提供了一種基頻序列處理方法,所述方法包括:
獲取哼唱旋律對應的基頻序列;
對所述基頻序列進行平滑處理;
刪除平滑處理后的基頻序列的首部和/或尾部存在的靜音部分;
變換處理后的基頻序列,生成音符序列。
進一步地,所述對所述基頻序列進行平滑處理包括:
對所述基頻序列進行中值濾波處理和/或線性濾波處理。
進一步地,所述對所述基頻序列進行中值濾波處理包括:
獲取所述基頻序列第一時刻的基頻值;
以所述第一時刻為中心確定滑動時間窗,獲取所述滑動時間窗內各時刻的基頻值,確定所述各時刻的基頻值對應的基頻中值;
使用所述基頻中值替換所述第一時刻的基頻值。
進一步地,所述對所述基頻序列進行線性濾波處理包括:
獲取所述基頻序列中第一時刻的基頻值;
以所述第一時刻為中心確定滑動時間窗,獲取所述滑動時間窗內各時刻的基頻值,確定所述各時刻的基頻值對應的加權平均值;
使用所述加權平均值替換所述第一時刻的基頻值。
進一步地,所述刪除滑處理后的基頻序列的首部和/或尾部存在的靜音部分包括:
掃描所述基頻序列,將所述基頻序列第一個非零點之前的部分和/或所述基頻序列最后一個非零點之后的部分刪除。
進一步地,在對所述基頻序列進行平滑處理之后、在變換處理后的基頻序列之前,所述方法還包括:
對平滑處理后的基頻序列的中間部分存在的靜音部分進行補齊處理。
進一步地,將平滑處理后的基頻序列的中間部分存在的靜音部分進行補齊處理包括:
掃描所述基頻序列,獲取所述基頻序列第一個非零點之后的零點的位置;
獲取所述零點之前的前N個點的平均值;N為正整數;
使用所述平均值替換所述零點的值。
進一步地,所述變換處理后的基頻序列,生成音符序列包括:
將所述基頻序列從頻率域轉換到對數域;
獲取基頻軌跡變化點,生成基頻階梯;
對所述基頻階梯進行平滑處理,生成音符序列;
合并所述音符序列中的短音符,生成完整的音符序列。
進一步地,所述獲取基頻軌跡變化點,生成基頻階梯包括:
獲取所述基頻序列中第i個基頻點的基頻值與第i-1個基頻點的基頻值之間的差值di,以及,所述基頻序列中第i個基頻點的基頻值與第i+1個基頻點的基頻值之間的差值di+1;
當確定所述差值di以及差值di+1均大于第一閾值時,則確定所述第i個基頻點為基頻軌跡變化點;
獲取差值di與差值di+1之間的較小值對應的基頻值,使用所述較小值對應的基頻值替換所述基頻軌跡變化點的基頻值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510834183.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:音頻文件的壓縮方法和裝置
- 下一篇:關鍵詞的投放方法和裝置





