[發(fā)明專利]一種基于詞匯樹的音頻片段檢索算法無效
| 申請?zhí)枺?/td> | 201110190726.2 | 申請日: | 2011-07-08 |
| 公開(公告)號: | CN102253993A | 公開(公告)日: | 2011-11-23 |
| 發(fā)明(設(shè)計)人: | 許恬菁;劉祥龍;余韡;郎波;李未 | 申請(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京科迪生專利代理有限責(zé)任公司 11251 | 代理人: | 李新華 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞匯 音頻 片段 檢索 算法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種音頻基于內(nèi)容的片段檢索的領(lǐng)域下,基于詞匯樹的量化方法,結(jié)合旋律線匹配,查找原始音頻的檢索算法。
背景技術(shù)
隨著現(xiàn)代信息技術(shù),特別是網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的迅速發(fā)展,多媒體數(shù)據(jù)已成為互聯(lián)網(wǎng)上所傳送數(shù)據(jù)的主要部分,聲音媒體是除視覺媒體外最重要的媒體。
基于內(nèi)容的音頻信息檢索技術(shù)有著廣泛的應(yīng)用前景:(1)它是音頻信息搜索引擎的關(guān)鍵技術(shù),用戶可通過該技術(shù)快速獲取所需的信息資源,還可以根據(jù)音頻信息的內(nèi)容實現(xiàn)更加靈活的信息搜索策略;(2)它可實現(xiàn)對音視頻點播和網(wǎng)上電視節(jié)目等媒體中的音頻信息進(jìn)行實時檢索、審查和有效監(jiān)控;可應(yīng)用于市場調(diào)查、網(wǎng)絡(luò)管理、信息安全等諸多領(lǐng)域;(3)它可用于各種數(shù)字音頻產(chǎn)品的版權(quán)保護(hù),如音樂的版權(quán)保護(hù),即搜索未經(jīng)授權(quán)的使用等;(4)它在音頻信息分類與統(tǒng)計技術(shù)的研究中扮演重要的角色。如在廣播電視新聞節(jié)目、學(xué)術(shù)會議的錄音報告、數(shù)字圖書館等內(nèi)容中包含著大量的語音、音樂等信息,使用音頻信息檢索技術(shù)可以有效地對這些信息進(jìn)行分類、統(tǒng)計與檢索,更好地利用這些資源。
基于詞匯樹的音頻片段檢索就是一種基于內(nèi)容的音頻信息檢索技術(shù),可以實現(xiàn)用小的片段,即時間比較短的片段,一般為10s,檢索出原始的音頻文件,并且較高的準(zhǔn)確率和較短的響應(yīng)時間。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題:基于音頻數(shù)據(jù)內(nèi)容的音頻信息的片段檢索。
本發(fā)明采用的技術(shù)方案:一種基于詞匯樹的音頻片段檢索方案,其特征在于步驟如下:
(1)采用一定量的MFCC?Peaks特征,使用k-means的聚類方法訓(xùn)練出一棵詞匯樹。詞匯樹是層次化的樹,每一層表現(xiàn)為子節(jié)點是父父節(jié)點數(shù)據(jù)的k個分類。詞匯樹的每個葉子節(jié)點被記為一個單詞。
(2)在插入數(shù)據(jù)的時候,首先提取出MFCC?Peaks特征,使用詞匯樹將特征變成單詞,將單詞按照文本檢索的方法存儲。同時還需要提取旋律線的特征,用字符串的形式存儲在數(shù)據(jù)庫中。這是一個離線的過程。
(3)在獲得一個查詢片段的時候,首先從片段提取MFCC?Peaks特征,使用相同的詞匯樹將特征變成單詞,使用文件檢索中的計算得分的方式計算庫中音頻的得分,根據(jù)得分的大小排序,獲得前5個結(jié)果。同時需要對檢索的片段提取出旋律線,在前面獲得的前5個結(jié)果中,進(jìn)一步用旋律線進(jìn)行字符串的相似匹配,根據(jù)這個得分重新對這5個結(jié)果進(jìn)行排序。
根據(jù)本發(fā)明的又一個方面,其中步驟(1)又進(jìn)一步包括:對MFCC?Peaks特征的定義。MFCC?Peaks特征定義為在MFCC上面的包含峰值點的向量。具體提取包括:
(a)首先提取音頻文件的MFCC特征。
(b)在MFCC維度和時間的二維圖上,以某個點為中心的一個大小為P的范圍內(nèi),沒有一個點的值大于這個點,這個點就認(rèn)為是峰值點。MFCC?Peaks特征指的是包含這樣的峰值點的一個MFCC向量。
根據(jù)本發(fā)明的又一個方面,其中步驟(1)還包括詞匯樹的構(gòu)建:
(a)詞匯樹的構(gòu)建:首先將所有訓(xùn)練數(shù)據(jù)劃分成K類,記下每類的中心點。然后把每類的數(shù)據(jù)再劃分成K類,記下每類的中心點。這樣遞歸,構(gòu)造成一棵L層的樹,并給樹的每個葉子節(jié)點賦值一個單詞。
其中步驟(3)還包括詞匯樹的使用。
(a)詞匯樹的使用:當(dāng)有一個特征需要轉(zhuǎn)化為單詞時,首先與樹的根節(jié)點所記下的中心點比較,找到距離最近的點,移動到對應(yīng)的子節(jié)點,直到遇到葉子節(jié)點為止,當(dāng)前葉子節(jié)點的單詞就是這個特征所量化的單詞。
附圖說明
圖1為本發(fā)明的方法基本流程圖。
具體實施方式
下面參考附圖1,對本發(fā)明的實施例進(jìn)行詳細(xì)的說明。
本發(fā)明的方法原理為:使用詞匯樹的方法把音頻片段檢索的問題轉(zhuǎn)化為文本的檢索問題,同時可以結(jié)合現(xiàn)有的旋律線匹配等方法進(jìn)一步調(diào)整前5個返回結(jié)果,實現(xiàn)高效率、高準(zhǔn)確率的音頻片段檢索。
具體而言,本發(fā)明所提出的方法基本流程如圖1所示。
本發(fā)明主要包括如下步驟:
(1)采用一定量的MFCC?Peaks特征,使用k-means的聚類方法訓(xùn)練出一棵詞匯樹,詞匯樹是層次化的樹,每一層表現(xiàn)為子節(jié)點是父父節(jié)點數(shù)據(jù)的k個分類,詞匯樹的每個葉子節(jié)點被記為一個單詞;
(2)在插入數(shù)據(jù)的時候,首先提取出MFCC?Peaks特征,使用詞匯樹將特征變成單詞,將單詞按照文本檢索的方法存儲,同時還需要提取旋律線的特征,用字符串的形式存儲在數(shù)據(jù)庫中,這是一個離線的過程;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110190726.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:電子裝置
- 下一篇:一種移動終端定位精度改進(jìn)方法





