[發(fā)明專利]實現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法有效
| 申請?zhí)枺?/td> | 201310334235.X | 申請日: | 2013-08-02 |
| 公開(公告)號: | CN103440270A | 公開(公告)日: | 2013-12-11 |
| 發(fā)明(設(shè)計)人: | 吳及;呂萍;徐偉;何婷婷 | 申請(專利權(quán))人: | 清華大學(xué);安徽科大訊飛信息科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京匯智勝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11346 | 代理人: | 朱登河 |
| 地址: | 100084 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實現(xiàn) 音頻文件 重復(fù) 模式 發(fā)現(xiàn) 系統(tǒng) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,具體涉及一種實現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法。
背景技術(shù)
隨著通訊技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的音頻數(shù)據(jù)出現(xiàn)在人們的日常生活中。和文本數(shù)據(jù)不同,音頻數(shù)據(jù)是非符號化的信號數(shù)據(jù),對其處理也更為困難。音頻信號處理在信息安全和輿情監(jiān)控應(yīng)用中有著非常重要的應(yīng)用價值,特別是從海量音頻數(shù)據(jù)中自動發(fā)現(xiàn)頻繁出現(xiàn)的音頻片段,即音頻文件重復(fù)發(fā)現(xiàn),有實際意義。對電話類音頻數(shù)據(jù),利用該技術(shù)可以快速發(fā)現(xiàn)正在傳播的非法電話錄音。而對互聯(lián)網(wǎng)音視頻數(shù)據(jù),利用該技術(shù)可以快速準(zhǔn)確地挖掘出目前最流行的音視頻片段。進一步地,通過音頻文件重復(fù)模式發(fā)現(xiàn)技術(shù)可獲得重復(fù)音頻模板庫,便于利用所述音頻模板匹配技術(shù)檢測新增音頻文件中是否包含模板庫中的音頻片段,實現(xiàn)快速定位確認(rèn),及時了解音頻模板庫中的音頻模板在電話網(wǎng)或互聯(lián)網(wǎng)上的傳播情況。
現(xiàn)有的重復(fù)模式發(fā)現(xiàn)技術(shù)只能處理符號化數(shù)據(jù)的重復(fù)子集發(fā)現(xiàn)問題,對信號級別的音頻數(shù)據(jù)沒有可以使用的有效方案。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種實現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法,以解決在海量音頻庫中重復(fù)片段自動搜索的問題。
為此,本發(fā)明提供如下技術(shù)方案:
一種實現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng),包括:
獲取模塊,用于獲取各音頻文件;
特征提取模塊,用于從所述音頻文件中提取音頻比對特征;
匹配模塊,用于基于所述音頻比對特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段;
合并模塊,用于將在多個音頻文件中均出現(xiàn)的重復(fù)音頻片段進行合并,得到音頻文件重復(fù)模式。
優(yōu)選地,所述特征提取模塊包括:
降采樣單元,用于對所述音頻文件數(shù)據(jù)進行降采樣;
矢量轉(zhuǎn)化單元,用于將所述降采樣后的數(shù)據(jù)量化為二進制的特征矢量序列。
優(yōu)選地,所述匹配模塊包括:
粗匹配單元,用于基于所述音頻比對特征對任意兩個音頻文件進行粗匹配,確定各重復(fù)子段的邊界;
合并單元,用于在相鄰的兩個重復(fù)子段的長度均大于第一門限值,并且所述兩個重復(fù)子段的間隔小于第二門限值時,將所述兩個重復(fù)子段合并;
精確匹配模塊,用于基于合并后的重復(fù)子段對所述兩個音頻文件進行精確匹配,得到所述兩個音頻文件的重復(fù)音頻片段。
優(yōu)選地,所述粗匹配單元包括:
提取單元,用于依次提取其中一個音頻文件的一幀音頻比對特征;
查找單元,用于查找另一個音頻文件中與提取的所述音頻比對特征相同的匹配幀;
第一擴展單元,用于在所述查找單元查找到所述匹配幀后,分別對所述匹配幀及提取的音頻比對特征所在幀進行前后擴展;
第一邊界確定單元,用于在擴展后的時長內(nèi)確定重復(fù)子段的邊界。
優(yōu)選地,所述精確匹配單元包括:
第二擴展單元,用于對所述重復(fù)子段分別在兩個音頻文件中向上和向下擴展;
判斷單元,用于計算在擴展的視窗內(nèi)的比特錯誤率的平均得分,并且在所述平均得分小于設(shè)定值時,通知所述第二擴展單元停止擴展;
第二邊界確定單元,用于在擴展的上、下視窗內(nèi)分別確定所述兩個音頻文件的重復(fù)音頻片段的上、下邊界。
一種實現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法,包括:
獲取各音頻文件;
從所述音頻文件中提取音頻比對特征;
基于所述音頻比對特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段;
將在多個音頻文件中均出現(xiàn)的重復(fù)音頻片段進行合并,得到音頻文件重復(fù)模式。
優(yōu)選地,所述從各音頻文件中提取音頻特征包括:
對所述音頻文件數(shù)據(jù)進行降采樣;
將所述降采樣后的數(shù)據(jù)量化為二進制的特征矢量序列。
優(yōu)選地,所述基于所述音頻比對特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段包括:
基于所述音頻比對特征對任意兩個音頻文件進行粗匹配,確定各重復(fù)子段的邊界;
如果相鄰的兩個重復(fù)子段的長度均大于第一門限值,并且所述兩個重復(fù)子段的間隔小于第二門限值,則將所述兩個重復(fù)子段合并;
基于合并后的重復(fù)子段對所述兩個音頻文件進行精確匹配,得到所述兩個音頻文件的重復(fù)音頻片段。
優(yōu)選地,所述基于所述音頻比對特征對任意兩個音頻文件進行粗匹配,確定各重復(fù)子段的邊界包括:
依次提取其中一個音頻文件的一幀音頻比對特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué);安徽科大訊飛信息科技股份有限公司,未經(jīng)清華大學(xué);安徽科大訊飛信息科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310334235.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 互動業(yè)務(wù)終端、實現(xiàn)系統(tǒng)及實現(xiàn)方法
- 街景地圖的實現(xiàn)方法和實現(xiàn)系統(tǒng)
- 游戲?qū)崿F(xiàn)系統(tǒng)和游戲?qū)崿F(xiàn)方法
- 圖像實現(xiàn)裝置及其圖像實現(xiàn)方法
- 增強現(xiàn)實的實現(xiàn)方法以及實現(xiàn)裝置
- 軟件架構(gòu)的實現(xiàn)方法和實現(xiàn)平臺
- 數(shù)值預(yù)報的實現(xiàn)方法及實現(xiàn)系統(tǒng)
- 空調(diào)及其冬眠控制模式實現(xiàn)方法和實現(xiàn)裝置以及實現(xiàn)系統(tǒng)
- 空調(diào)及其睡眠控制模式實現(xiàn)方法和實現(xiàn)裝置以及實現(xiàn)系統(tǒng)
- 輸入設(shè)備實現(xiàn)方法及其實現(xiàn)裝置





