[發(fā)明專利]一種基于稀疏編碼的音頻場(chǎng)景識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201610387696.7 | 申請(qǐng)日: | 2016-06-02 |
| 公開(公告)號(hào): | CN107464556A | 公開(公告)日: | 2017-12-12 |
| 發(fā)明(設(shè)計(jì))人: | 徐杰;陳訓(xùn)遜;王博;王東安;包秀國 | 申請(qǐng)(專利權(quán))人: | 國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心 |
| 主分類號(hào): | G10L15/02 | 分類號(hào): | G10L15/02;G10L15/06;G10L19/005 |
| 代理公司: | 北京華仲龍騰專利代理事務(wù)所(普通合伙)11548 | 代理人: | 黃玉玨 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 稀疏 編碼 音頻 場(chǎng)景 識(shí)別 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)信息安全、多媒體檢索技術(shù)領(lǐng)域,特別涉及一種基于稀疏編碼的音頻場(chǎng)景識(shí)別方法。
背景技術(shù)
音頻場(chǎng)景識(shí)別,是在最高層次的語義上的應(yīng)用。它的應(yīng)用范圍也很廣泛,可以通過音頻場(chǎng)景層次上對(duì)音頻信號(hào)的處理,使音頻信號(hào)處理變得更加智能。場(chǎng)景層次的音頻信號(hào)處理主要作用體現(xiàn)在:音頻場(chǎng)景識(shí)別對(duì)于來自于互聯(lián)網(wǎng)的海量數(shù)據(jù)信息,可以提供一個(gè)基于音頻內(nèi)容的索引和檢索,對(duì)于現(xiàn)代的網(wǎng)絡(luò)搜索引擎來說,無論是技術(shù)還是應(yīng)用上均有良好的補(bǔ)充和完善;音頻場(chǎng)景識(shí)別在數(shù)字圖書館、多媒體網(wǎng)站等一些含有海量的音頻信息的數(shù)據(jù)資料庫中,可以智能的分類和管理這些信息數(shù)據(jù);音頻場(chǎng)景識(shí)別在監(jiān)控領(lǐng)域中,可以實(shí)時(shí)的對(duì)電梯、停車場(chǎng)等公共場(chǎng)所進(jìn)行突發(fā)狀況的監(jiān)測(cè)和預(yù)警;音頻場(chǎng)景識(shí)別在可以為信息智能化的決策系統(tǒng)提供基于音頻的信息支持,在如無人駕駛和智能家居領(lǐng)域中,音頻場(chǎng)景識(shí)別都有著重要的作用。
為了進(jìn)行音頻場(chǎng)景識(shí)別,需要將音頻信號(hào)映射到一個(gè)字典集上進(jìn)行分析:x=D*a中,用x表示原始音頻信號(hào)(列向量),D為得到的字典(dictionary),a即為在字典D上原始音頻信號(hào)x的表達(dá)。為了得到a,比較流行的方法有傅立葉變換、小波變換、PCA等,這些方法得到的字典都是預(yù)先設(shè)定好的,手動(dòng)設(shè)定一個(gè)好的字典是非常困難的,并且其復(fù)雜度和幾何特性在表征不同信號(hào)時(shí)變化很大,而且對(duì)字典中“基”(basis)要求太苛刻,它們必須是正交的,雖然此限制可以簡化問題,但同時(shí)限制了解決問題的靈活性。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的缺陷,提供一種基于稀疏編碼的音頻場(chǎng)景識(shí)別方法。
本發(fā)明的技術(shù)方案是,一種基于稀疏編碼的音頻場(chǎng)景識(shí)別方法,該方法包括如下步驟:
(1)原子庫生成;對(duì)目標(biāo)場(chǎng)景的訓(xùn)練音頻信號(hào)樣本進(jìn)行訓(xùn)練,得到一個(gè)目標(biāo)場(chǎng)景的原子庫D1,對(duì)于目標(biāo)集外的訓(xùn)練音頻信號(hào)樣本進(jìn)行訓(xùn)練,得到一個(gè)集外的原子庫D2;原子庫D1中的原子,是具有目標(biāo)場(chǎng)景特點(diǎn)的;而集外原子庫D2中的原子,則不具有目標(biāo)場(chǎng)景的特點(diǎn);
將音頻信號(hào)定義為X=[x1,x2,…,xn],其中音頻信號(hào)的特征為m維,λ為正則化參 數(shù),原子庫D有k列,每列都是一個(gè)原子,其中m和k的大小遠(yuǎn)小于n,且滿足原子庫的冗余性和過完備,即m小于k;信號(hào)在過完備冗余原子庫上的分解具有稀疏性;
由樣本X訓(xùn)練得到的原子庫D,對(duì)于每一個(gè)樣本中的音頻信號(hào),進(jìn)行稀疏表示;對(duì)于樣本X在D上分解的系數(shù)設(shè)為α=[α1,α2,…,αn],原子庫的學(xué)習(xí),就是建立一個(gè)樣本在稀疏表示時(shí),能夠使用最少的原子進(jìn)行表示的原子庫,如下式:
(2)對(duì)待測(cè)的音頻信號(hào),將音頻信號(hào)在原子庫D上進(jìn)行分解,得到一個(gè)稀疏的系數(shù)α;
根據(jù)這個(gè)系數(shù)中不為零的項(xiàng),找到這些項(xiàng)在原子庫中對(duì)應(yīng)的原子,統(tǒng)計(jì)這些原子的類別標(biāo)簽,其中對(duì)應(yīng)目標(biāo)場(chǎng)景的音頻信號(hào)統(tǒng)計(jì)值為集外音頻信號(hào)統(tǒng)計(jì)值為k1為目標(biāo)場(chǎng)景的原子庫D1的原子數(shù),k2為集外的原子庫D2的原子數(shù);
(3)比較統(tǒng)計(jì)值Rt和Ro的大小,較大的統(tǒng)計(jì)值對(duì)應(yīng)的場(chǎng)景即為識(shí)別結(jié)果。
本發(fā)明的有益效果在于:本發(fā)明使用稀疏分解的理論,提取出了一種音頻信號(hào)的稀疏特征,這種特征具有長時(shí)的性質(zhì),在音頻場(chǎng)景識(shí)別方面具有良好的效果。
附圖說明
圖1為基于稀疏編碼的音頻場(chǎng)景識(shí)別框架
具體實(shí)施方式
下面,結(jié)合附圖對(duì)于本發(fā)明進(jìn)行如下詳細(xì)說明:
本發(fā)明的方法包括如下步驟;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心,未經(jīng)國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610387696.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:香熏加濕機(jī)
- 下一篇:月餅包裝盒(喜氣洋洋賀中秋)
- 體征碼及其編碼方法
- 編碼裝置和編碼方法以及解碼裝置和解碼方法
- 聲音信號(hào)編碼方法、聲音信號(hào)解碼方法、編碼裝置、解碼裝置、聲音信號(hào)處理系統(tǒng)、聲音信號(hào)編碼程序以及聲音信號(hào)解碼程序
- 用于下一代視頻的編碼/未編碼的數(shù)據(jù)的內(nèi)容自適應(yīng)熵編碼
- 編碼光符號(hào)編碼
- 一種可變幀率的編碼方法及裝置
- 一種物聯(lián)網(wǎng)編碼方法及系統(tǒng)
- 點(diǎn)陣編碼及解碼方法
- 一種視頻編碼方法、裝置和存儲(chǔ)介質(zhì)
- 視頻編碼方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置





