[發(fā)明專利]基于交叉熵的音頻指紋快速搜索方法無效
| 申請?zhí)枺?/td> | 200910241366.7 | 申請日: | 2009-12-07 |
| 公開(公告)號: | CN101853262A | 公開(公告)日: | 2010-10-06 |
| 發(fā)明(設(shè)計)人: | 歐智堅;林暉 | 申請(專利權(quán))人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京眾合誠成知識產(chǎn)權(quán)代理有限公司 11246 | 代理人: | 朱琨 |
| 地址: | 100084 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 交叉 音頻 指紋 快速 搜索 方法 | ||
1.基于交叉熵的音頻指紋快速搜索方法,其特征在于,是在計算機中依次按以下步驟實現(xiàn)的:
步驟(1)計算機初始化:
設(shè)置:共分量高斯混合模型生成模塊,基于共分量高斯混合模型的音頻指紋提取模塊,廣義動態(tài)時序比對模塊,其中:
所述共分量高斯混合模型生成模塊,使用事先采集好的約100個小時的音頻數(shù)據(jù),進行最大似然參數(shù)估計,創(chuàng)建一個共分量高斯混合模型;
所述音頻指紋提取模塊,基于所述共分量高斯混合模型提取音頻指紋,并且用交叉熵衡量音頻指紋間距離;
所述廣義動態(tài)時序比對模塊,以滑動窗方式將用戶指定音頻段與輸入音頻流進行指紋比較,判斷音頻流中是否包含有指定音頻段。
步驟(2)按以下步驟創(chuàng)建一個共分量高斯混合模型:
步驟(2.1)事先采集好約100個小時的音頻數(shù)據(jù)。經(jīng)過短時傅立葉分析,以10毫秒為一幀提取一個倒譜特征矢量。
步驟(2.2)利用步驟(2.1)得到的倒譜特征矢量集,進行最大似然參數(shù)估計,創(chuàng)建一個共分量高斯混合模型。該模型包含M個高斯分布作為其分量,以及M個權(quán)重系數(shù),M的取值為512:
{ωi(u),μi(u),∑i(u)}i=1,...,M
其中μi(u),∑i(u)表示第i個高斯分量的均值矢量和協(xié)方差矩陣,ωi(u)表示第i個高斯分量的權(quán)重系數(shù),i=1,…,M,上標u標識此共分量高斯混合模型。
步驟(3)按以下步驟對用戶指定音頻段進行預處理:
步驟(3.1)向計算機輸入用戶指定音頻段c,時間長度為幾秒,經(jīng)過短時傅立葉分析,以10毫秒為一幀提取一個倒譜特征矢量。這樣,音頻段c用一個倒譜特征矢量序列{xn(c)}n=1,...,W來表示,W表示音頻段c的幀數(shù),n=1,…,W表示音頻段c的各幀的序號,上標c標識此音頻段c。
步驟(3.2)按下式計算共分量高斯混合模型的第i個高斯分量在音頻段c的第n幀的權(quán)重系數(shù)ωi,n(c),n=1,…,W:
其中i=1,…,M,j=1,…,M為共分量高斯混合模型的高斯分量的編號,Ni(x|μi(u),∑i(u))表示均值矢量為μi(u),協(xié)方差矩陣為∑i(u)的高斯分布概率密度函數(shù)。
按下式計算第i個高斯分量在音頻段c中各幀的權(quán)重系數(shù)的算術(shù)平均值,用ωi(c)表示:
計算得到的各個高斯分量的權(quán)重系數(shù)的算術(shù)平均值組成一個矢量{ωt(c)}i=1,...,M,將該矢量作為音頻段c的低維表示一音頻指紋。
步驟(4)以滑動窗方式將用戶指定音頻段c與被測試音頻流s進行指紋比較:
步驟(4.1)在設(shè)定的小時數(shù)內(nèi),向計算機輸入被測試音頻流s,經(jīng)過短時傅立葉分析,以10毫秒為一幀提取一個倒譜特征矢量。這樣,被測試音頻流s用一個倒譜特征矢量序列{xt(s)}t=1,...,T來表示,T為被測試音頻流s的幀數(shù),t=1,…,T表示音頻流s的各幀的序號,上標s標識此音頻流s。
步驟(4.2)按下式計算共分量高斯混合模型的第i個高斯分量在音頻流s的第t幀的權(quán)重系數(shù)ωi,t(s),t=1,…,T:
其中i=1,…,M,j=1,…,M為共分量高斯混合模型的高斯分量的編號。Ni(x|μi(u),∑i(u))表示均值矢量為μi(u),協(xié)方差矩陣為∑i(u)的高斯分布概率密度函數(shù)。
步驟(4.3)設(shè)置l=1。
步驟(4.4)如果l+W-1>T,則退出。
步驟(4.5)將音頻流s從第l幀開始的長度為W的一個窗內(nèi)的音頻段{xt(s)}t=l,...,l+W-1,以下稱音頻段s(l),與音頻段c進行指紋距離計算。
首先,按下式計算得到音頻段s(l)的指紋
即第i個高斯分量在音頻段s(l)中各幀的權(quán)重系數(shù)的算術(shù)平均值作為音頻段s(l)的音頻指紋的第i維。
然后,按下式計算出音頻段s(l)的指紋{ωi(s,l)}i=1,...,M與音頻段c的指紋{ωi(c)}i=1,...,M之間交叉熵距離
如果dKL(l)≤θ,則判斷音頻流s從第l幀開始包含了音頻段c,其中θ為一個預設(shè)檢測閾值,取0.01。接著令l=l+1,回到步驟(4.4)繼續(xù)搜索音頻流s的剩下部分是否還包含有音頻段c。
如果dKL(l)>θ,則按下式計算出一個跳躍步長
其中Δ為一個預設(shè)偏移量,取0.001或0.005,表示向下取整。接著令l=l+τKL-skip,回到步驟(4.4)繼續(xù)搜索音頻流s的剩下部分是否還包含有音頻段c。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學,未經(jīng)清華大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910241366.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





