[發(fā)明專利]基于模式的音頻檢索方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201210505562.2 | 申請(qǐng)日: | 2012-11-30 |
| 公開(kāi)(公告)號(hào): | CN103853749A | 公開(kāi)(公告)日: | 2014-06-11 |
| 發(fā)明(設(shè)計(jì))人: | 張世磊;涂旭東;金鋒;金琴;劉文;秦勇 | 申請(qǐng)(專利權(quán))人: | 國(guó)際商業(yè)機(jī)器公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 中國(guó)國(guó)際貿(mào)易促進(jìn)委員會(huì)專利商標(biāo)事務(wù)所 11038 | 代理人: | 鄒姍姍 |
| 地址: | 美國(guó)*** | 國(guó)省代碼: | 美國(guó);US |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 模式 音頻 檢索 方法 系統(tǒng) | ||
1.一種基于模式的音頻檢索方法,包括:
基于模式對(duì)多個(gè)源音頻數(shù)據(jù)進(jìn)行標(biāo)記,以獲取各源音頻數(shù)據(jù)的音頻標(biāo)記序列;
獲取目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列;
基于目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列和各源音頻數(shù)據(jù)的音頻標(biāo)記序列,根據(jù)預(yù)定匹配規(guī)則確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度;以及
輸出匹配度高于預(yù)定匹配度閾值的源音頻數(shù)據(jù),作為檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其中,基于模式對(duì)多個(gè)源音頻數(shù)據(jù)進(jìn)行標(biāo)記包括:
(a)對(duì)每個(gè)源音頻數(shù)據(jù)進(jìn)行劃分,以獲得多個(gè)分段;
(b)基于所獲得的多個(gè)分段,利用聚類算法確定每個(gè)源音頻數(shù)據(jù)的音頻類序列;
(c)根據(jù)針對(duì)多個(gè)所述源音頻數(shù)據(jù)所確定的音頻類序列,基于模式構(gòu)建判決樹(shù);
(d)針對(duì)判決樹(shù)上的每個(gè)葉節(jié)點(diǎn),訓(xùn)練分段標(biāo)記模型;
(e)利用所訓(xùn)練的分段標(biāo)記模型,獲得每個(gè)源音頻數(shù)據(jù)的音頻標(biāo)記序列并調(diào)整對(duì)該源音頻數(shù)據(jù)的劃分;以及
(f)在滿足預(yù)定迭代條件的情況下,重復(fù)上述操作(b)至(e)。
3.根據(jù)權(quán)利要求2所述的方法,其中,對(duì)每個(gè)源音頻數(shù)據(jù)進(jìn)行劃分包括以下的任何一個(gè)或多個(gè):
依照源音頻數(shù)據(jù)中的靜音進(jìn)行劃分;
依照預(yù)定時(shí)長(zhǎng)的音頻窗對(duì)源音頻數(shù)據(jù)進(jìn)行劃分;以及
按時(shí)間均勻劃分源音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求2所述的方法,其中,基于所獲得的多個(gè)分段利用聚類算法確定每個(gè)源音頻數(shù)據(jù)的音頻類序列包括:
利用從所獲得的多個(gè)分段提取的音頻特征來(lái)構(gòu)建混合高斯模型(GMM);和
基于所構(gòu)建的GMM,利用聚類算法基于特定音頻特征和音頻類距離,確定源音頻數(shù)據(jù)的音頻類序列。
5.根據(jù)權(quán)利要求2所述的方法,其中,根據(jù)針對(duì)多個(gè)所述源音頻數(shù)據(jù)所確定的音頻類序列基于模式構(gòu)建判決樹(shù)包括:
定義所確定的音頻類序列中的音頻類作為判決樹(shù)的根節(jié)點(diǎn);
基于被定義為根節(jié)點(diǎn)的音頻類在音頻類序列中的上下文,構(gòu)建模式問(wèn)題集;以及
基于所構(gòu)建的模式問(wèn)題集,對(duì)所確定的音頻類序列中的音頻類進(jìn)行分支,從而構(gòu)建判決樹(shù)的葉節(jié)點(diǎn)。
6.根據(jù)權(quán)利要求4所述的方法,其中,針對(duì)判決樹(shù)上的每個(gè)葉節(jié)點(diǎn)訓(xùn)練分段標(biāo)記模型包括:
針對(duì)判決樹(shù)上的每個(gè)葉節(jié)點(diǎn),訓(xùn)練隱馬爾可夫模型(HMM)和持續(xù)時(shí)間模型。
7.根據(jù)權(quán)利要求2所述的方法,其中,利用所訓(xùn)練的分段標(biāo)記模型獲得源音頻數(shù)據(jù)的音頻標(biāo)記序列并調(diào)整對(duì)源音頻數(shù)據(jù)的劃分包括:
利用所訓(xùn)練的分段標(biāo)記模型,確定源音頻數(shù)據(jù)的音頻類距離;
基于所訓(xùn)練的分段標(biāo)記模型,利用從所述源音頻數(shù)據(jù)提取的音頻特征和所確定的音頻類距離進(jìn)行Viterbi解碼;以及
根據(jù)Viterbi解碼結(jié)果,獲得源音頻數(shù)據(jù)的音頻標(biāo)記序列,并調(diào)整對(duì)源音頻數(shù)據(jù)的劃分。
8.根據(jù)權(quán)利要求2所述的方法,其中,對(duì)源音頻數(shù)據(jù)進(jìn)行劃分以獲得多個(gè)分段包括:
確定源音頻數(shù)據(jù)是否為語(yǔ)音數(shù)據(jù);以及
基于所述確定的結(jié)果,對(duì)源音頻數(shù)據(jù)進(jìn)行劃分以獲得多個(gè)分段。
9.根據(jù)權(quán)利要求2所述的方法,其中,所述預(yù)定迭代條件包括以下的任何一個(gè)或多個(gè):
對(duì)源音頻數(shù)據(jù)的劃分的調(diào)整量不小于預(yù)定分段差值;以及
迭代次數(shù)小于預(yù)定迭代次數(shù)閾值。
10.根據(jù)權(quán)利要求2所述的方法,其中,獲取目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列包括:
基于所訓(xùn)練的分段標(biāo)記模型,對(duì)所述目標(biāo)音頻數(shù)據(jù)進(jìn)行Viterbi解碼,以獲得該目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列。
11.根據(jù)權(quán)利要求2至10中任一項(xiàng)所述的方法,其中,根據(jù)預(yù)定匹配規(guī)則確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度包括:
確定與目標(biāo)音頻數(shù)據(jù)和源音頻數(shù)據(jù)相關(guān)的音頻類之間的音頻類距離;
通過(guò)將目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列與源音頻數(shù)據(jù)的音頻標(biāo)記序列進(jìn)行比較,基于所確定的音頻類距離來(lái)計(jì)算序列匹配得分;
通過(guò)計(jì)數(shù)目標(biāo)音頻數(shù)據(jù)和源音頻數(shù)據(jù)的音頻類序列中各音頻類的個(gè)數(shù),計(jì)算計(jì)數(shù)匹配得分;以及
以各自的加權(quán)值組合所計(jì)算的序列匹配得分和計(jì)數(shù)匹配得分,計(jì)算目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)的匹配度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)際商業(yè)機(jī)器公司,未經(jīng)國(guó)際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210505562.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置





