[發明專利]基于模式的音頻檢索方法和系統有效
| 申請號: | 201210505562.2 | 申請日: | 2012-11-30 |
| 公開(公告)號: | CN103853749A | 公開(公告)日: | 2014-06-11 |
| 發明(設計)人: | 張世磊;涂旭東;金鋒;金琴;劉文;秦勇 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 鄒姍姍 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模式 音頻 檢索 方法 系統 | ||
技術領域
本發明總體上涉及多媒體信息檢索領域,特別地,涉及基于模式的音頻檢索方法和系統。
背景技術
互聯網的廣泛普及推動了多媒體信息技術的高速發展。可從互聯網上獲得的多媒體數據量急速增長。例如,在YouTube網站上每分鐘上傳的音視頻文件達48小時之多。海量的數據使得不可能逐一進行瀏覽,而且對數據的索引和檢索也更具挑戰。
如何從資料庫中準確地找到所需題材的數據文件是多媒體信息檢索領域的研究熱點之一。例如,婚慶設計公司可能希望根據少量婚慶典禮樣本,找到海量素材用以制作最終的婚慶文件。電臺的節目制作人或者視頻網站的制作團隊,希望基于有限資料從海量數據中搜索到感興趣的節目類型,為快速的節目制作提供幫助。此外,用戶可能希望對自有的多媒體數據庫進行自動的標記歸檔,從而進行更有效的管理。
相比于基于視頻的檢索,基于音頻的檢索適用范圍更廣,例如在只能獲得音頻數據的情況下(例如,無線電廣播)。音頻包含了有助于理解內容的相當大量的信息,而且相比于視頻來說音頻文件通常較小。因此,在例如由于網絡上傳容量限制而不得不將視頻文件壓縮至略模糊的情況下,音頻卻可以制作得較為清晰。
然而,現有技術的音頻索引和檢索方法有諸多缺陷。首先,現有的音頻索引和檢索方法需要大量的手工標記。例如對于音頻網站,通常存在大量的無標記文件或者簡單標記的文件,這些文件之間沒有很好的描述,而且缺乏與其他數據有效的相關性推薦連接。工作人員只能人工對部分著名節目或者訪問量高的文件進行手工標記和推薦連接。因此,這樣的音頻索引和檢索方法僅能用于特定領域和有限的數據樣本集。
其次,現有的音頻索引和檢索方法僅僅基于音頻標記本身進行建模,這會使得索引和檢索結果不準確。例如,同樣是水流聲,在自然河流背景模式下和家庭廚房背景模式下的意義是完全不同的。再例如,鼓掌聲在娛樂節目、談話節目或體育節目中也是有所不同的。如果用戶輸入一段河流流水聲作為樣本,希望從多媒體數據庫中檢索出類似的素材,那么現有的音頻檢索方法會不區分地給出包括自然河流模式下和家庭廚房模式下的水流聲的數據文件。顯然,在不考慮上下文的情況下,很多音頻檢索的結果是不準確的。
再次,現有的音頻檢索方法通常采用單次順序檢索策略,即先將音頻數據分段,接著針對每段進行分類識別。由此,先前步驟中的錯誤會影響后續步驟的執行結果,導致逐步累積到最后的檢索結果中,使得檢索結果不準確甚至完全偏離檢索目標。
因此,需要一種無需人工參與標記而自動執行的音頻檢索方法和系統。
進一步,需要一種基于背景模式并可以考慮音頻類相似度的音頻檢索方法和系統。
再進一步,需要一種能夠自動消除累積誤差從而提供更為準確的檢索結果的音頻檢索方法和系統。
發明內容
本發明的一個目的在于,自動對源音頻數據進行基于模式的標記和建模,并考慮音頻類相似度地提供準確的音頻檢索結果。
為此,本發明的音頻檢索方法和系統通過迭代分段與聚類整合處理來對源音頻數據進行自動音頻標記,在每次迭代中構建基于背景模式的判決樹并針對判決樹上的葉節點訓練分段標記模型,最后基于模式比較并結合音頻類相似度來提供音頻檢索結果。
根據本發明的第一方面,提供了一種基于模式的音頻檢索方法,包括:基于模式對多個源音頻數據進行標記,以獲取各源音頻數據的音頻標記序列;獲取目標音頻數據的音頻標記序列;基于目標音頻數據的音頻標記序列和各源音頻數據的音頻標記序列,根據預定匹配規則確定目標音頻數據與源音頻數據之間的匹配度;以及輸出匹配度高于預定匹配度閾值的源音頻數據,作為檢索結果。
在一個實施例中,基于模式對多個源音頻數據進行標記包括,針對每個源音頻數據執行如下操作:(a)對每個源音頻數據進行劃分,以獲得多個分段;(b)基于所獲得的多個分段,利用聚類算法確定每個源音頻數據的音頻類序列;(c)根據針對多個所述源音頻數據所確定的音頻類序列,基于模式構建判決樹;(d)針對判決樹上的每個葉節點,訓練分段標記模型;(e)利用所訓練的分段標記模型,獲得每個源音頻數據的音頻標記序列并調整對該源音頻數據的劃分;以及(f)在滿足預定迭代條件的情況下,重復上述操作(b)至(e)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210505562.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種即時通信客戶端及服務端
- 下一篇:一種通用總線測試系統





