[發明專利]音頻內容的搜索方法有效
| 申請號: | 200810042853.6 | 申請日: | 2008-09-12 |
| 公開(公告)號: | CN101673262A | 公開(公告)日: | 2010-03-17 |
| 發明(設計)人: | 連惠城;程建章 | 申請(專利權)人: | 未序網絡科技(上海)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海金盛協力知識產權代理有限公司 | 代理人: | 段迎春 |
| 地址: | 200003上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 內容 搜索 方法 | ||
技術領域
本發明涉及音頻內容的搜索方法。
背景技術
隨著互聯網的發展,搜索引擎成為人們上網必不可少的工具之一。傳統的搜索引擎都是 基于文本搜索(Text?Search),稱為是文本搜索引擎。其原理是:搜索引擎服務器收集大量 的網頁;并根據已有的規則提取網頁中的文本并做分詞(Word?Segmentation)處理,常見的 分詞方法,例如:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法; 文本搜索引擎利用文本詞庫做索引表用于快速搜索。用戶在進行搜索的時候,將文本輸入到 服務器,服務器對該文本進行分詞處理后,根據索引表進行快速的搜索,然后返回結果。
目前,搜索引擎都是基于文本的,即使是一些搜索圖片或音頻的搜索引擎也是通過圖片 或音頻節目的名稱、說明、介紹、標簽等文本信息進行搜索的。搜索引擎還沒有直接通過音 頻的信號內容進行搜索的。
音頻指紋(audio?fingerprinting)在很早以前就被提出來,例如,Jaap?Haitsma和Ton Kalke在2002年音樂搜索進展國際會議(Proceedings?of?International?Conference?on?Music Information?Retrieval)上發表了“一種高可靠性的音頻指紋系統”(A?Highly?Robust?Audio Fingerprinting?System)。這種系統通過信號處理的方法,將音頻文件中每隔一段時間(例 如11.6ms)的音頻信號,轉化為一個32比特(bit)大小的指紋(fingerprint),通過這種方法 一個音頻文件就可以被轉換成一個指紋文件。系統在對所有的音頻指紋文件做索引表后,就 可以進行快速的音頻指紋檢索了。
在音頻指紋文件數目較少(例如1萬個)的情況下,可以將所有的指紋文件存入到計算機 內存中,進行索引后,可方便地進行快速的檢索。上述“一種高可靠性的音頻指紋系統”即 給出了這種方法的詳細步驟。然而,在實際情況下,音頻文件的數目要遠遠超過一萬的數目。 例如,目前在互聯網上出現的音頻文件數目超過一千萬數目,而且數量在不斷增長。因此采 用這種方法很難做出實用的搜索引擎。
發明內容
為了解決上述技術問題,本發明提供一種音頻內容的搜索方法,這種搜索引擎稱為是音 頻指紋搜索引擎(audio?fingerprint?search?engine)。
本發明采用如下技術方案:
一種音頻內容的搜索方法,包括:
1)音頻指紋提取步驟,提取多個音頻文件的音頻指紋;
2)音頻指紋分詞步驟,對步驟1)提取的音頻指紋進行分詞;
3)索引生成步驟,根據步驟2)的分詞結果生成音頻指紋索引;
4)搜索步驟,利用該音頻指紋索引搜索匹配的音頻文件。
其中,所述步驟4)具體包括以下步驟:
根據輸入的需要檢索的音頻文件或音頻文件片段,提取其音頻指紋,對該音頻指紋進行 分詞,根據分詞結果在所述音頻指紋索引中搜索匹配的音頻文件。
其中,所述步驟3)之后所述步驟4)之前還包括以下步驟:
存儲步驟,存儲音頻指紋、所述音頻指紋索引及其對應的音頻文件。
本發明通過采用文本搜索引擎中的分詞技術,在音頻指紋文件上進行分詞處理,然后采 用文本搜索領域中的索引技術對音頻指紋進行索引處理,索引處理完成后,搜索引擎可以對 用戶輸入的音頻片段進行搜索。不但方便了用戶的搜索,而且提高了搜索的效率。
以下結合附圖及實施例進一步說明本發明。
附圖說明
圖1為本發明音頻內容的搜索方法實施例流程示意圖。
具體實施方式
如圖1所示,一種音頻內容的搜索方法,包括:
1)音頻指紋提取步驟,提取多個音頻文件的音頻指紋;
2)音頻指紋分詞步驟,對步驟1)提取的音頻指紋進行分詞;
3)索引生成步驟,根據步驟2)的分詞結果生成音頻指紋索引;
4)搜索步驟,利用該音頻指紋索引搜索匹配的音頻文件。
其中,所述步驟4)具體包括以下步驟:
根據輸入的需要檢索的音頻文件或音頻文件片段,提取其音頻指紋,對該音頻指紋進行 分詞,根據分詞結果在所述音頻指紋索引中搜索匹配的音頻文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于未序網絡科技(上海)有限公司,未經未序網絡科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810042853.6/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





