[發明專利]使用內容和揚聲器信息進行音頻信息檢索的方法和裝置無效
| 申請號: | 00104774.4 | 申請日: | 2000-03-28 |
| 公開(公告)號: | CN1270361A | 公開(公告)日: | 2000-10-18 |
| 發明(設計)人: | 霍梅沃恩·薩德莫哈姆德·貝基;阿蘭·查爾斯·路易斯·特里特施勒;瑪荷什·維斯萬納坦 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 | 代理人: | 于靜 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 內容 揚聲器 信息 進行 音頻 檢索 方法 裝置 | ||
本發明涉及信息檢索系統,更確切地,涉及從一個多媒體數據庫文件中檢索滿足用戶指定要求的多媒體信息,如音頻和視頻信息的方法和裝置。
信息檢索系統主要集中在從大的文本集合中檢索文本文檔。文本檢索的基本原理已經充分地提出并整理發布。例如,可參見G.Salton,Automatic?Text?Processing,Addison-Wesley,1989。索引是一種將文檔描述同查詢描述進行匹配的機制。索引建立階段(indexingphase)用一組字或詞句對文檔進行描述,而檢索階段(retrieval?phase)用一組字或詞句對查詢進行描述。當文檔描述同查詢描述匹配時一個文檔(或其中的一部分)得到檢索。
多媒體對象,例如音頻和視頻文件所需的數據檢索模型同文本文檔所需的模型有很大的不同。對這些多媒體信息建立索引的標準特征集合有一點共性。對音頻數據庫建立索引的一種方法是使用某種音頻提示,例如鼓掌,音樂或演講。相似地,對視頻信息建立索引的一種方法是使用關鍵幀,或相片的變化。對于有影響的演講中的音頻和視頻信息,例如從廣播中摘出的音頻和視頻信息,對應的文本可以使用語音識別系統得到,而轉換文本可以用作建立相關音頻(及視頻)的索引。
當前的音頻信息檢索系統包含兩個部分,即一個語音識別系統,用于將音頻信息轉換為用于建立索引的文本,和一個基于文本的信息檢索系統。語音識別系統一般由三個部分組成,即詞匯表,語言模型和一組針對詞匯表中每個詞的發音。詞匯表是由語音識別器用來將語音翻譯為文本的一組詞。作為解碼處理的一部分,該識別器將來自語音輸入的聲音同詞匯表中的詞進行匹配。因此,詞匯表定義了可以被轉換的詞。如果一個詞不在詞匯表中,則該詞將得不到識別,不可識別的詞必須首先被加入到詞匯表中。
語言模型是同特定領域相關的詞匯表中一系列詞的數據庫。其中還包括這些詞以特定次序出現時的一組概率。當使用語音模型時,語音識別器的輸出將偏向高概率詞序。這樣,正確的解碼處理是判斷用戶所說的一系列詞是否在語言模型中具有高概率。這樣,當用戶說了一個不常見的詞序時,解碼性能將下降。詞的識別完全基于它的發音,也就是說,詞的語音表示。為了得到最好的準確率,必須使用同特定領域相關的語言模型。建立這樣一個語言模型需要明確的文本轉換及語音。
基于文本的信息檢索系統一般分兩步進行工作。第一步是離線(off-line)建索引階段,這時會收集同文本文檔相關的統計信息來建立索引。第二步是在線(on-line)搜索并檢索階段,使用該索引來進行查詢-文檔匹配,隨后將相關的文檔(及附加信息)返回給用戶。在建立索引階段,會對語音識別系統的文本輸出進行處理以得到在檢索階段用于快速搜索的文檔描述。
在建立索引過程中,一般按序執行下列操作:(i)標記化(tokenization),(ii)標記語音段落,(iii)形態(morphological)分析,及(iv)使用標準的結束詞(stop-word)列表刪除結束詞。標記化探測語句邊界。形態分析是一種語音信號處理的形式,它將名詞分解為其詞根,并附加一個指示復數形式的標記。同樣,動詞被分解為指示人,時態和語氣的單元,并附加該動詞的詞根。關于索引建立過程的一般性討論可以參見于在此作為參照的S.Dharanipragada?et?al.,"Audio-Indexing?forBroadcast?News,"in?Proc.SDR97,1997。
當用戶使用這樣一個基于內容的音頻信息檢索系統來檢索其中包含一或多個在用戶定義的查詢中定義的關鍵詞的音頻文件時,當前的音頻信息檢索系統不允許用戶根據演講人標識有選擇性地檢索相關的音頻文件。這樣,需要一種方法和裝置,可以根據演講人標識和音頻內容來檢索音頻信息。
一般而言,這里所揭示的是一種根據音頻內容和演講人標識用于檢索音頻信息的方法和裝置。所揭示的音頻檢索系統將基于內容和基于演講人的音頻信息檢索的結果結合在一起來提供對音頻信息(并間接對視頻)的引用。
根據本發明的一個方面,查詢搜索系統檢索同包含一個文本串(一或多個關鍵詞)的文本查詢及給定演講人的標識相對應的信息。用戶定義的查詢約束(constraints)同經索引的音頻或視頻數據庫(或兩者)進行比較并對包含與給定演講人所說的指定詞相關的音頻/視頻片段進行檢索,展現給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/00104774.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:雙向移動通信設備的應用程序啟動器
- 下一篇:圖像處理設備和方法,以及存儲媒體
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





