[發明專利]對電影類視頻進行場景片段抽取方法及其建立索引的方法有效

申請號：	200910089766.0	申請日：	2009-07-23
公開（公告）號：	CN101650958A	公開（公告）日：	2010-02-17
發明（設計）人：	王玲芳;李松斌;王勁林	申請（專利權）人：	中國科學院聲學研究所
主分類號：	G11B27/031	分類號：	G11B27/031;G11B27/10;G06F17/30
代理公司：	北京法思騰知識產權代理有限公司	代理人：	楊小蓉
地址：	100190北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	電影視頻進行場景片段抽取方法及其建立索引
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及視頻索引與搜索技術領域，具體地說，本發明涉及一種對電影類視頻進行場景片段抽取和建立索引的方法。

背景技術

廉價的大容量存儲設備制造技術的進步，更高的網絡數據傳輸速率，以及持續改進的高效視頻壓縮技術使數字視頻得以廣泛傳播和使用。視頻為多媒體系統用戶提供了大量的信息，同時它也是很多應用系統的數據源，這些系統如數字圖書館、數字出版、數字娛樂、數字廣播和遠程教育等。目前，基于視頻信息的網絡服務正處于高速發展期。但是，與成熟的文本信息搜索相比，目前高效地獲取特定的視頻片段仍然是一個非常具有挑戰性的問題。文本與視頻(運動圖像)在檢索時差異很大，文本內容中的某個詞很容易被識別，并且該詞包含人可理解的概念(含語義信息)，因此文本內容可進行全文檢索(此時文本中的詞匯是檢索特征量)；但圖像本身的特征很難用于直接搜索，例如顏色分布特征與用戶的詢問信息可能毫無關聯，視頻由一系列的圖像構成，其語義更為復雜，機器將用戶的查詢信息轉化為對一系列視頻特征的查詢存在很大困難，即存在所謂的“語義鴻溝”問題。所以，與文本信息不同，直接從視頻數據中很難獲得檢索所需的特征量，要對視頻進行有效的檢索必須依賴于充分的視頻元數據信息。當前大部分的商業視頻搜索引擎一般也通過搜索視頻的元數據信息如文件名、環繞文字或者語音腳本(使用語音識別技術從視頻中獲得)為用戶返回所需的視頻。這種方法對視頻的搜索可以定義為一種淺層搜索，因為它無法進行基于視頻內容的檢索，而且只能檢索到視頻文件層次，而不是深入到每個視頻片段。顯然，這種搜索結果用戶是不能滿意的，例如用戶可能只想看一部電影中的某個片段，這是當前搜索引擎所無法提供的。為了使原始視頻數據可以被方便地瀏覽和檢索，必須對視頻數據進行分析、建立索引和重新組織，其目標是形成原始視頻數據的結構化表示。

為了將視頻進行結構化表示，一個連續的視頻圖像序列經常被分解成多個場景和鏡頭單元，這些場景和鏡頭單元根據其依賴關系形成了原始視頻序列的層次化表示。一個鏡頭是由同一個攝像機連續捕獲的一個幀序列，它實際上是視頻圖像序列之間的物理邊界。場景由一個或多個連續鏡頭組成，這些鏡頭擁有共同拍攝背景/環境。例如，我們經常可以看到很多連續的鏡頭(由多個攝像機拍攝)共享類似的視覺內容，因為它們是在同樣的環境中產生的如會議室或運動場等。一個視頻場景片段一般是一個具有完整語義的故事單元，它實際上是視頻圖像序列的語義邊界。由于用戶檢索一般是基于語義單元的檢索，為此視頻圖像序列一般被以場景為單位進行組織。顯然，比較準確的視頻場景抽取是保證檢索質量的關鍵。本發明主要討論電影類視頻進行場景抽取和索引的方法。該類視頻進行場景抽取的過程一般可以分為兩個步驟：首先是根據視頻圖像的顏色、紋理等特征進行鏡頭邊緣檢測；然后將視覺內容近似且連續的多個鏡頭劃分為一個組并作為一個場景。這種方法的缺陷首先在于鏡頭檢測容易受到干擾，例如對于漸變鏡頭有較高的誤判率，其次鏡頭視覺內容的表示和鏡頭之間相似性的衡量方法目前也不夠成熟。這些原因導致場景抽取的查全率和查準率都不是太理想，目前所報道的查全率和查準率的最好結果均在 70％左右。另一方面，采用上述方法抽取場景后，為支持高效的檢索，還必須為場景建立索引，例如說明場景發生的地點、主要人物和發生的事件等。這些工作耗時費力，而且由于個人主觀性的影響，會導致標注結果的不客觀。

發明內容

本發明的一個目的是結合劇本和字幕信息對的電影場景進行分割(即場景片段抽取)，以達到較高精度的視頻場景抽取效果。本發明的另一個目的是為所抽取的場景視頻片段自動匹配其在劇本中的對應文字信息作為其索引，從而避免手工標注。

為實現上述第一個發明目的，本發明提供了一種對電影類視頻進行場景片段抽取的方法，該方法包括如下步驟：

1)獲取電影類視頻的字幕信息，所述字幕信息包括字幕的文字內容以及該字幕的出現和消失時間；

2)從所述電影類視頻的劇本文本中抽取每個場景的結構化信息，所述結構化信息包括所述場景的發生地點、發生時間、場景類型、場景描述和場景對白信息；

3)對場景對白信息與字幕的文字內容進行匹配，根據所匹配的字幕的出現和消失時間，得出場景在視頻中的開始和結束時間；

4)根據步驟3)最后所得出的場景在視頻中的開始和結束時間，對所述電影類視頻進行分割，得到各場景的視頻片斷。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所，未經中國科學院聲學研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200910089766.0/2.html，轉載請聲明來源鉆瓜專利網。