[發明專利]基于組示多示例學習模型的視頻特定包含語義檢測方法有效
| 申請號: | 201110087415.3 | 申請日: | 2011-04-08 |
| 公開(公告)號: | CN102156686A | 公開(公告)日: | 2011-08-17 |
| 發明(設計)人: | 蔣興浩;孫錟鋒;沈楚雄;吳斌;張善豐;儲曦慶;樊靜文 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F15/18 | 分類號: | G06F15/18;G06K9/62;H04N5/262 |
| 代理公司: | 上海交達專利事務所 31201 | 代理人: | 王錫麟;王桂忠 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 組示多 示例 學習 模型 視頻 特定 包含 語義 檢測 方法 | ||
技術領域
本發明涉及的是一種計算機視頻處理技術領域的方法,具體是一種基于MGIL(Multiple?Grouped?Instance?Learning組示多示例學習)模型的視頻特定包含語義檢測方法。
背景技術
在當今網絡盛行的大環境下,網絡視頻已經成為了眾多網絡用戶生活中必不可少的部分。在網絡上,土豆、優酷、Youtube等視頻網站為用戶提供了各種五彩斑斕的視頻節目;電影電視已經成為了全世界人們最不可或缺的休閑方式,已經形成的良好的經濟循環。但是,在實際操作中,有些視頻不適合在網站發布。這些視頻以及電視節目對于青少年的發展可能會產生不利的影響。同時,由于有些視頻是受版權保護的,這些視頻需要特殊處理,以防止網站的版權侵犯。基于文字的內容篩選以及相似性判斷已經比較成熟,但不借助于文字描述,直接根據視頻內容本身判斷該內容是否與給定的視頻組有相似的內容還尚且沒有高效而又準確的方法進行判斷。
機器學習是人工智能的一個領域,主要是開發一些讓計算機自己“學習”的技術。通過學習,可以部分程度上代替人類來做出判斷。而從例子中學習(Learning?From?Examples)被很多專家認為是最有潛力的一種機器學習方法。
多示例學習是在包的粒度對樣本進行標記,而每個包中包含若干個示例,示例并無標記。若某個包被標記為正包數據,則該包中至少有一個正示例;反之,若某個包被標記為負包,則該包中的所有示例為負示例。多示例學習的目的就是通過對這些標注的包學習,盡可能準確地對新的包做出判斷。由于多示例學習具有獨特的性質和廣泛的應用前景,因此在國際機器學習和人工智能領域引起了極大的反響,被認為是很有潛力的學習框架。
LR-MD-EMDD(Labeled?with?Ranking-Multiple?Distance-Expectation?Maximization-Diversity?Density基于排名的多距離期望最大化多樣性密度算法)是一個多示例學習算法,輸入為正包數據于反包數據的多個種類的描述子,以及各個正包數據的權重。輸出為每個描述子的概念點以及該概念點在每個維度上所占的比重(EMDD),以及每個描述子在整個描述子群中所占的比例。該算法接受描述同一段視頻的不同種類描述子,輸出為該種類描述子的概念點(Concept?Point)以及該描述子在整體描述子中所占的比重。不同于標準的EMDD算法,該算法使用數字量化的正包數據學習,而不是單純的使用正負來表示是否含有該特征。
經對現有文獻檢索發現,中國專利申請號03148305.4,名稱為“一種基于內容的視頻片段檢索方法”使用了相似片段的檢測,通過最大匹配的Hungarian算法,完成對相似片段的匹配。該方法是一種視頻的相似性判斷方法,并且包含了檢索功能,但是,該方法對于視頻的聲音部分沒有經過考慮,同時,該方法由于用來檢測以及檢索視頻,沒有提供一種有效的方法為視頻自動分類。
中國專利申請號200610140834.8,名稱為“視頻內容分析系統”該方法接受了提取出鏡頭信息、鏡頭關鍵幀信息、場景信息、場景關鍵幀信息、關鍵幀圖像信息以及人臉信息。該方法對于視頻這一種格式沒有進行進一步優化,而將主要精力放在了存儲格式上。同時該方法使用了關鍵幀的處理方法,這樣有可能會導致有效信息的丟失。
發明內容
本發明針對現有技術存在的上述不足,提供一種基于組示多示例學習模型的視頻特定包含語義檢測方法,使用多示例學習的方法,將多示例學習的算法EMDD為視頻這種復雜的數據結構進行優化。通過對源視頻的處理和學習,使得對于每一個輸入的目標視頻,都可以自動得到該視頻與源視頻的相似性數據。該發明可以自動的生成相似性數據報告,據此告訴使用者輸入的源視頻組和目標視頻在內容上有多相似。
本發明是通過以下技術方案實現的,本發明通過接受一組源視頻以及一個目標視頻,通過對這些視頻進行分割,截取描述子,學習,以及學習結果與目標視頻描述子進行比對,得到目標視頻與原視頻組在內容上的相似度。該方法通過對使用了LR-MD-EMDD算法,該算法接受描述同一事物的多個描述子,這些描述子從不同方面描述了該事物的特征。該算法能夠在不顯著增加EMDD運算時間的情況下,綜合不同描述子所給出的數據,能夠給出一個全方位的,更為準確的概念點數據。
本發明具體包括以下步驟:
第一步:對視頻按場景進行連續分割,得到若干視頻片段,具體步驟包括:
1.1)將源視頻組重新命名,對其中的第i個場景命名為Vi(Video)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110087415.3/2.html,轉載請聲明來源鉆瓜專利網。





