[發明專利]基于摘要空間特征學習的視頻摘要關鍵幀提取方法有效
| 申請號: | 201510357360.1 | 申請日: | 2015-06-25 |
| 公開(公告)號: | CN105025392B | 公開(公告)日: | 2017-12-19 |
| 發明(設計)人: | 李學龍;盧孝強;趙斌 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | H04N21/8549 | 分類號: | H04N21/8549;G06K9/62 |
| 代理公司: | 西北工業大學專利中心61204 | 代理人: | 王鮮凱 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 摘要 空間 特征 學習 視頻 關鍵 提取 方法 | ||
1.一種基于摘要空間特征學習的視頻摘要關鍵幀提取方法,其特征在于包括以下步驟:
步驟一、對視頻幀進行均勻采樣,然后對選取的每一個視頻幀建立HSV空間的顏色直方圖;其中,H通道16等分,S通道和V通道分別4等分,并將三個通道的統計數據歸一化,得到每一幀的特征向量;最終,得到視頻的特征矩陣X={x1,x2,...,xn},并將其作為輸入數;其中n為均勻采樣后視頻幀的數目,xn為第n幀的特征向量;
步驟二、利用Lipschitz光滑的實函數f將特征矩陣X映射到摘要空間S,
其中,f(xi)是第i幀在摘要空間中的描述子;由于視頻數據中存在著很多信息冗余和數據聯系,視頻數據并不是均勻的分布在摘要空間S,而是分布在它的一個子空間上,該子空間記為M;在子空間M上,f由一組錨點的函數值{f(aj)|aj∈A,j=1,2,…k}的線性組合近似,
其中,錨點集合A定義為k-均值聚類方法得到的聚類中心,固定k的取值為視頻總幀數的1/150;k-均值聚類方法將相似的幀分到同一類別中,不同的類別具有不同的內容,聚類中心是該類別中所有特征向量的均值向量,故每一個聚類中心作為Lipschitz映射的錨點,其函數值可用來代表視頻的某一方面內容,并且{f(aj)|aj∈A,j=1,2,…k}完整的代表視頻內容;那么,權重wij代表了視頻第i幀對視頻第j方面內容的表達能力;
步驟三、利用下面的目標函數優化求解權重矩陣W;
顯然,由于存在高維詛咒,很難直接對上式進行優化求解;然而,若f是一個(α,β,p)-Lipschitz實函數,W是錨點上的非負權重矩陣,對于任意的xi,
其中,α,β和p都是可調參數;為了簡化問題,讓α=β=p=1;式(4)表明,線性組合的近似殘差由(4)式的右側限制;也就是說,在不知道映射函數f以及摘要空間S的情況下求得權重矩陣W,極大地簡化了問題;優化函數如下:
其中,
D=((ai-xj)2)k×n(6)
D是錨點和視頻幀之間的平方歐氏距離;移除了不同權重向量之間的尺度差異;為了簡化問題,用來代替||X-WA||F,優化函數變為:
步驟四、利用學到的權重矩陣W,進行代表幀的挑選;代表幀的挑選原則為:為視頻的每一方面內容選取對其表達能力最強的幀作為一個代表幀;
利用下面的公式進行代表幀挑選:
其中,refj為第j個代表幀;
得到了代表幀集合Ref={ref1,ref2,…,refk},可見代表幀的數目和k-均值聚類中設定的類簇數目相同,代表幀集合Ref可以代表視頻的主要內容,但要被選為關鍵幀,代表幀集合還要滿足差異性;
步驟五、關鍵幀提取;
利用感知哈希獲得代表幀的圖像指紋,步驟如下:
1)代表幀被轉換為灰度圖,并降采樣為32*32的小圖,不要保持縱橫比;
2)對降采樣之后的幀進行離散余弦變換,只取離散余弦變換矩陣的左上角8*8的子矩陣;
3)去除8*8矩陣左上角的第一個元素,并利用8*8矩陣的另外63個元素計算平均離散余弦變換值;
4)比較8*8矩陣中元素與離散余弦變換均值的大小關系,若大于均值則將其置為1,若小于均值,則將其置為0;
通過得到的每個視頻幀的圖像指紋,利用下式計算指紋間的漢明距離,
當兩個圖像指紋的漢明距離H小于8時,去除兩個代表幀的其中一個,最終獲得關鍵幀集合;將關鍵幀按照時間順序排列,生成視頻摘要。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510357360.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:無線遙控整合系統
- 下一篇:智能電視機的輸入法與焦點輸入框的同步方法及裝置





