[發(fā)明專利]一種從視頻序列中發(fā)現(xiàn)主題目標(biāo)的方法有效
| 申請?zhí)枺?/td> | 201510044825.8 | 申請日: | 2015-01-29 |
| 公開(公告)號: | CN104573671B | 公開(公告)日: | 2018-02-02 |
| 發(fā)明(設(shè)計)人: | 劉華平;劉云輝;孫富春 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11201 | 代理人: | 羅文群 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 視頻 序列 發(fā)現(xiàn) 主題 目標(biāo) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種從視頻序列中的主題目標(biāo)發(fā)現(xiàn)方法,屬于圖像處理技術(shù)領(lǐng)域。
背景技術(shù)
近年來,隨著網(wǎng)絡(luò)和電視的流行,人們面對著越來越多的視頻片段。視頻當(dāng)中包含著豐富的內(nèi)容,人們是很難去直觀地總結(jié)的。自動地去發(fā)現(xiàn)和視頻主題相符的目標(biāo),從而幫助人們快速地了解視頻的主要內(nèi)容,變得越來越重要。在保留原始視頻主要內(nèi)容的前提下,如何去有效地抽取視頻當(dāng)中的目標(biāo),是當(dāng)前研究的主要困難。
之前的一項工作是大量的圖片當(dāng)中發(fā)現(xiàn)目標(biāo),將每一張圖片在不同的設(shè)置之下進(jìn)行分割,并且假設(shè)這些分割當(dāng)中就包含了我們想要的目標(biāo)。然后再用隱狄利克雷分配的方法得到一些主題。最后用和這些主題最相似的分割當(dāng)作主題目標(biāo)。視頻片段也是由一張張圖片組成的,因此這種方式可以拓展到視頻片段的主題目標(biāo)發(fā)現(xiàn)當(dāng)中。和隱狄利克雷分配的方法一樣,非負(fù)矩陣分解也可以用來解決類似的問題。但是這些方法都是基于圖像分割,分割常常會把一些本來完整的目標(biāo)分離到多個分割當(dāng)中,這樣得到的分割往往都不是完整的物體,除此之外,很多分割其實包含了大量的背景,這是不需要的。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種視頻序列中的主題目標(biāo)發(fā)現(xiàn)方法,以克服現(xiàn)有方法的缺點;用方框先將圖像中可能是目標(biāo)的區(qū)域自動框出,然后用主題模型去挖掘中視頻中的主題目標(biāo)。
本發(fā)明提出的從視頻序列中發(fā)現(xiàn)主題目標(biāo)的方法,包括以下步驟:
(1)訓(xùn)練一個用于對待處理視頻圖像中包含主題目標(biāo)的候選區(qū)域進(jìn)行選取的分類器w、增益系數(shù)vi和偏置系數(shù)ti,具體過程如下:
(1-1)將一個包含已知目標(biāo)的圖像集作為訓(xùn)練樣本,通過插值方法,將訓(xùn)練樣本中的圖像調(diào)整成長、寬分別為W和H的圖像,其中W,H∈{10,20,40,80,160,320},計算調(diào)整后的圖像的梯度范數(shù);
(1-2)設(shè)T為圖像中所有包含已知目標(biāo)的圖像窗口,S為圖像中的任意圖像窗口,則窗口t∈T和窗口s∈S的疊加面積o(t,s)為:
采用8×8圖像窗口對步驟(1-1)中調(diào)整大小后的訓(xùn)練樣本進(jìn)行滑動采樣,得到多個8×8滑動窗口,計算與8×8滑動窗口相對應(yīng)的o(t,s),并計算該8×8滑動窗口相對應(yīng)的64維梯度范數(shù),記為gtrain,將與o(t,s)≥0.5的8×8滑動窗口相對應(yīng)的64維梯度范數(shù)作為正樣本,與o(t,s)<0.5的8×8滑動窗口相對應(yīng)的64維梯度范數(shù)作為負(fù)樣本,利用線性支持向量機(jī),計算得到分類器w;
(1-3)利用下述公式,計算訓(xùn)練樣本的排序得分scoretrain:
scoretrain=<w,gtrain>
l=(i,x,y)
其中,<·,·>表示內(nèi)積,gtrain、i和(x,y)分別為64維梯度范數(shù)、與8×8滑動窗口相對應(yīng)的調(diào)整大小之前的圖像窗口的大小以及位置;
(1-4)利用非極大抑制方法,從每個大小為i的圖像窗口中選擇多個窗口作為訓(xùn)練樣本,將上述scoretrain作為圖像窗口的一維特征,利用線性支持向量機(jī),計算得到增益系數(shù)vi及偏置系數(shù)ti;
(2)每一秒從待處理視頻中隨機(jī)抽取兩幀圖像,得到一個視頻圖像序列;
(3)從上述得到的圖像序列中選取候選主題目標(biāo),具體過程如下:
(3-1)通過插值方法,將步驟(2)得到的視頻圖像序列中的每幅視頻圖像調(diào)整成長、寬分別為W和H的視頻圖像,其中W,H∈{10,20,40,80,160,320},計算每幅視頻圖像的梯度范數(shù);
(3-2)采用8×8大小的窗口對調(diào)整大小后的視頻圖像進(jìn)行滑動采樣,得到多個8×8大小的滑動窗口,并分別計算多個8×8滑動窗口的64維梯度范數(shù)gl,l=(i,x,y),其中i為與8×8滑動窗口相對應(yīng)的調(diào)整大小之前的視頻圖像的大小,(x,y)為8×8滑動窗口在調(diào)整大小之前的視頻圖像中的位置;
(3-3)通過下述公式,分別計算每個8×8大小的滑動窗口的得分:
scorel=<w,gl>
其中,w為上述步驟(1)得到的分類器;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510044825.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 知識發(fā)現(xiàn)裝置、知識發(fā)現(xiàn)程序和知識發(fā)現(xiàn)方法
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 發(fā)現(xiàn)協(xié)議
- 對等發(fā)現(xiàn)
- 小區(qū)發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及漏洞發(fā)現(xiàn)程序
- 使用發(fā)現(xiàn)節(jié)點的設(shè)備發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及存儲介質(zhì)
- 用于提供虛擬場景的裝置及方法
- 接入語音服務(wù)的方法、裝置和數(shù)據(jù)載體





