[發(fā)明專利]一種視頻主題檢索的方法、系統(tǒng)、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202211277485.X | 申請日: | 2022-10-19 |
| 公開(公告)號: | CN115563342A | 公開(公告)日: | 2023-01-03 |
| 發(fā)明(設(shè)計)人: | 游強(qiáng);李高翔;應(yīng)鴻暉;卓采標(biāo);石易;林佳濤;王堅;余昊楠 | 申請(專利權(quán))人: | 國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心廣東分中心;人民中科(北京)智能技術(shù)有限公司 |
| 主分類號: | G06F16/75 | 分類號: | G06F16/75;G06F16/783;G06F16/738 |
| 代理公司: | 北京銘本天律師事務(wù)所 11909 | 代理人: | 宋松 |
| 地址: | 510665 *** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 視頻 主題 檢索 方法 系統(tǒng) 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明公開了一種視頻主題檢索的方法、系統(tǒng)、設(shè)備及存儲介質(zhì),用以解決現(xiàn)有技術(shù)樣例視頻的相似度計算是在較低級別上進(jìn)行的問題。方法包括:S1、預(yù)訓(xùn)練跨模態(tài)視覺語言模型,并對所述跨模態(tài)視覺語言模型進(jìn)行調(diào)整;S2、對給定的樣例視頻集合的場景進(jìn)行分割,并對分割后的各樣例視頻片段的主題進(jìn)行聚類;S3、基于所述調(diào)整后的跨模態(tài)視覺語言模型以及聚類的樣例視頻片段進(jìn)行視頻主題檢索,并對檢索結(jié)果進(jìn)行聚合和排序后輸出。系統(tǒng)包括:預(yù)訓(xùn)練和調(diào)整模塊、分割和聚類模塊、輸出模塊。計算機(jī)設(shè)備包括:存儲器、處理器,以及計算機(jī)程序。包含計算機(jī)可執(zhí)行指令的存儲介質(zhì)用于執(zhí)行視頻主題檢索的方法。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)機(jī)器視覺技術(shù)領(lǐng)域,特別涉及一種視頻主題檢索的方法、系統(tǒng)、設(shè)備及存儲介質(zhì)。
背景技術(shù)
視頻主題檢索,屬于基于內(nèi)容的視頻檢索范疇,是指將給定查詢主題相同或相近的視頻檢索出來。目前實現(xiàn)視頻主題檢索的方法基本分為兩類:
第一類稱之為基于文本的檢索方案:
(1)基于視頻文本摘要的檢索方法。這種方法本質(zhì)上是通過文本檢索的方式來完成視頻主題檢索,其基本流程是,通過視頻的標(biāo)題或者介紹文本來完成視頻的檢索。如果需要使用文本檢索視頻,就需要大量已經(jīng)準(zhǔn)備好的視頻及其描述文本。這種方法存在的問題主要有兩個:一是網(wǎng)絡(luò)上大量的視頻是沒有描述文本的,這樣就沒有辦法檢索到;而是描述文本與視頻內(nèi)容可能存在不一致的情況,從而造成從文本側(cè)檢索的結(jié)果與視頻內(nèi)容不符的情況出現(xiàn)。
(2)視頻主題分類與查詢標(biāo)簽擴(kuò)展檢索的方法。這種方法是將相關(guān)的查詢映射到對應(yīng)的視頻主題類別中,然后將標(biāo)記為對應(yīng)類別主題的視頻檢索返回。由于基于分類的方法需要實現(xiàn)確定視頻主題的類別個數(shù),比如檢索“美食”,有一類視頻剛好是美食類別。如果用戶檢索“美食”,可以直接返回美食那一類視頻。但是更多的時候用戶可能不是直接檢索“美食”,而是會檢索到“大盤雞”,這樣只能關(guān)聯(lián)到既有的“美食”類別,檢索結(jié)果缺乏精準(zhǔn)性。同時維護(hù)一套擴(kuò)展的標(biāo)簽映射關(guān)系,需要大量的知識工程,無法很好地滿足用戶查詢的多樣性需求。
第二類稱之為基于樣例視頻的檢索方案:
這類方法與第一類方法不同的是,是從視頻內(nèi)容直接進(jìn)行查詢操作。避免了使用文本進(jìn)行中間媒介而涉及的一系列語義鴻溝的問題。其基本方法是給定一批某一類特定主題的視頻樣例,然后根據(jù)這些視頻樣例種子檢索到更多同一主題的視頻集合。目前的方案都是基于視頻中圖像幀的相似度計算得到的。比如給定一個“用戶抽煙”的視頻,如果是同一個用戶同樣的場景一個抽煙一個不抽煙的相似度,就比不同用戶抽煙的相似度要高?;驹蚴悄壳盎趫D像的方案很多并沒有在較高層語義(比如主題)上進(jìn)行處理,造成基于樣例視頻的相似度計算還是在較低級別的場景(比如表觀)上進(jìn)行。如何讓相似度計算更多地關(guān)注到主題級別呢?這是當(dāng)前視頻主題檢索面臨的問題。
發(fā)明內(nèi)容
本發(fā)明提供了一種視頻主題檢索的方法、系統(tǒng)、設(shè)備及存儲介質(zhì),用以解決現(xiàn)有技術(shù)樣例視頻的相似度計算是在較低級別上進(jìn)行的問題。
為達(dá)到上述目的,本發(fā)明提供以下技術(shù)方案:
第一部分,本發(fā)明實施例的一種視頻主題檢索的方法,包括下列步驟:S1、預(yù)訓(xùn)練跨模態(tài)視覺語言模型,并對所述跨模態(tài)視覺語言模型進(jìn)行調(diào)整;S2、對給定的樣例視頻集合的場景進(jìn)行分割,并對分割后的各樣例視頻片段的主題進(jìn)行聚類;S3、基于所述調(diào)整后的跨模態(tài)視覺語言模型以及聚類的樣例視頻片段進(jìn)行視頻主題檢索,并對檢索結(jié)果進(jìn)行聚合和排序后輸出。
優(yōu)選的,步驟S1中包括:S11、構(gòu)建所述跨模態(tài)視覺語言模型的子步驟:具體基于CLIP模型獲得描述文本與圖像相似度;以及增加針對主題文本的文本編碼器,用以將圖像與主題文本在特征空間進(jìn)行對齊,獲得主題文本與圖像相似度;將所述的描述文本與圖像相似度與所述的主題文本與圖像相似度進(jìn)行加權(quán)求和,得到聯(lián)合相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心廣東分中心;人民中科(北京)智能技術(shù)有限公司,未經(jīng)國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心廣東分中心;人民中科(北京)智能技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211277485.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





