[發(fā)明專利]基于多媒體語(yǔ)義解析的監(jiān)控視頻智能預(yù)警方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110447507.1 | 申請(qǐng)日: | 2021-04-25 |
| 公開(公告)號(hào): | CN113111837B | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 胡宇鵬;賈永坡;高贊;宋雪萌;尹建華;李毅仁;聶禮強(qiáng) | 申請(qǐng)(專利權(quán))人: | 山東省人工智能研究院;山東大學(xué);河鋼數(shù)字技術(shù)股份有限公司;河鋼集團(tuán)有限公司 |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40;G06V20/52;G06V10/74;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 濟(jì)南泉城專利商標(biāo)事務(wù)所 37218 | 代理人: | 支文彬 |
| 地址: | 250013 山*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多媒體 語(yǔ)義 解析 監(jiān)控 視頻 智能 預(yù)警 方法 | ||
一種基于多媒體語(yǔ)義解析的監(jiān)控視頻智能預(yù)警方法,通過(guò)建立跨模態(tài)語(yǔ)義對(duì)齊模型對(duì)視頻中所包含的復(fù)雜對(duì)象與交互進(jìn)行準(zhǔn)確理解,并生成視頻片段時(shí)空位置圖和視頻語(yǔ)義樹,另一方面,引入基于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的文本編碼模塊,對(duì)查詢語(yǔ)句中的文本語(yǔ)義進(jìn)行深刻理解與表征。實(shí)現(xiàn)多模態(tài)特征向共空間的特征映射與融合,并利用語(yǔ)義剪枝策略,粗粒度篩選出精煉的“視頻片段?查詢語(yǔ)句”對(duì),進(jìn)行細(xì)粒度語(yǔ)義匹配計(jì)算,從而確保跨模態(tài)視頻定位的精度與效率。
技術(shù)領(lǐng)域
本發(fā)明涉及監(jiān)控預(yù)警技術(shù)領(lǐng)域,具體涉及一種基于多媒體語(yǔ)義解析的監(jiān)控視頻智能預(yù)警方法。
背景技術(shù)
為了維護(hù)社會(huì)治安,視頻監(jiān)控系統(tǒng)被廣泛應(yīng)用于各種公共場(chǎng)所。然而,現(xiàn)有監(jiān)控系統(tǒng)大多采取先錄制后分析的工作方式,無(wú)法對(duì)監(jiān)控視頻中的目標(biāo)片段進(jìn)行實(shí)時(shí)且智能的檢索。為此,本發(fā)明針對(duì)跨模態(tài)視頻檢索技術(shù)展開研究,即通過(guò)以自然語(yǔ)言進(jìn)行描述的查詢語(yǔ)句,從監(jiān)控視頻中檢索出與查詢語(yǔ)義相匹配的視頻片段,同時(shí)明確該片段的時(shí)序區(qū)間。例如,根據(jù)以自然語(yǔ)言進(jìn)行描述的查詢語(yǔ)句(“未戴口罩的黑衣男子走入7-Eleven便利店”),在監(jiān)控視頻中檢索出與查詢語(yǔ)義相匹配的目標(biāo)行為視頻片段并對(duì)該視頻片段的時(shí)序區(qū)間(起始于20.1秒,終止于29.8秒)進(jìn)行精準(zhǔn)定位。
不難發(fā)現(xiàn),基于自然語(yǔ)言的跨模態(tài)視頻定位研究,不僅是對(duì)傳統(tǒng)視頻檢索研究的深化,而且跨模態(tài)檢索也具有良好的人機(jī)交互性。目前該研究主要存在以下兩個(gè)挑戰(zhàn):
(1)有效的跨模態(tài)語(yǔ)義對(duì)齊。對(duì)于一條給定的監(jiān)控視頻,不同用戶所期望定位的目標(biāo)視頻片段具有明顯的多樣性。譬如,針對(duì)同一條監(jiān)控視頻,用戶A期望查詢“未戴口罩的黑衣男子走過(guò)郵局,隨后進(jìn)入7-Eleven便利店”的視頻片段,而用戶B期望查詢“未戴口罩的黑衣男子走過(guò)郵局”的視頻片段,上述兩個(gè)目標(biāo)片段在邏輯語(yǔ)義上存在明顯差異,因此如何針對(duì)不同用戶的文本查詢語(yǔ)句,能夠在監(jiān)控視頻上進(jìn)行有效的跨模態(tài)語(yǔ)義對(duì)齊,是非常具有挑選性的。
(2)高效的跨模態(tài)視頻定位。針對(duì)給定監(jiān)控視頻,可能需要基于一條文本查詢語(yǔ)句,對(duì)監(jiān)控視頻進(jìn)行“查詢?cè)~-視頻幀”級(jí)別的語(yǔ)義相似性度量,從而定位出用戶期望的目標(biāo)片段。而如果存在針對(duì)當(dāng)前視頻的多條查詢語(yǔ)句,那么就必須迭代執(zhí)行目標(biāo)片段定位操作,直到全部查詢語(yǔ)句處理完畢。顯然,這種方式將嚴(yán)重影響視頻定位的效率,因此,高效的跨模態(tài)視頻定位,也同樣具有挑戰(zhàn)性。
發(fā)明內(nèi)容
本發(fā)明為了克服以上技術(shù)的不足,提供了一種通過(guò)構(gòu)建一個(gè)多粒度跨模態(tài)語(yǔ)義對(duì)齊模型,從給定視頻中對(duì)不同文本查詢語(yǔ)句所期望的目標(biāo)片段進(jìn)行準(zhǔn)確定位的基于多媒體語(yǔ)義解析的監(jiān)控視頻智能預(yù)警方法。
本發(fā)明克服其技術(shù)問題所采用的技術(shù)方案是:
一種基于多媒體語(yǔ)義解析的監(jiān)控視頻智能預(yù)警方法,包括:
a)對(duì)第k條視頻數(shù)據(jù)Vk進(jìn)行單元分割,k∈{1,...,K},K為視頻數(shù)據(jù)總數(shù),對(duì)分割后的視頻數(shù)據(jù)Vk利用卷積網(wǎng)絡(luò)和雙向時(shí)序卷積網(wǎng)絡(luò)卷積處理后得到視頻單元表征集合
b)對(duì)單元表征集合進(jìn)行池化操作,得到不同長(zhǎng)度的視頻片段表征,將不同長(zhǎng)度的視頻片段表征輸入多層感知機(jī)模型,得到視頻片段表征集合
c)將集合中按照視頻片段各自的起止單元的起止信息重新排序形成矩陣Jk;
d)從集合中選取能夠表示視頻語(yǔ)義層級(jí)信息的標(biāo)志性片段形成錨集合Ak,根據(jù)錨集合Ak構(gòu)建視頻語(yǔ)義樹Ik;
e)對(duì)第k條視頻數(shù)據(jù)Vk的全體查詢語(yǔ)句構(gòu)成的集合Qk通過(guò)基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)與多層感知機(jī)網(wǎng)絡(luò)的語(yǔ)義理解,生成相應(yīng)的查詢語(yǔ)句表征集合
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東省人工智能研究院;山東大學(xué);河鋼數(shù)字技術(shù)股份有限公司;河鋼集團(tuán)有限公司,未經(jīng)山東省人工智能研究院;山東大學(xué);河鋼數(shù)字技術(shù)股份有限公司;河鋼集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110447507.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





