[發明專利]基于多模態異構圖注意力網絡的深度視頻理解知識圖譜構建方法有效
| 申請號: | 202111434458.4 | 申請日: | 2021-11-29 |
| 公開(公告)號: | CN114186069B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 董文龍;毛啟容;姚慶 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06N5/02;G06N3/0464;G06N3/08;G06V10/82;G06V20/40;G06V40/20;G06V10/74;G06V10/40 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212013 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態異 構圖 注意力 網絡 深度 視頻 理解 知識 圖譜 構建 方法 | ||
1.基于多模態異構圖注意力網絡的深度視頻理解知識圖譜構建方法,其特征在于:
音頻片段、每段音頻對應的文本以及關鍵幀中的人物和物品送入人物/位置重識別系統,將音頻、文本、人物、關鍵幀根據基本事實進行對齊,提取對齊后的人物、音頻、文本、關鍵幀以及物品的特征;
將提取的特征送入多模態異構圖注意力網絡,預測人物與人物以及人物與位置之間的關系,根據預測的關系生成知識圖譜;
所述預測人物與人物以及人物與位置之間的關系,具體為:
若兩個人物同時出現在一個關鍵幀中,生成關系對T=Tα∪Tβ,其中Tα表示人物-人物之間的關系,Tβ表示人物-位置之間的關系;所述關系對T所在視頻片段的特征中包含多個物品,文本中有多條語句,使用模態內注意力機制挖掘不同物品和語句對關系對判斷的貢獻度;所述關系對T所在視頻片段的特征由多種模態的特征組成,利用模態級注意力機制挖掘人物、物品、文本、關鍵幀、音頻特征對關系對判斷的貢獻度;
若兩個人物沒有同時出現在一個關鍵幀中,而人物所在背景中存在同類物品,對話涉及相同實體和主題,則認為人物-人物、人物-位置之間存在聯系,生成異構圖G={V,E},其中:V是節點集合,包括關系對T、物品、實體和主題節點,E是邊集合,若關系涉及到相同物品、主題或實體,則在關系對T-關系對T、關系對T-物品、關系對T-主題、關系對T-實體之間建立一條邊;
所述異構圖G按照特征傳播規則進行特征傳播,得到關系的特征,利用預測人物與人物、人物與位置之間的關系;
其中:Bs表示關注矩陣,其第v行第v′列的元素為δvv′s,δvv′s表示節點v′對v的權重標準化的權重,權重屬于語義s;H(l)表示第l層所有關系對T節點的特征,表示第l層屬于語義s的節點的特征,是可訓練的參數,σ是激活函數,sr,k是H中一個節點的特征,表示第k個場景中第r個關系對經多模態異構圖注意力網絡處理后的特征,pr,k表示預測得分,R表示關系的種類,S表示不同的語義,包括物品、實體和主題三種不同的語義。
2.根據權利要求1所述的基于多模態異構圖注意力網絡的深度視頻理解知識圖譜構建方法,其特征在于,所述模態內注意力機制的計算方法為:
其中:Fi表示一個物品或一條語句的特征,ca、Wa、ba是可訓練的參數,tanh是激活函數,ei是Fi的權重,N是物品或語句的數目,αi是標準化的權重,Fm是物品或文本的整體特征。
3.根據權利要求2所述的基于多模態異構圖注意力網絡的深度視頻理解知識圖譜構建方法,其特征在于,所述模態級注意力機制的計算方法為:
其中:Fm表示一種的特征,包括人物特征、關鍵幀特征、文本特征、音頻特征和物品特征;cb、Wb、bb是可訓練的參數;tanh是激活函數;em是Fm的權重;M是特征的種類數;βm是標準化的權重;Fv是一個關系對T的整體特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111434458.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電梯井道結構及安裝方法
- 下一篇:一種注塑方法





