[發明專利]基于細粒度跨媒體檢索構造實體級公共特征空間的方法有效
| 申請號: | 202111334323.0 | 申請日: | 2021-11-11 |
| 公開(公告)號: | CN113779284B | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 姚亞洲;孫澤人;陳濤;張傳一;沈復民 | 申請(專利權)人: | 南京碼極客科技有限公司 |
| 主分類號: | G06F16/483 | 分類號: | G06F16/483;G06F16/41 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 尹新路 |
| 地址: | 211899 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 細粒度 媒體 檢索 構造 實體 公共 特征 空間 方法 | ||
1.一種基于細粒度跨媒體檢索構造實體級公共特征空間的方法,其特征在于,包括:
步驟S1.獲取視頻數據,判斷輸入的媒體類型是否為視頻數據,如果是,進入步驟S2,如果否,獲取類型為音頻數據、圖像數據和文本數據的媒體類型數據后進入步驟S3;
步驟S2.預設噪聲幀濾除規則,根據噪聲幀濾除規則對獲取到的視頻數據進行過濾,獲取不包含細粒度實體的幀圖像;
步驟S3.獲取媒體數據類型的低層特征,對低層特征進行線性投影,獲取實體級公共特征空間;
生成實體級公共特征空間包括:通過實體標簽、同類樣本的相關性約束條件、單媒體的實體構造約束條件以及媒體判別器和生成器的對抗訓練進行線性投影生成實體級公共特征空間; 所述單媒體的實體構造約束條件包括:將文本提取出的文本實體特征與過濾后的視頻數據、音頻數據和圖像數據的特征相關聯;
步驟S4.根據實體級公共特征空間提取高層次語義并進行學習;
預設同類樣本的相關性約束條件和單媒體的實體構造約束條件,上述步驟S3-步驟S4遵循所述約束條件。
2.根據權利要求1所述的基于細粒度跨媒體檢索構造實體級公共特征空間的方法,其特征在于,所述步驟S2中包括: 步驟S2.1.以相同時間間隔截取每個視頻數據中的視頻幀,獲取原始關鍵幀; 步驟S2.2.根據特征提取網絡獲取視頻幀的特征; 步驟S2.3.通過計算視頻幀之間的距離確定中心幀;
步驟S2.4.預設閾值,確定好中心幀和閾值之后,判斷每一幀到中心幀的距離是否大于閾值,如果是,丟棄當前幀,如果否,保留位有效幀;
步驟S2.5.當中心幀不再發生變化時,獲取不包含細粒度實體的有效幀的圖像。
3.根據權利要求1所述的一種基于細粒度跨媒體檢索構造實體級公共特征空間的方法,其特征在于,所述步驟S3中的低層特征包括: 根據卷積神經網絡提取過濾后的視頻數據、音頻數據和圖像數據的特征; 根據實體提取器提取文本數據中的實體,獲取文本實體特征,并生成對應的文本實體標簽; 根據過濾后的視頻數據、音頻數據、圖像數據的特征和文本實體特征生成低層特征。
4.根據權利要求1所述的一種基于細粒度跨媒體檢索構造實體級公共特征空間的方法,其特征在于,所述步驟S4包括:
使用語義類別標簽進行實體級語義抽象,基于統一的語義表示,計算不同媒體類型的媒體數據之間的相似性,并進行跨媒體檢索。
5.根據權利要求1所述的一種基于細粒度跨媒體檢索構造實體級公共特征空間的方法,其特征在于,所述同類樣本的相關性約束條件包括: 將具有正相關性的媒體數據之間基于距離最小化規則進行操作,將具有負相關性的媒體數據之間基于距離最大化規則進行操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京碼極客科技有限公司,未經南京碼極客科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111334323.0/1.html,轉載請聲明來源鉆瓜專利網。





