[發明專利]基于細粒度跨媒體檢索構造實體級公共特征空間的方法有效
| 申請號: | 202111334323.0 | 申請日: | 2021-11-11 |
| 公開(公告)號: | CN113779284B | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 姚亞洲;孫澤人;陳濤;張傳一;沈復民 | 申請(專利權)人: | 南京碼極客科技有限公司 |
| 主分類號: | G06F16/483 | 分類號: | G06F16/483;G06F16/41 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 尹新路 |
| 地址: | 211899 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 細粒度 媒體 檢索 構造 實體 公共 特征 空間 方法 | ||
本發明涉及細粒度跨媒體檢索技術領域,公開了一種基于細粒度跨媒體檢索構造實體級公共特征空間的方法,包括:獲取視頻數據,預設噪聲幀濾除規則,根據噪聲幀濾除規則對獲取到的視頻數據進行過濾,獲取不包含細粒度實體的幀圖像;獲取媒體數據類型的低層特征,對低層特征進行線性投影,獲取實體級公共特征空間;根據實體級公共特征空間提取高層次語義并進行學習。本發明可以學習低層特征到實體級公共特征空間的投影矩陣,并生成跨媒體數據的公共特征以進行跨媒體檢索。
技術領域
本發明涉及細粒度跨媒體檢索技術領域,具體地說,是一種基于細粒度跨媒體檢索構造實體級公共特征空間的方法,可以學習低層特征到實體級公共特征空間的投影矩陣,并生成跨媒體數據的公共特征以進行跨媒體檢索。
背景技術
細粒度跨媒體檢索任務中有一個難點便是如何減少不同媒體數據間的異質性差距,最常用的方法便是尋找某種映射函數,將不同媒體類型的樣本映射到共同特征空間中,并根據輸入數據在此空間中的特征與數據庫中候選對象的相似性排序來生成檢索結果。然而,這樣的公共特征空間卻存在某種缺陷。通常在此空間中的特征沒有明確的含義(即不知道此特征代表什么),導致最終可能會忽略媒體數據中包含的原有語義信息。還有一些算法提出的公共語義空間只是簡單地利用了低層次特征和高層語義特征之間的關系,一般低層次特征由卷積神經網絡提取,高層次特征是以低層次特征為基礎在語義類別標簽的約束下抽象出來的語義,而這樣只能提取粗粒度的特征。
眾所周知,實體和實體可以相互區分。在文本中,實體即物體名、物種名、地名、時間等,而在圖像中就是一個個體。幾乎每一種媒體數據里面都存在實體的概念,并且相應的實體存在于對應的高層特征中。另外,由于實體的客觀存在性,具有相似語義的多種媒體數據也包含相同的實體,因此它們可以拓展到其他的媒體域中。鑒于實體的可區分性、相關性和擴展性,本發明采用基于實體級公共特征空間的方法來解決細粒度跨媒體檢索的任務,將實體作為低層特征和高層語義特征的中間銜接橋梁。
為了解決上述問題,亟需一種新的細粒度跨媒體檢索的方法,可以學習低層特征到實體級公共特征空間的投影矩陣,并生成跨媒體數據的公共特征表示形式以進行跨媒體檢索。
發明內容
本發明的目的在于提供一種基于細粒度跨媒體檢索構造實體級公共特征空間的方法,可以學習低層特征到實體級公共特征空間的投影矩陣,并生成跨媒體數據的公共特征表示形式以進行跨媒體檢索。
本發明通過下述技術方案實現:一種基于細粒度跨媒體檢索構造實體級公共特征空間的方法,包括: 步驟S1.獲取視頻數據,判斷輸入的媒體類型是否為視頻數據,如果是,進入步驟S2,如果否,獲取類型為音頻數據、圖像數據和文本數據的媒體類型數據后進入步驟S3;
步驟S2.預設噪聲幀濾除規則,根據噪聲幀濾除規則對獲取到的視頻數據進行過濾,獲取不包含細粒度實體的幀圖像;
步驟S3.獲取媒體數據類型的低層特征,對低層特征進行線性投影,獲取實體級公共特征空間;
步驟S4.根據實體級公共特征空間提取高層次語義并進行學習。
預設同類樣本的相關性約束條件和單媒體的實體構造約束條件,上述步驟S1-步驟S4遵循所述約束條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京碼極客科技有限公司,未經南京碼極客科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111334323.0/2.html,轉載請聲明來源鉆瓜專利網。





