[發明專利]基于圖正則化非負矩陣分解的在線單模態哈希檢索方法在審
| 申請號: | 201910635330.0 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110516026A | 公開(公告)日: | 2019-11-29 |
| 發明(設計)人: | 王笛;王泉;萬波;安亞強;田玉敏;楊鵬飛;趙輝 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/51;G06F16/953;G06K9/62 |
| 代理公司: | 61205 陜西電子工業專利中心 | 代理人: | 田文英;王品華<國際申請>=<國際公布> |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 哈希 非負矩陣 正則化 分解 數據在線更新 信息檢索系統 標簽數據 構造信息 檢索結果 檢索模型 建立模型 模型訓練 實時獲取 思想構建 損失函數 投影矩陣 文本樣本 系統存儲 信息檢索 信息損失 優化結果 單模態 訓練集 檢索 存儲 圖像 監督 | ||
本發明公開了一種基于圖正則化非負矩陣分解的在線哈希信息檢索方法,其步驟為:(1)生成初始訓練集;(2)在線有監督訓練單模態哈希檢索模型;(3)利用圖正則化非負矩陣分解構造信息損失函數;(4)獲得最優投影矩陣和哈希編碼;(5)生成待檢索的圖像或文本樣本的哈希編碼;(6)獲取檢索結果。本發明采用圖正則化非負矩陣分解的思想構建信息損失函數,能夠對實時獲取的有標簽數據在線建立模型,并根據獲取到的數據在線更新模型,在模型訓練的過程中,信息檢索系統只需存儲前一輪的優化結果,降低了系統存儲壓力,提高了計算速度,具有廣泛的適應性。
技術領域
本發明屬于計算機技術領域,更進一步涉及信息檢索技術領域的一種基于圖正則化非負矩陣分解的在線單模態哈希檢索方法。本發明可用于對文字或圖片等多種單模態的數據,實現在線單模態數據模態內部的快速檢索。
背景技術
隨著互聯網的不斷發展,數據量飛速增長,同時用以承載信息的數據形式也呈現出了多樣化,這些數據通常都具有數據量大,維數較高等特點,為了能夠實現對于多樣化的數據進行快速準確的檢索,需要采用哈希方法對數據進行降維、編碼。傳統的哈希檢索方法需要存儲大量歷史數據,通過對歷史數據的訓練學習,建立模型,但是傳統哈希檢索方法并不能解決對在線數據進行模型建立的問題。如何針對上述問題實現對在線增長數據的模型建立以及快速檢索,是當前信息檢索技術領域需要亟需解決的問題。
山東山大鷗瑪軟件股份有限公司在其申請的專利文獻“基于哈希檢索的手寫英文單詞智能識別方法”(申請公布號:CN109344279A,申請公告日:2019.02.15,申請號:2018115199618)中公開了一種單模態哈希檢索方法。該方法的步驟是,(1)根據數據庫中每一張手寫英文單詞圖像的視覺特征和標簽信息,分別得到對應的視覺特征矩陣和標簽信息矩陣;(2)根據標簽信息矩陣得到圖像的相似性矩陣;(3)利用視覺特征矩陣、標簽信息矩陣和相似性矩陣,獲得數據庫中每一張圖像的哈希碼;(4)根據獲得的哈希碼,學習視覺特征到哈希碼的映射,即哈希哈數;(5)獲取待檢索的手寫英文單詞圖像,利用哈希函數檢索數據庫中圖像的哈希碼,完成圖像檢索。該方法存在的不足之處是,該方法需要對歷史數據進行存儲,在數據量很大的情況下,會產生很大的數據存儲壓力,同時面對數據的快速增長,該方法不能夠解決動態增長數據的模型建立問題和單模態數據的在線檢索問題。
寧波大學在其申請的專利文獻“一種面向高維大數據集的加權量化哈希檢索方法”(申請公布號:CN109634953A,申請公告日:2018.11.07,申請號:2018113168831)中公開了一種面向高維大數據的加權量化哈希檢索方法。該方法的步驟是,(1)利用主成分分析算法分別對原始高維數據和給定查詢數據降維;(2)根據成對保相似性原則并采用松弛后的正交約束條件構造損失函數,通過最小化該損失函數得到最終二進制編碼矩陣和最終權重矩陣;(3)根據最終權重矩陣和最終二進制編碼矩陣獲得加權后的二進制編碼矩陣和與給定查詢數據對應的二進制編碼;(4)在加權后的二進制編碼矩陣中查找與給定查詢數據對應的二進制編碼的加權海明距離最近的行向量數據,完成對給定查詢數據的哈希檢索過程。該方法存在的不足之處是,該方法是一個無監督方法,未能充分利用數據的標簽信息,導致檢索精度大幅度下降。
綜上所述,對于信息檢索領域的應用,目前已有的單模態哈希檢索方法仍然存在由于只對歷史數據進行訓練而導致模型不能實時學習新數據的特征,由于需要存儲大量歷史數據用于模型訓練而導致存儲空間不足,由于大多數在線單模態哈希檢索方法是無監督方法,未能充分利用標簽信息導致檢索精度大幅度下降等問題。
發明內容
本發明的目的在于針對上述現有技術的不足,提出一種基于圖正則化非負矩陣分解的在線單模態哈希檢索方法。對于動態增長的單模態有標簽數據,本發明能有效利用單模態數據的標簽信息,利用圖正則化非負矩陣分解的方法,在線建立模型,得到更具代表性的哈希編碼,從而提高哈希檢索方法的準確率,還能夠提升計算速度,降低系統的存儲壓力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910635330.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:臺風追蹤系統及方法
- 下一篇:信息集合的更新方法、裝置、電子設備及存儲介質





