[發明專利]基于元學習的深度哈希檢索算法在審
| 申請號: | 202111334739.2 | 申請日: | 2021-11-11 |
| 公開(公告)號: | CN114064949A | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 姚濤;韓亞茹;閆連山;蒲桂東 | 申請(專利權)人: | 艾迪恩(山東)科技有限公司;西南交通大學煙臺新一代信息技術研究院;魯東大學 |
| 主分類號: | G06F16/51 | 分類號: | G06F16/51;G06F16/583;G06V10/764;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 煙臺雙聯專利事務所(普通合伙) 37225 | 代理人: | 矯智蘭 |
| 地址: | 264000 山東省煙*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 學習 深度 檢索 算法 | ||
本發明公開了基于元學習的深度哈希檢索算法,1)對圖像數據進行預處理,將平衡圖像數據集轉化為非平衡圖像數據集;2)對元學習網絡的參數、圖像檢索網絡的參數進行更新;利用非平衡圖像數據集在圖像檢索網絡中對進行優化,利用平衡圖像數據集在元學習網絡中對進行優化;3)構建圖像檢索訓練過程的學習方式;4)對圖像檢索訓練過程中的參數進行更新;5)圖像檢索生成哈希碼過程,輸入圖像經過卷積神經網絡CNN的全連接層的特征激活作為視覺特征,利用視覺特征進行小規模的圖像檢索。通過從訓練損失到樣本權值的加權函數,該算法不需要手動預先指定權重函數及額外的超參數,可以直接從數據中自適應地學習顯式加權函數。
技術領域
本發明涉及圖像檢索技術領域,尤其涉及基于元學習的深度哈希檢索算法來處理圖像數據非平衡問題。
背景技術
在過去的幾十年里,互聯網的快速發展為人類開創了全新的時代。特別是移動互聯網的迅速發展,越來越多的用戶開始用手機或筆記本上網,這也表明了移動互聯網正逐漸滲透到人們生活、工作的各個領域。網絡數據的來源有很多種,如天氣感應器、社交媒體網站、網上銀行和手機信號。微信、支付寶、位置服務等豐富多彩的移動互聯網應用迅猛發展,正在深刻改變信息時代的社會生活。近幾年,更是實現了由3G經4G到5G的跨越式發展。隨著互聯網行業的快速發展,各行各業積累的數據都呈現出爆炸式增長趨勢,這些數據中不僅有文本,還有圖像、音頻、視頻。據統計,每日網絡用戶在互聯網上傳超過10 億張圖片;淘寶網會員每天上傳圖片數量超過1 億;Facebook注冊用戶超過10億,每月上傳圖片超過10 億。這些都充分證實各行各業產生了大量數據,人類進入了“大數據”時代。在這個時代里,用戶如何在海量、高維的數據中高效而又精確的檢索到需要的信息,成為目前要面對的重點問題。
對于中小規模的圖像數據庫,一般采用傳統的最近鄰圖像檢索,為了提高檢索的準確性,圖像特征的維度d 可達到成千上萬維,在面臨大規模圖像數據庫時會導致兩方面問題:(1)檢索最近鄰圖像的工作量繁重;(2)需要巨大的存儲空間保存圖像特征。以上會導致圖像特征存儲空間大、檢索速度慢等問題。因此,研究者們提出了“近似最近鄰”檢索方法,解決大規模圖像特征存儲和快速檢索問題。“近似最近鄰”樣本指的是,樣本與查詢樣本之間的距離是“最近鄰”樣本與查詢樣本之間距離的d 倍,d1 稱為近似因子。當面臨規模龐大的數據集時,搜索“近似最近鄰”樣本的計算量明顯要比線性檢索“最近鄰”的樣本的計算量小。其中,基于圖像哈希的算法是近似最近鄰檢索的最有效的方法之一。傳統的哈希算法主要是通過哈希函數將高維數據映射到低維的漢明空間,然后用漢明距離表示相似性度量。
近幾年哈希算法被廣泛應用在圖像檢索方面,現存的方法大致可以分成兩類:與數據無關和與數據相關的哈希算法。與數據無關的方法主要依賴于隨機投影來構造哈希函數。局部性敏感哈希(Locality-sensitive hashing, LSH)是一種典型的方法,它利用隨機線性投影將相似數據映射到相似的二進制代碼中。但與數據無關的哈希算法需要更長的哈希碼才能獲得更高的準確率。與數據相關的哈希算法從原始數據中學習投影矩陣,可以有效減小哈希碼的長度。
近幾年深度學習也被應用于大規模圖像哈希算法中,基于深度學習的哈希算法要達到較好的檢索性能,需要有一個龐大且質量好的數據集來訓練模型。但是現實生活中大部分數據集會存在數據偏差。其中最為典型的三種偏差:1)類別非平衡,即極少數類別很容易被采集到,但大多數類別很難被采集到;2)數據噪聲,數據本身會帶有噪聲;3)標簽噪聲;由于獲取標簽的代價太高而進行簡單的網絡搜索來標注數據,所以會存在著很多錯誤的標簽,這樣的情況也會造成訓練上的困難。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于艾迪恩(山東)科技有限公司;西南交通大學煙臺新一代信息技術研究院;魯東大學,未經艾迪恩(山東)科技有限公司;西南交通大學煙臺新一代信息技術研究院;魯東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111334739.2/2.html,轉載請聲明來源鉆瓜專利網。





