[發明專利]一種基于多任務學習深度語義哈希的快速圖像檢索方法、模型及模型構建方法有效
| 申請號: | 201810851990.8 | 申請日: | 2018-07-30 |
| 公開(公告)號: | CN109063112B | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 李宏亮;馬雷 | 申請(專利權)人: | 成都快眼科技有限公司 |
| 主分類號: | G06F16/58 | 分類號: | G06F16/58;G06F16/51;G06F16/55 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 郭彩紅 |
| 地址: | 610200 四川省成都市雙*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 學習 深度 語義 快速 圖像 檢索 方法 模型 構建 | ||
1.一種基于多任務學習深度語義哈希的快速圖像檢索模型構建方法,具體方法包括,
S1,收集大量的訓練圖片,并進行圖片類別標注;調整所有圖片的大小到一個固定尺寸;將整個數據庫隨機劃分成三個集合:查詢集、數據庫集和訓練集;
S2:構建一個哈希學習網絡,對所構建的哈希學習網絡進行參數初始化;在哈希學習網絡的最后添加損失層網絡的損失函數J定義如下:
J=NJcl+λJre
其中N代表訓練集圖像的總數,λ表示超參數以平衡用于分類任務的COCO損失Jcl及檢索任務的成對損失Jre;對于單標簽情形,采用下面的損失函數形式用于分類任務哈希碼的學習:
其中ui表示網絡最后一層經過tanh(·)激活函數的輸出,Y表示訓練樣本的標簽矩陣,L表示類別數目,ck表示第k類的中心;對于多標簽情形,采用下面的損失函數形式用于分類任務哈希碼的學習:
其中C=[c1,c2,…,cL]表示在單標簽情形下的原類別中心,表示給定的第i張圖片的新的語義中心;針對檢索任務,采用下面的成對損失形式:
其中S∈{-1,1}N×N表示相似性矩陣,表示兩張圖片的漢明相似性;
S3,將訓練圖片的RGB三個通道分別減去一個恒定的值作歸一化處理;將歸一化后的圖片輸入網絡,經過最后tanh(·)激活函數的輸出得到近似二值碼的特征表示其中K表示哈希碼的碼長;對于單標簽情形,計算損失函數對ui的偏導數
其中對于多標簽情形,計算損失函數對ui的偏導數
其中
利用反向傳播算法,求得損失函數對網絡參數Θ的偏導數;網絡參數的更新使用梯度下降算法;對于語義中心的更新,分成單標簽情形與多標簽情形兩種情況進行討論;對于單標簽情形,語義中心C=[c1,c2,…,cL]的更新,寫成如下閉式解形式:
對于多標簽情形,語義中心C=[c1,c2,…,cL],可以采用如下加權平均的方式:
S4,網絡模型訓練完成后,將數據庫集圖片按照S3歸一化后輸入訓練好的哈希網絡;將哈希網絡最后的損失層替換成逐元素的sign(·)函數層,輸出最終數據庫圖像的哈希碼:
bd=sign(F(xd;Θ))=sign(ud)
利用訓練集作為查詢圖片,計算查詢的平均精度;按照交叉驗證的原則,調整學習率、超參數λ的數值;按照調整后的參數,重復S2和S3對哈希網絡進行重新訓練。
2.根據權利要求1所述的圖像檢索模型構建方法,所述方法還包括,將查詢集圖片按照S3歸一化后,輸入經過參數調優后的哈希網絡,得到查詢集圖像的哈希碼;計算查詢的平均精度。
3.一種基于多任務學習深度語義哈希的快速圖像檢索模型,在權利要求1或2所述的圖像檢索模型構建方法上構建實現,包括,
圖像檢索輸入接口,接收要進行檢索的圖片;
檢索圖像歸一化處理模塊,將檢索圖像的RGB三個通道分別減去設定的恒定的值作歸一化處理;
深度語義稱哈希處理,對歸一化處理后的圖像進行深度語義稱哈希處理,得到圖像的哈希碼。
4.一種基于多任務學習深度語義哈希的快速圖像檢索方法,在權利要求3所述的圖像檢索模型的基礎上實現,包括,
輸入要檢索的圖片,將檢索圖像的RGB三個通道分別減去設定的恒定的值作歸一化處理;對歸一化處理后的圖像進行深度語義哈希處理,得到圖像的哈希碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都快眼科技有限公司,未經成都快眼科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810851990.8/1.html,轉載請聲明來源鉆瓜專利網。





