[發明專利]一種面向數字人文的移動視覺檢索方法有效
| 申請號: | 201810474540.1 | 申請日: | 2018-05-17 |
| 公開(公告)號: | CN108733801B | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 曾子明;秦思琪 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06K9/46;G06K9/62;G06N3/04 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 王琪 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 數字 人文 移動 視覺 檢索 方法 | ||
1.一種面向數字人文的移動視覺檢索方法,其特征在于,包含以下步驟:
步驟1,構建基于深度哈希的圖像語義提取模型,該模型總共分為九個處理層:包括五個卷積層、兩個全連接層、一個哈希層和一個輸出層;
步驟2,對模型進行預訓練,使用預訓練模型參數作為各處理層的初始化參數;
步驟3,構造基于深度哈希的圖像語義提取模型的損失函數;
所述步驟3中,構造基于深度哈希的圖像語義提取模型的損失函數,定義如下:
L=Lp+Lr+φ(θ)
該損失函數包含預測損失項Lp、排序損失項Lr和正則項φ(θ)三個部分;
其中,預測損失項Lp計算模型對樣本的預測值與真實值之間的誤差,定義如下:
對于屬于類別Ci的樣本x,模型輸出為f(x)=(x1,...,xC),xi表示該樣本屬于類別i的得分值,C為類別總數,即表示該樣本屬于實際類別Ci的概率,xmaxi為模型預測的最大概率值,-log為計算對數損失;
排序損失項主要考慮到語義排序問題,將排序因素計入損失項中,排序損失項Lr定義如下:
其中,即正樣本得分排在負樣本前面的概率;Lr排序損失可理解為:對于實際屬于Ci類的單個樣本x,理想結果是且趨近于1、xi趨近于0,此時Lr=0;若正樣本預測得分小于負樣本,則需要計入排序損失項;
正則項的主要作用是提高模型的領域泛化性,定義如下:
其中,λ為正則項系數,調節正則項與其他損失項的比重,n為模型訓練過程中每批訓練集的樣本數,1/2便于梯度計算過程中的求導,w為模型中各節點的連接權重值;
步驟4,采集圖像樣本,構建模型訓練集和驗證集;
步驟5,圖像預處理,減少圖像光照、大小對模型的影響;
步驟6,使用步驟3中構建的損失函數和步驟4構建的訓練集對模型進行訓練,優化模型參數;
步驟7,利用步驟6中訓練完成的模型提取圖像語義特征,使用步驟4中的驗證集作為圖像檢索集,訓練集作為目標集,計算圖像間的距離,并根據距離大小進行排序,返回圖像檢索結果。
2.根據權利要求1所述的一種面向數字人文的移動視覺檢索方法,其特征在于:所述步驟2中,使用ImageNet數據集對模型進行預訓練。
3.根據權利要求1所述的一種面向數字人文的移動視覺檢索方法,其特征在于:所述步驟4中,采集的圖像數據樣本為數字人文領域,先對樣本進行分類,然后構建模型訓練集和驗證集,且訓練集和驗證集相互獨立。
4.根據權利要求1所述的一種面向數字人文的移動視覺檢索方法,其特征在于:所述步驟5中,采用對比度歸一化方法對圖像進行預處理,方法如下:
其中,圖像為標準RGB格式,表示為X∈Rr×c×3,r×c為圖像像素大小,數字3即RGB格式的紅、綠、藍三個顏色通道,則Xm,n,k表示第m行第n列第k個顏色通道的像素值,其中1為紅色、2為綠色,3為藍色通道;為整個圖像的平均值;設置為一個極小值以防止出現分母為0的情況。
5.根據權利要求1所述的一種面向數字人文的移動視覺檢索方法,其特征在于:所述步驟6中,采用小批量梯度下降方法對模型訓練過程進行優化,模型訓練和優化的參數是各處理層的連接權重值和偏置值,通過模型訓練使得模型中各個處理層得到最優參數值。
6.根據權利要求1所述的一種面向數字人文的移動視覺檢索方法,其特征在于:所述步驟7中使用歐式距離度量圖像間的距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810474540.1/1.html,轉載請聲明來源鉆瓜專利網。





