[發(fā)明專利]一種面向數(shù)字人文的移動視覺檢索方法有效
| 申請?zhí)枺?/td> | 201810474540.1 | 申請日: | 2018-05-17 |
| 公開(公告)號: | CN108733801B | 公開(公告)日: | 2020-06-09 |
| 發(fā)明(設(shè)計)人: | 曾子明;秦思琪 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06K9/46;G06K9/62;G06N3/04 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 王琪 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 數(shù)字 人文 移動 視覺 檢索 方法 | ||
本發(fā)明公開一種面向數(shù)字人文的移動視覺檢索方法,包括:首先構(gòu)建基于深度哈希的圖像語義提取模型;通過預(yù)訓(xùn)練對模型各處理層的參數(shù)進行初始化;構(gòu)造適用于數(shù)字人文領(lǐng)域的損失函數(shù);采集數(shù)字人文圖像樣本,并構(gòu)建模型訓(xùn)練數(shù)據(jù)集和驗證集;對圖像樣本進行預(yù)處理;使用構(gòu)建的損失函數(shù)和數(shù)字人文訓(xùn)練集對模型進行訓(xùn)練,優(yōu)化模型參數(shù);使用完成訓(xùn)練的模型提取圖像語義特征向量,完成圖像檢索流程。本發(fā)明針對數(shù)字人文移動視覺檢索中的圖像深度語義特征提取和數(shù)據(jù)傳輸規(guī)模限制兩大挑戰(zhàn),結(jié)合深度學(xué)習(xí)和哈希方法提出基于深度哈希的數(shù)字人文移動視覺搜索方法,該方法在數(shù)字人文領(lǐng)域數(shù)據(jù)集上表現(xiàn)優(yōu)異。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字人文、移動視覺檢索等領(lǐng)域,特別涉及一種面向數(shù)字人文的移動視覺檢索方法。
背景技術(shù)
隨著移動智能終端設(shè)備的普及、大數(shù)據(jù)和云計算技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)上產(chǎn)生了海量的圖片、視頻、3D模型等視覺內(nèi)容;移動設(shè)備的便攜性和無線網(wǎng)絡(luò)的泛在化使得信息檢索方式趨于移動化、多媒體化,移動視覺搜索(Mobile Visual Search,MVS)技術(shù),即通過移動智能終端采集的圖像、視頻或地圖等視覺數(shù)據(jù)作為檢索對象來獲取關(guān)聯(lián)信息的信息檢索模式,逐漸發(fā)展起來,并且產(chǎn)生了巨大的市場和應(yīng)用需求。而將MVS應(yīng)用到數(shù)字人文領(lǐng)域是近幾年隨著圖書情報學(xué)科在MVS研究的逐漸深入而出現(xiàn)的,目前主要應(yīng)用在圖書館、檔案館、博物館等領(lǐng)域,MVS在數(shù)字人文領(lǐng)域的應(yīng)用主要包括提供展品導(dǎo)覽、實現(xiàn)精準(zhǔn)定位、提升閱讀體驗等
目前有關(guān)數(shù)字人文移動視覺檢索的研究主要圍繞以下三個方面展開:①發(fā)展方向的探討:通過調(diào)研研究數(shù)字人文移動視覺的處理對象、基本框架、應(yīng)用實踐等方面的發(fā)展和前景。②基礎(chǔ)架構(gòu)的搭建:通過分析數(shù)字人文移動視覺檢索的處理對象、應(yīng)用場景和技術(shù)實現(xiàn)方法,構(gòu)建基本理論框架。③應(yīng)用試驗:通過構(gòu)建技術(shù)框架、采集數(shù)據(jù),進行模擬實驗驗證相關(guān)方法的有效性。
在上述方法中,大多數(shù)并未充分考慮到圖像深層語義特征的提取以及數(shù)據(jù)傳輸規(guī)模限制,數(shù)字人文移動視覺檢索方法仍然有較大的優(yōu)化空間。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于針對現(xiàn)有技術(shù)中的不足,綜合考慮圖像深層語義特征的提取以及數(shù)據(jù)傳輸規(guī)模限制,運用深度哈希技術(shù)提出一種面向數(shù)字人文的移動視覺檢索方法。
本發(fā)明所采用的技術(shù)方案是:一種面向數(shù)字人文的移動視覺檢索方法,包含以下步驟:
步驟1,構(gòu)建基于深度哈希的圖像語義提取模型,該模型總共分為九個處理層:包括五個卷積層、兩個全連接層、一個哈希層和一個輸出層;
步驟2,對模型進行預(yù)訓(xùn)練,使用預(yù)訓(xùn)練模型參數(shù)作為各處理層的初始化參數(shù);
步驟3,構(gòu)造基于深度哈希的圖像語義提取模型的損失函數(shù);
步驟4,采集圖像樣本,構(gòu)建模型訓(xùn)練集和驗證集;
步驟5,圖像預(yù)處理,減少圖像光照、大小對模型的影響;
步驟6,使用步驟3中構(gòu)建的損失函數(shù)和步驟4構(gòu)建的訓(xùn)練集對模型進行訓(xùn)練,優(yōu)化模型參數(shù);
步驟7,利用步驟6中訓(xùn)練完成的模型提取圖像語義特征,使用步驟4中的驗證集作為圖像檢索集,訓(xùn)練集作為目標(biāo)集,計算圖像間的距離,并根據(jù)距離大小進行排序,返回圖像檢索結(jié)果。
進一步的,所述步驟1中卷積處理層Ci包含卷積、
其中,卷積運算通常是指使用卷積核對圖像中的每個像素進行乘積求和的運算方式,Wi、bi分別為第i個卷積層的卷積核權(quán)重向量和偏置向量;卷積運算結(jié)果通過非線性激活函數(shù)f(·)得到輸出激活值;最后通過池化方法P(·)得到最終的卷積層輸出結(jié)果;
全連接層定義如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810474540.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





