[發(fā)明專利]一種基于圖像生成模型的視覺搜索目標(biāo)解碼方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710748222.5 | 申請(qǐng)日: | 2017-08-28 |
| 公開(公告)號(hào): | CN107516113A | 公開(公告)日: | 2017-12-26 |
| 發(fā)明(設(shè)計(jì))人: | 夏春秋 | 申請(qǐng)(專利權(quán))人: | 深圳市唯特視科技有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06N3/04;G06N3/08;G06F17/30 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 518057 廣東省深圳市高新技術(shù)產(chǎn)業(yè)園*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖像 生成 模型 視覺 搜索 目標(biāo) 解碼 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及視覺搜索領(lǐng)域,尤其是涉及了一種基于圖像生成模型的視覺搜索目標(biāo)解碼方法。
背景技術(shù)
隨著移動(dòng)設(shè)備的普及,搜索的過(guò)程逐漸從PC端轉(zhuǎn)移到了移動(dòng)設(shè)備中,這種從WEB到APP的搜索轉(zhuǎn)變更加符合人們隨時(shí)隨地搜索的特性,人們也在努力思索如何讓搜索更自然化,毫無(wú)疑問(wèn),更加自然的搜索模式將會(huì)取代傳統(tǒng)的搜索。因此,除了聲音搜索、文字搜索外,現(xiàn)在又出現(xiàn)了一種新的自然搜索模式——視覺搜索。視覺搜索就是從候選的圖片庫(kù)中找到那些與查詢圖片包含相同物體的圖片,這可以應(yīng)用在商品搜索、車輛搜索、圖片素材搜索、書籍CD等的搜索和基于圖像的地理位置識(shí)別等。如今越來(lái)越流行的移動(dòng)商品圖像搜索就是通過(guò)分析利用手機(jī)相機(jī)拍攝的商品照片,從商品庫(kù)中找到相同或相似的商品,幫助用戶買到更加心儀、價(jià)格更低的產(chǎn)品。然而,傳統(tǒng)的識(shí)別方法需要使用訓(xùn)練分類器來(lái)識(shí)別用戶的搜索目標(biāo),效率低,搜索結(jié)果準(zhǔn)確度不高。
本發(fā)明提出了一種基于圖像生成模型的視覺搜索目標(biāo)解碼方法,先從凝視數(shù)據(jù)中重建搜索目標(biāo),再使用后驗(yàn)類作為注視編碼,并對(duì)它們的生成模型進(jìn)行調(diào)整,再將凝視數(shù)據(jù)集成到卷積神經(jīng)網(wǎng)絡(luò)中,以預(yù)測(cè)搜索目標(biāo)的類別和屬性;用凝視持續(xù)時(shí)間來(lái)計(jì)算凝視圖像的后驗(yàn)加權(quán)平均值,用不同的修剪策略抑制語(yǔ)義表示中的弱激活,解決噪聲問(wèn)題。本發(fā)明不需要使用訓(xùn)練分類器來(lái)識(shí)別用戶的搜索目標(biāo),通過(guò)圖像生成模型,多次觀察并進(jìn)行聚合和提取信息,從而有效識(shí)別圖像,準(zhǔn)確獲取圖片,從而大大提高效率。
發(fā)明內(nèi)容
針對(duì)效率低、搜索結(jié)果準(zhǔn)確度不高的問(wèn)題,本發(fā)明的目的在于提供一種基于圖像生成模型的視覺搜索目標(biāo)解碼方法,先從凝視數(shù)據(jù)中重建搜索目標(biāo),再使用后驗(yàn)類作為注視編碼,并對(duì)它們的生成模型進(jìn)行調(diào)整,再將凝視數(shù)據(jù)集成到卷積神經(jīng)網(wǎng)絡(luò)中,以預(yù)測(cè)搜索目標(biāo)的類別和屬性;用凝視持續(xù)時(shí)間來(lái)計(jì)算凝視圖像的后驗(yàn)加權(quán)平均值,用不同的修剪策略抑制語(yǔ)義表示中的弱激活,解決噪聲問(wèn)題。
為解決上述問(wèn)題,本發(fā)明提供一種基于圖像生成模型的視覺搜索目標(biāo)解碼方法,其主要內(nèi)容包括:
(一)語(yǔ)義凝視編碼器;
(二)視覺搜索目標(biāo)解碼器;
(三)修剪策略。
其中,所述的視覺搜索目標(biāo)解碼,凝視編碼用于將原始凝視數(shù)據(jù)編碼為語(yǔ)義分類空間;生成圖像模型根據(jù)編碼的注視數(shù)據(jù)進(jìn)行調(diào)節(jié),以解碼用戶的可視搜索目標(biāo);
參與者在拼貼圖像I中搜索目標(biāo)類別在搜索任務(wù)期間,用戶執(zhí)行F(I,C,P)=(xi,yi,ti),i=1,…,N,其中每個(gè)注視是屏幕坐標(biāo)的三分之一位置xi,yi,注視持續(xù)時(shí)間為ti;目標(biāo)是從下式中對(duì)目標(biāo)類別c的視覺搜索目標(biāo)ST進(jìn)行采樣;
其中,P(c|F(I,C,P))對(duì)應(yīng)于將注視數(shù)據(jù)編碼成c和P(ST|c)的語(yǔ)義空間,從該語(yǔ)義空間到視覺搜索目標(biāo)的解碼。
進(jìn)一步地,所述的視覺搜索目標(biāo),將凝視數(shù)據(jù)集成到卷積神經(jīng)網(wǎng)絡(luò)中,以預(yù)測(cè)搜索目標(biāo)的類別和屬性;使用凝視池作為凝視編碼器,第一步是先從凝視數(shù)據(jù)中重建搜索目標(biāo)。
其中,所述的語(yǔ)義凝視編碼器,用固定密度圖(FDM)表示固定:
其中,每個(gè)凝視f由在凝視點(diǎn)FDM(f)的位置處的凝視方差的高斯空間分布表示;然后將FDM與視覺特征F(I)組合,從凝視池層中的GAP深度學(xué)習(xí)架構(gòu)獲得;通過(guò)FDM和F(I)的元素乘法完成積分:
為了得到最終的類預(yù)測(cè),將加權(quán)特征圖進(jìn)行平均,并將其饋送到完全連接層和softmax層中:
p(C|I,F)=softmax(WGAPGWFM(I,G)+b) (4)
其中,W是學(xué)習(xí)權(quán)重,b是偏差;使用后驗(yàn)類作為注視編碼,并對(duì)它們的生成模型進(jìn)行調(diào)整。
其中,所述的視覺搜索目標(biāo)解碼器,為了對(duì)用戶的視覺搜索目標(biāo)進(jìn)行采樣,采用一個(gè)生成圖像模型,根據(jù)通過(guò)凝視池層和潛在隨機(jī)變量z預(yù)測(cè)類別后驗(yàn)。
進(jìn)一步地,所述的類別條件圖像生成模型,給定類別矢量和潛在變量目標(biāo)是建立一個(gè)生成圖像的生成模型pθ(x|y,z);
生成的圖像根據(jù)分類信息和潛在變量進(jìn)行調(diào)節(jié);在條件變分自動(dòng)編碼器中,引入輔助分布qφ(z|x,y),以逼近真實(shí)后驗(yàn)分布pθ(z|x,y)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市唯特視科技有限公司,未經(jīng)深圳市唯特視科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710748222.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種數(shù)碼顯微鏡
- 下一篇:一種內(nèi)窺鏡設(shè)備
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





