[發(fā)明專利]用于圖像搜索的準確的標簽相關(guān)性預(yù)測有效
| 申請?zhí)枺?/td> | 201611132510.X | 申請日: | 2016-12-09 |
| 公開(公告)號: | CN107085585B | 公開(公告)日: | 2023-06-06 |
| 發(fā)明(設(shè)計)人: | 林哲;沈曉輝;J·勃蘭特;張健明;方晨 | 申請(專利權(quán))人: | 奧多比公司 |
| 主分類號: | G06F16/58 | 分類號: | G06F16/58;G06F16/955;G06F18/23213 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 酆迅 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 圖像 搜索 準確 標簽 相關(guān)性 預(yù)測 | ||
本發(fā)明的各實施例總體上用于圖像搜索的準確的標簽相關(guān)性預(yù)測。具體地,本發(fā)明的實施例提供了一種自動圖像標記系統(tǒng),其可以預(yù)測可以用于基于關(guān)鍵字的圖像檢索、圖像標簽建議和基于用戶輸入的圖像標簽自動完成的標簽的集合以及相關(guān)性得分。最初,在訓(xùn)練期間,使用聚類技術(shù)來減少被輸入到用于訓(xùn)練特征數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的數(shù)據(jù)中的集群不平衡。在實施例中,聚類技術(shù)還可以用于計算可以用于標簽傳播(以標記未標記的圖像)的數(shù)據(jù)點相似性。在測試期間,利用基于多樣性的投票框架來克服用戶標記偏差。在一些實施例中,二元語法重新加權(quán)可以基于預(yù)測的標簽集合來降權(quán)可能是二字母的一部分的關(guān)鍵字。
技術(shù)領(lǐng)域
本申請的各實施例總體上涉及圖像搜索領(lǐng)域,具體是涉及用于圖像搜索的準確的標簽相關(guān)性預(yù)測。
背景技術(shù)
基于因特網(wǎng)的搜索引擎?zhèn)鹘y(tǒng)上采用常見的圖像搜索技術(shù)來定位萬維網(wǎng)上的數(shù)字圖像內(nèi)容。這些公知的圖像搜索技術(shù)之一可以被分類為“基于文本的”圖像搜索。傳統(tǒng)的基于文本的圖像搜索可以接收基于文本的查詢,該基于文本的查詢用于搜索具有關(guān)鍵字標記的圖像的數(shù)據(jù)庫,以生成每個具有與基于文本的查詢匹配的一個或多個關(guān)鍵字標簽的結(jié)果圖像集合。這些基于文本的搜索主要依賴于在其上進行搜索的圖像數(shù)據(jù)庫中的關(guān)鍵字標簽的質(zhì)量和細節(jié)水平。這些關(guān)鍵字標簽通常由自動標記系統(tǒng)來提供。
當前標記系統(tǒng)將標記視為圖像分類問題。在這些系統(tǒng)中,為每個可能的標簽收集大量樣本或訓(xùn)練圖像。然后可以訓(xùn)練分類器以確定給定測試圖像(例如,尚未被標記的圖像)的最可能的標簽。然而,當標簽的數(shù)目非常大(例如,大于10000)時,訓(xùn)練每個分類器在計算上是一種挑戰(zhàn)。此外,這些系統(tǒng)通常忽略稀有標簽,并且不能為給定圖像分配非常特定的標簽。此外,當類似的圖像由類似的注釋者注釋時,由這些系統(tǒng)傳播的關(guān)鍵字標簽可能被破壞。在這些情況下,即使圖像具有一些差異,由于圖像和注釋者的相似性,它們可以用相同的標簽注釋,通常稱為標簽偏差。甚至進一步地,大的數(shù)據(jù)集合通常被聚類以分組類似的數(shù)據(jù)點,其可以由分類器用來將一個組(例如,標簽)與另一個區(qū)分開。然而,當前聚類算法經(jīng)常導(dǎo)致不平衡數(shù)據(jù),其中大多數(shù)數(shù)據(jù)點(例如,圖像)在同一集群中,留下具有很少或沒有數(shù)據(jù)點(例如,圖像)的其它集群。作為這些和其他限制的結(jié)果,這樣的系統(tǒng)通常不足以標記和檢索真實世界圖像。
發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容以便以簡化形式介紹將在以下詳細描述中進一步描述的一些概念。本發(fā)明內(nèi)容并非旨在標識要求保護的主題的關(guān)鍵特征或必要特征,也不應(yīng)當用于幫助確定要求保護的主題的范圍。
本發(fā)明的實施例涉及圖像標記系統(tǒng)。特別地,本發(fā)明的實施例提供了一種自動圖像標記系統(tǒng),其可以預(yù)測可以用于基于關(guān)鍵字的圖像檢索、圖像標簽建議和基于用戶輸入的圖像標簽自動完成的標簽的集合以及相關(guān)性得分。使用增強的聚類技術(shù)來去除聚類不平衡并且改進用于預(yù)測圖像的標簽和相關(guān)性得分的分類器的訓(xùn)練。如上所述,集群不平衡是當大量數(shù)據(jù)點集中在少量集群中時發(fā)生的問題。集群不平衡導(dǎo)致訓(xùn)練期間的低效率以及測試期間的不準確性。因此,提出了一種解決方案,其通過以下方式來強化聚類上的大小上限:(a)去除特定大小的聚類的子集,以及(b)對任何剩余的優(yōu)勢聚類遞歸地應(yīng)用KMeans聚類。以這種方式,當數(shù)據(jù)被輸入到卷積神經(jīng)網(wǎng)絡(luò)(CNN)中時,CNN能夠更有效地區(qū)分訓(xùn)練數(shù)據(jù)中存在的大量標簽,這也使得CNN能夠在測試期間更準確地標記未標記的圖像。
然后可以利用增強的投票框架來克服用戶標記偏差。如上所述,用戶標記偏差是當訓(xùn)練圖像集合已被類似注釋者或類似標簽提供者標記時發(fā)生的問題。提出了一種通過采用基于分集的投票框架來解決用戶標記偏差的解決方案。特別地,在該框架下,可以考慮一對圖像的標簽序列的相似性。這使得能夠確定標簽提供者之間的相似性。因此,不是利用類似的投票計數(shù)來確定何時標記圖像,而是可以測量在投票計數(shù)中消除相似用戶的有效投票數(shù),并且因此減小標記偏差。
附圖說明
下面參考附圖詳細描述本發(fā)明,其中:
圖1是示出根據(jù)本發(fā)明實施例的可以用于基于關(guān)鍵字的圖像檢索、圖像標簽建議和圖像標簽自動完成的標簽系統(tǒng)的框圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于奧多比公司,未經(jīng)奧多比公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611132510.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





