[發明專利]基于逆向k近鄰的圖像搜索中高質量相關樣本自動選取法有效
| 申請號: | 201410503500.7 | 申請日: | 2014-09-26 |
| 公開(公告)號: | CN104268227B | 公開(公告)日: | 2017-10-10 |
| 發明(設計)人: | 冀中;于云龍 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 天津市北洋有限責任專利代理事務所12201 | 代理人: | 杜文茹 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 逆向 近鄰 圖像 搜索 中高 質量 相關 樣本 自動 選取 | ||
技術領域
本發明涉及一種在多媒體信息檢索中自動選取高質量相關數據的方法。特別是涉及一種基于逆向k近鄰的圖像搜索中高質量相關樣本自動選取法。
背景技術
目前,借助于文本搜索中的成熟技術,常用的商業搜索引擎已經能較好地解決海量文本的搜索問題。目前的視頻和圖像搜索技術主要也是通過索引和搜索其相關的文本信息,但是,“一幅圖像勝過千言萬語”,有限的文本信息不足以全面充分地描述圖像豐富的視覺內容,因此基于文本的搜索結果往往不盡如人意,在搜索引擎返回的結果中,一些不相關或者相關度低的圖像經常被排在搜索結果的前幾位,圖像和其文本信息之間的誤匹配會造成一些不相關的圖像錯誤地被返回;由于僅依賴于文本信息無法區分圖像的相關程度,所以一些相關性較低的圖像被返回給用戶。為了解決基于文本的視頻和圖像搜索存在的缺點,一個可能的解決辦法是基于內容的圖像檢索,該方法完全不用文本描述信息,只依賴于圖像視覺信息,比如顏色,紋理,邊緣等。該方法的缺點是要求用戶提供圖像樣本實例,在web圖像搜索中,用戶更趨向于用關鍵字來進行搜索,而且通常情況下圖像樣本實例很難獲得。
綜上所述,針對文本和基于內容的搜索排序技術各有優缺點,如何解決他們各自存在的問題并利用他們各自的優點是重排序技術面臨的一個挑戰,目前一個成功的解決方案是先用基于文本的搜索方法快速從大規模的數據庫中返回一個初始的查詢結果,然后在初始查詢結果的數據集上(規模小很多)充分利用圖像的內容信息來重新排序得到一個更好的結果,該方法稱作視覺搜索重排序技術,即:利用視覺信息改進初始查詢結果的過程。
搜索重排序技術的性能與提供的訓練樣本的個數及質量有關。在訓練排序模型時,相關樣本的數目越多、質量越高,系統能夠得到的用戶查詢意圖信息就越豐富,重排序的性能就越好。反之重排序的效果就不盡如人意。這就是所謂的搜索系統和用戶之間存在的“意圖鴻溝”(Intent Gap)。常用的解決方法是引入相關反饋(Relevance Feedback),以明確用戶的特定搜索意圖,返回用戶需求的結果。
當前利用反饋技術進行重排序的方法大體分為三種:(1)顯式的相關反饋技術:從初始的查詢結果中手動地挑選出一些相關樣本,這種方法通過與用戶的交互來提高重排序的性能,具有一定局限性,例如Culetal等提出了IntentSearch模型,該模型允許用戶從初始的搜索結果中挑選一幅圖像作為正例,然后通過計算其它圖像與這幅圖像的相似性進行重排序,但是由于語義鴻溝的存在,很多情況下很難用一幅圖像完整表達用戶的搜索意圖,尤其在搜索意圖比較復雜的情況下。Tian等提出了主動重排序,該方法通過與用戶交互不斷地學習用戶的真實搜索意圖。(2)隱式的相關反饋技術:與顯式的反饋相比,隱式的反饋技術不需要和用戶進行交互,但容易受噪聲的干擾。如Liu等提出了偽相關反饋模型,該模型基于初始的排序結果的前N幅圖像是相關的這一假設,選取出前N幅圖像樣本建立模型,重新進行排序。這種方法簡單,并且不需要和用戶進行交互,但因為噪聲的影響,效果并不是很理想。(3)點擊數據:通過用戶點擊(Click-through)數據進行重排序的方法得到廣泛關注,如Hua等利用用戶的點擊次數來縮小語義和意圖之間的“意圖鴻溝”,這種方法認為用戶點擊圖像的次數為用戶感興趣的圖像,也就是相關樣本。如果一幅圖像點擊次數越多,就認為這幅圖像與用戶的查詢意圖越接近。但現實中,用戶的點擊次數的信息并不容易獲得。
傳統的偽相關反饋是基于初始的排序結果的前N幅圖像都是相關的這一假設,選取出前N幅圖像樣本建立模型,重新進行排序。但初始排序結果的前N幅圖像中有很多噪聲,即有不相關樣本的存在,受噪聲的干擾,重排序的性能會受很大的影響。
發明內容
本發明所要解決的技術問題是,提供一種基于逆向k近鄰的圖像搜索中高質量相關樣本自動選取法,只需要一次反饋,而且該次反饋只需標注一個相關樣本,就可以自動找到足夠多的高質量偽相關樣本,不僅簡單實用,還保證了重排序技術的性能。
本發明所采用的技術方案是:一種基于逆向k近鄰的圖像搜索中高質量相關樣本自動選取方法,包括如下步驟:
1)在搜索引擎中輸入查詢關鍵詞,得到初始的基于文本的搜索結果;
2)從初始的排序結果中標注相關樣本,取出初始排序結果中排在前N幅圖像樣本作為待選樣本集,其中N是大于1的整數;
3)利用逆向k近鄰方法從待選樣本集中挑選出與所有已挑出的相關樣本都相似的樣本作為相關樣本;
4)利用所挑選的相關樣本和學習得到的相關樣本建立訓練排序模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410503500.7/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





