[發(fā)明專利]一種用于網(wǎng)絡搜索的無標注圖片的排序方法無效
| 申請?zhí)枺?/td> | 201110322609.7 | 申請日: | 2011-10-21 |
| 公開(公告)號: | CN102368266A | 公開(公告)日: | 2012-03-07 |
| 發(fā)明(設計)人: | 徐頌華;江浩;劉智滿 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州天勤知識產(chǎn)權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 網(wǎng)絡 搜索 標注 圖片 排序 方法 | ||
技術領域
本發(fā)明屬于網(wǎng)絡搜索排序技術領域,具體涉及一種用于網(wǎng)絡搜索的無標注圖片的排序方法。
背景技術
早在20世紀70年代,各國的科研人員就開始研究如何有效的管理圖像數(shù)據(jù),當時采用的技術主要是基于文本的圖像檢索技術(TBIR),是指利用手工輸入文本的方式為圖像輸入一系列的關鍵字,然后將圖像的存儲路徑和圖像關鍵字之間建立聯(lián)系,圖像檢索實際上變成了文本檢索,這種方法簡單易行,用傳統(tǒng)的關系數(shù)據(jù)庫就可以實現(xiàn),但也存在一些缺點,如手工輸入關鍵字的工作量過大,標識海量圖像數(shù)據(jù)的關鍵字是不切實際的,而且手工標識不可避免地會帶有個人的主觀性和不確定性,畢竟不同的人對于同一幅圖像的理解可能是不相同的。
在本世紀初,網(wǎng)頁信息自動采集和標引作為搜索引擎的重要部分,得到了深入的研究,Google、Yahoo等搜索引擎紛紛推出采用TBIR技術的圖片搜索功能。顯然這種自動標引所采集的圖像標識是很粗糙的,準確性不高,有時甚至是不準確的,會檢索出很多無關的圖片出來;同時,對于很多符合用戶搜索信息的無文本標注的圖片,搜索引擎是無法對這些圖片進行準確的排序顯示。
為了克服基于文本的圖像檢索技術的局限性,20世紀90年代以來,基于內(nèi)容的圖像檢索技術(CBIR)得到了極大的發(fā)展。CBIR技術主要是指在圖像處理的基礎上,利用圖像的顏色、形狀、紋理、輪廓以及對象的空間關系等基本視覺特征進行檢索。與TBIR不同的是它利用了圖像本身包含的客觀的視覺特征,能通過計算機自動實現(xiàn)對圖像特征的提取和存儲等,提高了圖像處理速度,有利于實現(xiàn)圖像索引和檢索的自動化實現(xiàn)。目前,已有很多成型的基于CBIR技術的系統(tǒng)運行,如MTT的Photo?Book和UIUC大學的MARS等。
但在實際應用中,用戶通常事先對所需求的圖像只有一些關于圖像的主觀描述,用戶需要的是圖像含義的查詢,而不是顏色、紋理、形狀等特征。這些圖像的含義就是圖像的高層語義特征,它包含了人對圖像內(nèi)容的理解。因此,CBIR技術只適用于小環(huán)境下如科研領域數(shù)據(jù)庫的搜索,而并不適用于實際大環(huán)境下如互聯(lián)網(wǎng)的搜索等。
發(fā)明內(nèi)容
針對現(xiàn)有技術所存在的上述技術缺陷,本發(fā)明提供了一種用于網(wǎng)絡搜索的無標注圖片的排序方法,實現(xiàn)了根據(jù)查詢信息對無標注圖片的準確排序,使得用戶可以對無標注圖片進行搜索獲取,且搜索效果好。
一種用于網(wǎng)絡搜索的無標注圖片的排序方法,包括如下步驟:
(1)根據(jù)給定的查詢信息利用網(wǎng)絡搜索引擎進行圖片搜索,從搜索結果中收集排序前M張圖片作為參考圖片;
(2)計算出每張參考圖片與查詢信息的相關度;
(3)計算出參考圖片間的相似度;
(4)根據(jù)參考圖片間的相似度,修正每張參考圖片與查詢信息的相關度,得到每張參考圖片與查詢信息的修正后的相關度;
(5)根據(jù)每張參考圖片與查詢信息的修正后的相關度,對所述的查詢信息對應的所有無標注圖片進行排序。
所述的步驟(2)中,計算每張參考圖片與查詢信息的相關度的過程如下:
a.根據(jù)所述的查詢信息利用網(wǎng)絡搜索引擎進行網(wǎng)頁搜索,從搜索結果中收集排序前N個網(wǎng)頁作為參考網(wǎng)頁,并記為D1~DN;
b.對于在N個參考網(wǎng)頁D1~DN出現(xiàn)過的任一個詞記為w,根據(jù)以下公式統(tǒng)計w在N個參考網(wǎng)頁D1~DN中的總出現(xiàn)頻率t(w),進而計算w的TF-IDF(詞頻逆文頻)系數(shù)ot(w);
t(w)=y(tǒng)1/m1+y2/m2+...+yN/mN????????????(1)
ot(w)=t(w)ln(1+N/nw)??????????????????(2)
其中:nw為N個參考網(wǎng)頁D1~DN中含有詞w的網(wǎng)頁個數(shù);yi為w在參考網(wǎng)頁Di中的出現(xiàn)次數(shù),mi為參考網(wǎng)頁Di中的總詞數(shù),i=1,2,...,N;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經(jīng)浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110322609.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡管理方法和裝置





