[發(fā)明專利]將圖片的局部特征量化為視覺詞匯的方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201210543868.7 | 申請(qǐng)日: | 2012-12-14 |
| 公開(公告)號(hào): | CN103020231B | 公開(公告)日: | 2018-06-08 |
| 發(fā)明(設(shè)計(jì))人: | 李浩 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京鴻德海業(yè)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 詞匯 局部特征 視覺詞匯 置信度 方法和裝置 量化 計(jì)算開銷 量化誤差 第一層 父節(jié)點(diǎn) 魯棒性 預(yù)設(shè)置 子節(jié)點(diǎn) 信度 圖片 | ||
本發(fā)明提供了一種將圖片的局部特征量化為視覺詞匯的方法和裝置,其中方法包括:S1、從視覺詞匯樹的第一層確定待選擇詞匯;S2、利用局部特征與當(dāng)前層次的各待選擇詞匯之間的距離以及當(dāng)前層次的各待選擇詞匯的父節(jié)點(diǎn)所在路徑的置信度,分別計(jì)算當(dāng)前層次中各待選擇詞匯所在路徑的置信度;S3、選擇當(dāng)前層次中所在路徑的置信度大于或等于預(yù)設(shè)置信度閾值的待選擇詞匯,判斷當(dāng)前層次是否為最后一層,如果是,將當(dāng)前層次中選擇的詞匯確定為局部特征的視覺詞匯;否則,從當(dāng)前層次中選擇的詞匯進(jìn)入下一層次,并將選擇的詞匯的子節(jié)點(diǎn)確定為下一層次的待選擇詞匯,轉(zhuǎn)至步驟S2。本發(fā)明能夠在提高量化誤差的魯棒性的基礎(chǔ)上,減少量化過程中的計(jì)算開銷。
【技術(shù)領(lǐng)域】
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種將圖片局部特征量化為視覺詞匯的方法和裝置。
【背景技術(shù)】
隨著多媒體相關(guān)技術(shù)的發(fā)展,數(shù)字圖片的規(guī)模迅速擴(kuò)大,其應(yīng)用也越來越廣泛,因此,如何有效、快速地從大規(guī)模圖片數(shù)據(jù)中檢索出所需的圖片已成為一個(gè)研究熱點(diǎn)。傳統(tǒng)的基于文本的圖片檢索方式由于人工標(biāo)注圖片引起的主觀性以及不確定性等弊端,已經(jīng)不能滿足用戶對(duì)查詢的要求,因此基于內(nèi)容的圖片檢索技術(shù)逐漸興起和被廣泛采用。
根據(jù)視覺詞匯對(duì)圖片建立倒排索引是一種通用的基于內(nèi)容的圖片檢索方法,這種方法首先確定圖片的局部特征,將不同的局部特征量化到視覺詞匯上,進(jìn)而將一副圖片表示成視覺詞匯的組合,用類似于文本檢索的方法實(shí)現(xiàn)圖片檢索。其中,如何將局部特征量化到視覺詞匯上是實(shí)現(xiàn)圖片檢索的一個(gè)基礎(chǔ),目前主要存在以下兩種方式,即最近路徑映射(Best Bin Frist)方式和貪心N近鄰路徑映射(Greedy N-best Paths)。這兩種方式均是基于視覺詞匯樹的方法,假定一棵視覺詞匯樹有L層,每一個(gè)父節(jié)點(diǎn)對(duì)應(yīng)K個(gè)子節(jié)點(diǎn),那么一棵L為6,K為10的視覺詞匯樹可以表示100萬個(gè)視覺詞匯,如圖1所示。
在最近路徑映射方法中,一個(gè)局部特征首先與第1層的K個(gè)詞匯比較,并選定最近的詞匯對(duì)應(yīng)的子節(jié)點(diǎn),然后與第2層選定的K個(gè)詞匯比較,并選定最近的子節(jié)點(diǎn);以此類推,最終被映射到第L層與之最近的詞匯,將整個(gè)視覺詞匯樹查詢過程中選定的詞匯構(gòu)成該局部特征的視覺詞匯表。
在貪心N近鄰路徑映射方法中,引入了一個(gè)視覺詞匯擴(kuò)展因子N,一個(gè)局部特征首先與第1層的K個(gè)詞匯比較,并選定最近的N個(gè)詞匯對(duì)應(yīng)的子節(jié)點(diǎn);然后與第2層選定的N×K個(gè)詞匯比較,并選定最近的N個(gè)詞匯對(duì)應(yīng)的子節(jié)點(diǎn);以此類推,最終被映射到第L層與之最近的N個(gè)詞匯,將整個(gè)視覺詞匯樹查詢過程中選定的詞匯構(gòu)成該局部特征的視覺詞匯表。
上述的最近路徑映射方法由于每一層選定一個(gè)最近的詞匯,容易造成量化誤差,圖片局部特征的微小變化也容易被量化到不同的視覺詞匯上,進(jìn)而造成不匹配,魯棒性較差。貪心N緊鄰路徑映射方法雖然增強(qiáng)了對(duì)量化誤差的魯棒性,但每一層的比較都選定N個(gè)詞匯,即每一層都需要進(jìn)入N個(gè)路徑,帶來了較大的計(jì)算開銷。
【發(fā)明內(nèi)容】
有鑒于此,本發(fā)明提供了一種將圖片的局部特征量化為視覺詞匯的方法和裝置,以便于提高量化誤差的魯棒性的基礎(chǔ)上,減小量化過程中的計(jì)算開銷。
具體技術(shù)方案如下:
一種將圖片的局部特征量化為視覺詞匯的方法,在針對(duì)圖片的局部特征查詢視覺詞匯樹的過程中,執(zhí)行以下步驟:
S1、從視覺詞匯樹的第一層確定待選擇詞匯,將第一層作為當(dāng)前層次執(zhí)行步驟S2;
S2、利用所述局部特征與當(dāng)前層次的各待選擇詞匯之間的距離以及當(dāng)前層次的各待選擇詞匯的父節(jié)點(diǎn)所在路徑的置信度,分別計(jì)算當(dāng)前層次中各待選擇詞匯所在路徑的置信度,其中第一層的各待選擇詞匯的父節(jié)點(diǎn)所在路徑的置信度為預(yù)設(shè)的初始值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210543868.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





