[發(fā)明專利]一種基于半監(jiān)督主題建模的圖像標(biāo)注方法有效
| 申請?zhí)枺?/td> | 201210050398.0 | 申請日: | 2012-02-29 |
| 公開(公告)號: | CN102637199A | 公開(公告)日: | 2012-08-15 |
| 發(fā)明(設(shè)計(jì))人: | 何曉飛;卜佳俊;陳純;倪雅博 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 杭州天正專利事務(wù)所有限公司 33201 | 代理人: | 王兵;黃美娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 監(jiān)督 主題 建模 圖像 標(biāo)注 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)中的半監(jiān)督學(xué)習(xí)技術(shù)領(lǐng)域,特別是涉及一種基于主題建模的圖像標(biāo)注方法。?
背景技術(shù)
近年來,由于數(shù)碼相機(jī)越來越普及,個人的數(shù)碼照片數(shù)目急劇上升,同時在因特網(wǎng)上分享照片也越來越普及,為了挖掘大型照片集合的潛在價(jià)值,用戶需要能夠有效的檢索到所需要的圖像。圖像標(biāo)注,是將文本和圖像的語義內(nèi)容聯(lián)系起來的技術(shù),是一個很好的減少語義差距的方式并可以用于圖像檢索的中間步驟。使得用戶可以通過文本查詢對圖像進(jìn)行檢索,并且在語義方面,相對于基于內(nèi)容的檢索能提供更好的結(jié)果。近年來,圖像標(biāo)注已經(jīng)吸引了越來越多的研究興趣。?
圖像標(biāo)注最基礎(chǔ)的問題在于怎樣對不同模式之間的關(guān)系進(jìn)行建模,這些模式包括視覺特征,文本標(biāo)注以及可能出現(xiàn)的圖像的潛在主題,不同圖像之間的關(guān)系。潛在主題建模在該問題上是一種很有效的解決方式??傮w來講,基于模型的方法具有較好的效率和穩(wěn)定性,而它的主要不足在于可能存在不充分的建模。如果模型不能完全描述問題領(lǐng)域,它的推斷值也會不準(zhǔn)確。例如:如果數(shù)據(jù)不是按照高斯分布進(jìn)行分布,對它進(jìn)行高斯建模就會出現(xiàn)問題。對于圖像標(biāo)注,由于圖像內(nèi)容的多樣化,總是很難對其進(jìn)行充分的可能性建模。?
相反的,傳統(tǒng)的基于相似性的方法,如:譜聚類和流正規(guī)化,并不需要采用具體的數(shù)據(jù)可能性結(jié)構(gòu),只需要對每組數(shù)據(jù)實(shí)例對定義相?似性函數(shù)即可。這種方法在半監(jiān)督的內(nèi)容學(xué)習(xí)上已表現(xiàn)得非常成功。在應(yīng)用于正規(guī)化時,這種方法同樣可以運(yùn)用于可能性模型。?
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于半監(jiān)督主題建模的圖像標(biāo)注的方法。?
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案如下:?
1)從互聯(lián)網(wǎng)上得到圖像,包括已有文本標(biāo)注的圖像,以及未標(biāo)注圖像;?
2)利用一種類似于概率潛在語義分析的模型,對所有圖像的視覺特征和文本標(biāo)注之間的聯(lián)系通過潛在主題進(jìn)行建模;?
3)構(gòu)建所有圖像的最近鄰圖,并根據(jù)由最近鄰圖進(jìn)行建模得到的流形結(jié)構(gòu)對步驟2)的模型進(jìn)行調(diào)整;?
4)通過期望最大化算法學(xué)習(xí)步驟2)的模型,并分別計(jì)算各個潛在主題與圖像匹配的概率;?
5)根據(jù)潛在主題匹配圖像的概率計(jì)算每個文本標(biāo)注匹配未標(biāo)注圖像的概率,并選擇概率最高的文本標(biāo)注對未標(biāo)記圖像進(jìn)行標(biāo)注。?
1.步驟2)中的建模過程是按照如下方式進(jìn)行的:對于每個圖像i,首先用向量Fi表示圖像視覺特征,向量Wi來表示圖像文本標(biāo)注,其中Fi={f1,…,fn},其中fu表示第u個視覺特征單詞在第i個圖片中出現(xiàn)的次數(shù);Wi={w1,…,wn},其中wv表示第v個文本標(biāo)注單詞在第i個圖片中出現(xiàn)的次數(shù)。?
并假設(shè)fi(其中i=1,…,n)服從多項(xiàng)式分布?wi(其中i=1,…,n)服從多項(xiàng)式分布?未標(biāo)注圖像Wi=0;然后用多項(xiàng)分布α建模圖像與?潛在主題Zi的關(guān)系,?
最后得到所有圖像與潛在主題的匹配概率的和為L,L的計(jì)算公式如下:?
其中,I為圖像總數(shù),K為潛在主題總數(shù),P(zk|α)表示在α分布下潛在主題zk與第i個圖像匹配的概率,U為視覺特征單詞總數(shù),P(fu|zk,β)表示在β分布下視覺特征fu與潛在主題zk匹配的概率,V為圖像文本特征單詞總數(shù),?表示在?分布下文本標(biāo)注wv與潛在主題zk匹配的概率;?
2.步驟3)中的最近鄰圖的構(gòu)造方法為,所有圖像構(gòu)成最近鄰圖的點(diǎn),若圖像i與圖像j的文本標(biāo)注和視覺特征的重合度達(dá)到某個閥值,則在最近鄰圖中創(chuàng)建一條連接圖像i與圖像j的邊;?
3.步驟4)中使用期望最大化算法計(jì)算學(xué)習(xí)步驟2)的模型,并分別計(jì)算各個潛在主題與圖像匹配的概率,以及三個多項(xiàng)式分布α,β,??Φ;?
4.步驟5)中利用步驟4)所得到的結(jié)果,從而獲得文本標(biāo)注匹配未標(biāo)注圖像的概率,并選取概率最大的文本標(biāo)注對未標(biāo)注圖像進(jìn)行標(biāo)注,文本標(biāo)注匹配未標(biāo)注圖像的概率P(wv)的計(jì)算公式如下:?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210050398.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 一種面向制造領(lǐng)域的MDA建模工具的實(shí)現(xiàn)方法
- 一種基于統(tǒng)一建模環(huán)境的建模方法
- 一種統(tǒng)一建模平臺
- 用于管理數(shù)據(jù)建模的系統(tǒng)及其方法
- 建模裝置、建模方法以及建模程序
- 一種提供思維導(dǎo)圖式的模型評價(jià)方法和系統(tǒng)
- 一種動態(tài)交互建模工具的實(shí)現(xiàn)方法及裝置
- 電力設(shè)備建模方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 一種基于瀏覽器傳輸?shù)慕7椒把b置
- 數(shù)據(jù)建模方法、裝置、存儲介質(zhì)及處理器





