[發(fā)明專利]一種圖像標(biāo)注方法在審
| 申請?zhí)枺?/td> | 201710969648.3 | 申請日: | 2017-10-18 |
| 公開(公告)號: | CN107665356A | 公開(公告)日: | 2018-02-06 |
| 發(fā)明(設(shè)計)人: | 呂學(xué)強(qiáng);董志安;李寶安 | 申請(專利權(quán))人: | 北京信息科技大學(xué);呂學(xué)強(qiáng) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 圖像 標(biāo)注 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體涉及一種圖像標(biāo)注方法。
背景技術(shù)
近年來,研究人員一直致力于研究計算機(jī)對圖像的語義理解。自動圖像標(biāo)注是讓計算機(jī)自動對圖像中的實體標(biāo)注關(guān)鍵詞,它是圖像檢索領(lǐng)域中的一種關(guān)鍵技術(shù)。隨著多媒體信息技術(shù)和互聯(lián)網(wǎng)信息技術(shù)的迅速發(fā)展,每天數(shù)以億計的新圖像呈現(xiàn)在互聯(lián)網(wǎng)上。和文本相比,圖像可以更加直觀、更加精確地描述信息,因此在如今信息爆炸的時代,圖像能使用戶更方便、更快捷、更精確地獲取所需信息。圖像信息逐漸成為當(dāng)下時代信息傳播的最重要的途徑之一。因此,如何在如此海量的圖像數(shù)據(jù)中幫助用戶迅速準(zhǔn)確地找出所需圖像成為近年來多媒體信息技術(shù)領(lǐng)域內(nèi)的研究熱點。自動圖像標(biāo)注技術(shù)作為圖像檢索領(lǐng)域內(nèi)的關(guān)鍵技術(shù)之一,成為眾多研究人員研究的重要課題。
自動圖像標(biāo)注作為圖像檢索領(lǐng)域里的重要技術(shù),有較高的研究意義和商用價值。自動圖像標(biāo)注技術(shù)自2000年被提出以來,眾多研究人員投身于相關(guān)研究中,很多自動圖像標(biāo)注方法被提出,雖然這些方法在一定程度上提高了圖像檢索的精確性和效率。但是,由于圖像“語義鴻溝”的存在,目前的以自動圖像標(biāo)注技術(shù)為基礎(chǔ)的檢索系統(tǒng)準(zhǔn)確率依然不夠理想,自動圖像標(biāo)注技術(shù)依然處在發(fā)展階段,標(biāo)注性能不夠好、標(biāo)注精度不夠高是現(xiàn)有技術(shù)的缺陷。現(xiàn)如今圖像信息已經(jīng)成為互聯(lián)網(wǎng)傳播信息的重要途徑。目前,全球規(guī)模最大的圖像分享平臺Flicker用戶接近10億,包含上百億張圖像。能夠在如此龐大的圖像庫里快速精準(zhǔn)地檢索到用戶需求的圖像,是如今大數(shù)據(jù)時代的迫切需求,而當(dāng)前大多數(shù)自動圖像標(biāo)注技術(shù)在如此龐大的圖像庫中普遍效果較差,所以研究大數(shù)據(jù)下的新的自動圖像標(biāo)注技術(shù)意義重大。
發(fā)明內(nèi)容
針對上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提供一種標(biāo)注性能優(yōu)異、標(biāo)注精度高的的圖像標(biāo)注方法。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供的技術(shù)方案如下:
一種圖像標(biāo)注方法,包括以下步驟:
步驟1)定義圖像標(biāo)注模型的目標(biāo)函數(shù);
步驟2)將圖像輸入CNN模型,得到原始圖像特征;
步驟3)對原始圖像特征進(jìn)行加權(quán);
步驟4)向LSTM模型中輸入信息;
步驟5)對預(yù)測結(jié)果產(chǎn)生的誤差進(jìn)行反向傳播。
進(jìn)一步地,步驟1)中的目標(biāo)函數(shù)為其中y={y1,…,yN},θ代表該模型中所有需要訓(xùn)練的參數(shù),I代表圖像;y代表最終預(yù)測的標(biāo)注組合,即最終的標(biāo)注詞,K表示詞匯表中詞匯的數(shù)量,N代表標(biāo)注詞的個數(shù)。
進(jìn)一步地,步驟2)中的原始圖像特征為CNN全連接層之前的某層卷積層的特征圖,該原始圖像特征由L個D維特征組成,每個D維特征映射到原圖像的不同位置區(qū)域。
進(jìn)一步地,步驟3)包括利用聚焦權(quán)重向量αt對原始圖像特征進(jìn)行加權(quán),聚焦權(quán)重向量αt是一個L維向量,每一維的值大小代表著圖像不同位置特征的權(quán)重大小,
聚焦權(quán)重向量αt=softmax(Weet),其中,
et代表t時刻聚焦機(jī)制的中間狀態(tài)信息,a代表原始圖像特征,ht-1代表t-1時刻LSTM模型的輸出。
進(jìn)一步地,步驟4)中,LSTM的輸入信息xt=[Wyyt-1,Wzzt],其中Wy為詞編碼參數(shù),Wz為圖像特征編碼參數(shù),其中yt-1是圖像的正確標(biāo)注詞,zt是當(dāng)前時刻使用聚焦權(quán)重參數(shù)加權(quán)后的圖像特征。
進(jìn)一步地,圖像的正確標(biāo)注詞組Y=(y0,y1,y2…yt…yn)從t=1時刻開始按順序輸入到LSTM模型當(dāng)中,其中y0是一個特殊的單詞“start”,標(biāo)志著標(biāo)注過程的開始,yn是另一個特殊單詞“end”,標(biāo)志著標(biāo)注過程的結(jié)束;yt-1經(jīng)詞向量編碼參數(shù)Wy編碼后輸入到LSTM模型中;zt經(jīng)圖像特征編碼參數(shù)Wz編碼后輸入到LSTM模型中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京信息科技大學(xué);呂學(xué)強(qiáng),未經(jīng)北京信息科技大學(xué);呂學(xué)強(qiáng)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710969648.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲介質(zhì)、處理器以及運載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺的方法、裝置、電子設(shè)備和存儲介質(zhì)





