[發(fā)明專利]一種圖像識別方法和裝置在審
| 申請?zhí)枺?/td> | 202010022725.6 | 申請日: | 2020-01-09 |
| 公開(公告)號: | CN113095349A | 公開(公告)日: | 2021-07-09 |
| 發(fā)明(設(shè)計)人: | 劉義明 | 申請(專利權(quán))人: | 北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04 |
| 代理公司: | 中原信達(dá)知識產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 張一軍;李陽 |
| 地址: | 100176 北京市北京經(jīng)濟(jì)技術(shù)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 圖像 識別 方法 裝置 | ||
本發(fā)明公開了圖像識別方法和裝置,涉及計算機(jī)技術(shù)領(lǐng)域。該方法的一具體實施方式包括:接收圖像信息,輸入至全卷積神經(jīng)網(wǎng)絡(luò)中,生成特征圖;基于所述特征圖,對每個類別標(biāo)簽的語義區(qū)域進(jìn)行語義特定表示;利用基于標(biāo)簽共現(xiàn)的知識圖譜對所述語義特征表示進(jìn)行關(guān)聯(lián),進(jìn)而將其用于預(yù)測標(biāo)簽的分布。該實施方式能夠解決現(xiàn)有技術(shù)中學(xué)習(xí)到圖像中語義區(qū)域之間的相互關(guān)聯(lián)較為困難、不準(zhǔn)確的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種圖像識別方法和裝置。
背景技術(shù)
多標(biāo)簽圖像分類是一種基礎(chǔ)但應(yīng)用卻很廣泛的計算機(jī)視覺任務(wù),因為在現(xiàn)實世界中,一張圖像往往包含多個不同的語義對象,如一張風(fēng)景圖中可能有大海、別墅、游艇等語義對象。最近,它受到越來越多的關(guān)注,并在圖像的內(nèi)容檢索和推薦系統(tǒng)中得到大量應(yīng)用。多標(biāo)簽分類依然存在很多問題,如圖像的視角變換,語義目標(biāo)的規(guī)格大小不一,光照因子的影響和部分遮擋等問題。如何挖掘圖像中多標(biāo)簽對應(yīng)的語義特征區(qū)域并且利用這些語義特征區(qū)域之間的關(guān)聯(lián)信息,是多標(biāo)簽圖像分類尚未解決卻具有挑戰(zhàn)性的任務(wù)。
在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:
在現(xiàn)有技術(shù)中,雖然通過搜索語義感知區(qū)域和建模標(biāo)簽關(guān)聯(lián)性已取得了進(jìn)展,但是模型效果仍不理想。由于缺乏監(jiān)督和指導(dǎo),目前只能粗略地定位語義區(qū)域。而且,很難完全學(xué)習(xí)到語義區(qū)域之間的相互關(guān)聯(lián),也沒有明確地模擬標(biāo)簽共現(xiàn)。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種圖像識別方法和裝置,能夠解決現(xiàn)有技術(shù)中學(xué)習(xí)到圖像中語義區(qū)域之間的相互關(guān)聯(lián)較為困難、不準(zhǔn)確的問題。
為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的一個方面,提供了一種圖像識別方法,包括接收圖像信息,輸入至全卷積神經(jīng)網(wǎng)絡(luò)中,生成特征圖;基于所述特征圖,對每個類別標(biāo)簽的語義區(qū)域進(jìn)行語義特定表示;利用基于標(biāo)簽共現(xiàn)的知識圖譜對所述語義特征表示進(jìn)行關(guān)聯(lián),進(jìn)而將其用于預(yù)測標(biāo)簽的分布。
可選地,基于所述特征圖,對每個類別標(biāo)簽的語義區(qū)域進(jìn)行語義特定表示,包括:
基于所述特征圖,對每個類別標(biāo)簽的語義區(qū)域采用預(yù)設(shè)的詞嵌入模型提取語義嵌入向量;
根據(jù)語義注意力機(jī)制,學(xué)習(xí)對應(yīng)于該標(biāo)簽類別的語義嵌入向量,以獲得標(biāo)簽類別的特征向量。
可選地,根據(jù)語義注意力機(jī)制,學(xué)習(xí)對應(yīng)于該標(biāo)簽類別的語義嵌入向量,以獲得標(biāo)簽類別的特征向量,包括:
根據(jù)每個類別標(biāo)簽的語義區(qū)域,獲取語義區(qū)域內(nèi)的每個位置點;
利用低秩雙線性池化的方法,融合每個位置點相應(yīng)的特征圖和語義嵌入向量得到每個位置點的特征向量;
在語義嵌入向量的指導(dǎo)下,計算每個位置點的注意系數(shù);
對所有位置點的注意系數(shù)與特征向量的乘積求和,以獲得標(biāo)簽類別的特征向量。
可選地,計算每個位置點的注意系數(shù)之后,包括:
使用邏輯回歸函數(shù)對所有位置點的注意系數(shù)進(jìn)行歸一化處理;
對所有位置點歸一化后的注意系數(shù)與特征向量的乘積求和,以獲得標(biāo)簽類別的特征向量。
可選地,利用基于標(biāo)簽共現(xiàn)的知識圖譜對所述語義特征表示進(jìn)行關(guān)聯(lián),包括:
基于涵蓋標(biāo)簽類別的數(shù)據(jù)集,利用標(biāo)簽注釋計算所有標(biāo)簽類別對之間的關(guān)聯(lián)概率,以獲得基于標(biāo)簽共現(xiàn)的知識圖譜;
采用門控循環(huán)更新機(jī)制,通過所述知識圖譜學(xué)習(xí)每個標(biāo)簽類別的語義特征表示以進(jìn)行關(guān)聯(lián)。
可選地,采用門控循環(huán)更新機(jī)制,通過所述知識圖譜學(xué)習(xí)每個標(biāo)簽類別的語義特征表示以進(jìn)行關(guān)聯(lián),包括:
針對每個標(biāo)簽類別,獲取在時間步長處的隱藏狀態(tài);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010022725.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





