[發(fā)明專利]基于發(fā)散-聚合注意力的圖像描述方法有效
| 申請?zhí)枺?/td> | 202010092633.5 | 申請日: | 2020-02-14 |
| 公開(公告)號: | CN111324758B | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 杜卓然;冀俊忠;張曉丹 | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號: | G06F16/50 | 分類號: | G06F16/50;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 北京思海天達(dá)知識產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 發(fā)散 聚合 注意力 圖像 描述 方法 | ||
本發(fā)明公開了基于發(fā)散?聚合注意力的圖像描述方法,獲取MS COCO圖像描述數(shù)據(jù)集并預(yù)處理:構(gòu)建多角度觀察模型,實(shí)現(xiàn)從MS COCO圖像數(shù)據(jù)I的視覺以及細(xì)粒度語義信息的提取,得到圖像特征V以及細(xì)粒度語義信息S*:構(gòu)建聚合注意力模型;語言生成模型。本發(fā)明將這兩種思維方式引入到了模型設(shè)計(jì)中,提出了發(fā)散?聚合注意力模型,實(shí)現(xiàn)了視覺信息和語義信息的交互。圖1是發(fā)散?聚合注意力模型的概念圖,可以看到通過發(fā)散觀察和聚合注意力模塊,模型產(chǎn)生了更生動準(zhǔn)確的描述。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺和自然語言處理技術(shù)領(lǐng)域,針對圖像描述任務(wù),本發(fā)明設(shè)計(jì)了發(fā)散-聚合注意力模型。
背景技術(shù)
圖像描述任務(wù)旨在將圖像用自然語言進(jìn)行描述,該任務(wù)對智能機(jī)器人、視覺導(dǎo)航、視覺障礙輔助設(shè)備、自動醫(yī)學(xué)報(bào)告生成等有前景的應(yīng)用有著重要的推動作用。然而,將圖像理解并用自然語言描述處理是人工智能領(lǐng)域要解決的難題,因?yàn)橐曈X模態(tài)和語義模態(tài)是兩個(gè)完全不同的模態(tài),如何將視覺和語義有效結(jié)合,并利用兩種模態(tài)直接的相互作用關(guān)系是亟需解決的重要的課題。其中,基于注意力機(jī)制的編碼器解碼器框架被絕大多數(shù)學(xué)者采用,該框架取得了最好的性能,其中注意力機(jī)制模仿人腦的機(jī)制,即有選擇性地關(guān)注最重要的信息,同時(shí)忽略其他次要的信息。目前的工作基于該框架對注意力模型進(jìn)行改進(jìn)。主要分為兩個(gè)方向:視覺注意力模型和語義注意力模型。視覺注意力模型關(guān)注的對象是圖像中的網(wǎng)格區(qū)域特征或是圖像中物體的視覺特征。語義注意力模型關(guān)注的對象是從圖像中預(yù)測出來的語義標(biāo)簽。兩種注意力模型分別視覺角度和語義角度提取圖像的特征,取得了較好的效果。然而,現(xiàn)有模型沒有考慮將不同角度視覺和語義信息有效地聚合在一起。
發(fā)明內(nèi)容
為有效利用視覺和語義信息在圖像描述過程中的相互作用關(guān)系,本發(fā)明從人類認(rèn)知世界的兩種思維中獲得靈感,即發(fā)散思維和聚合思維。且已有研究證實(shí),這兩種思維在語言學(xué)習(xí)中起到了重要的作用。本發(fā)明將這兩種思維方式引入到了模型設(shè)計(jì)中,提出了發(fā)散-聚合注意力模型,實(shí)現(xiàn)了視覺信息和語義信息的交互。圖1是發(fā)散-聚合注意力模型的概念圖,可以看到通過發(fā)散觀察和聚合注意力模塊,模型產(chǎn)生了更生動準(zhǔn)確的描述。
本發(fā)明采用的技術(shù)方案為基于發(fā)散-聚合注意力的圖像描述方法,該方法的實(shí)現(xiàn)步驟如下,
步驟(1)獲取MS COCO圖像描述數(shù)據(jù)集并預(yù)處理:
步驟(1.1)獲取MS COCO圖像描述數(shù)據(jù)集,包含圖像數(shù)據(jù)I及其對應(yīng)的標(biāo)準(zhǔn)描述數(shù)據(jù)
步驟(1.2)對MS COCO中的描述數(shù)據(jù)進(jìn)行預(yù)處理。
步驟(2)構(gòu)建多角度觀察模型,實(shí)現(xiàn)從MS COCO圖像數(shù)據(jù)I的視覺以及細(xì)粒度語義信息的提取,得到圖像特征V以及細(xì)粒度語義信息S*:
步驟(2.1)采用目標(biāo)檢測模型挖掘圖像中的物體特征集合V。
步驟(2.2)采用場景圖解析器挖掘圖像中的細(xì)粒度語義特征集合S*={Sobject,Sattribute,Srelation}。
步驟(2.3)將物體特征集合V和細(xì)粒度語義特征集合S*分別輸入到視覺LSTM和語義LSTM,得到每個(gè)時(shí)刻t關(guān)于視覺的全局特征和語義的全局特征
步驟(3)構(gòu)建聚合注意力模型,將步驟(2)的物體特征集合V,細(xì)粒度語義特征集合S*,以及每個(gè)時(shí)刻t關(guān)于視覺的全局特征和語義的全局特征作為模型的輸入。該模型由同質(zhì)注意力和異質(zhì)注意力這兩部分組成。
步驟(3.1)同質(zhì)注意力由一個(gè)視覺注意力和三個(gè)語義注意力組成,視覺注意力在t時(shí)刻從物體特征集合V中篩選出最相關(guān)的物體特征三個(gè)語義注意力模型從細(xì)粒度語義特征集合S*中篩選出最相關(guān)的三個(gè)語義特征
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010092633.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





