[發(fā)明專利]基于自適應(yīng)注意力機制的圖像描述生成方法在審
| 申請?zhí)枺?/td> | 202111005878.0 | 申請日: | 2021-08-30 |
| 公開(公告)號: | CN113837230A | 公開(公告)日: | 2021-12-24 |
| 發(fā)明(設(shè)計)人: | 紀榮嶸;紀家沂 | 申請(專利權(quán))人: | 廈門大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/242;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 廈門南強之路專利事務(wù)所(普通合伙) 35200 | 代理人: | 馬應(yīng)森;曾權(quán) |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 自適應(yīng) 注意力 機制 圖像 描述 生成 方法 | ||
基于自適應(yīng)注意力機制的圖像描述生成方法,屬于人工智能技術(shù)領(lǐng)域。提出一個網(wǎng)格增強模塊,引入網(wǎng)格位置之間的相對幾何關(guān)系來增強網(wǎng)格特征。首先構(gòu)造基于BERT的語言模型用于提取生成序列的語言信息,接著在transformer的解碼器上方構(gòu)造一個自適應(yīng)注意力模塊,用于在每個單詞預(yù)測前充分度量視覺信息和語言信息的貢獻,來生成更有區(qū)分度的圖像描述。為證明提出的方法具有通用性,將這兩個模型添加到初始的transformer結(jié)構(gòu)上構(gòu)造RSTNet,并在圖像描述的基準數(shù)據(jù)集MS?COCO上進行測試。提出的模型在線下MS?COCO的Karpathy劃分測試集和線上的MS?COCO測試服務(wù)器上均取得最先進的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能領(lǐng)域中的視覺和語言多模態(tài)任務(wù),具體是涉及對給定圖像中視覺內(nèi)容進行建模并用自然語言描述出來的一種基于可區(qū)分視覺詞和非視覺詞的自適應(yīng)注意力機制的圖像描述生成模型。
背景技術(shù)
圖像描述旨在自動地生成自然語言來描述給定圖像的視覺內(nèi)容,這就要求圖像描述模型不僅要能夠確定給定圖像中有哪些視覺對象,還要能夠用捕獲到這些視覺對象之間的關(guān)系并用自然語言表示出來。圖像描述相當(dāng)于模仿人類將大量顯著的視覺信息壓縮為描述性語言的非凡能力,因此是人工智能領(lǐng)域研究的一個重要的挑戰(zhàn)。結(jié)合圖像和語言理解,圖像描述持續(xù)地啟發(fā)很多突破計算機視覺和自然語言處理的界限的研究。
源自于機器翻譯領(lǐng)域的編碼器-解碼器框架在眾多圖像描述模型[1,2]中得到廣泛的應(yīng)用。其中,編碼器通常是一個基于卷積神經(jīng)網(wǎng)絡(luò)[3]的圖像特征提取器,解碼器通常是一個基于循環(huán)神經(jīng)網(wǎng)絡(luò)[4]的序列模型。此外,注意力機制[1,5,6,7]也被引入來幫助模型在序列化生成自然語言序列時關(guān)注相關(guān)聯(lián)地圖像位置。例如,[1]將軟注意力和硬注意力引入到基于長短期記憶單元的解碼器模塊,[6]提出動態(tài)注意力機制在基于循環(huán)神經(jīng)網(wǎng)絡(luò)的解碼器模塊上動態(tài)地決定生成當(dāng)前詞時是否關(guān)注視覺信號,Anderson et al.[7]提出自底向上和自頂向下地注意力機制來關(guān)注區(qū)域級別的視覺內(nèi)容,此外,[8,9,10,11,12]將transformer結(jié)構(gòu)引入到圖像描述模型中并且取得最優(yōu)異的性能。
基于編碼器-解碼器框架,改進圖像描述模型主要通過以下兩種途徑,一是優(yōu)化從給定圖像中提取的視覺特征,二是改進用于處理這些視覺特征的模型結(jié)構(gòu)。對于目前最受歡迎的基于transformer結(jié)構(gòu)的圖像描述模型,有兩個嚴重的問題尚未解決,一是將網(wǎng)格特征送入transformer結(jié)構(gòu)前需要做展平處理,這兩不可避免地造成空間信息的損失,二是在transformer結(jié)構(gòu)中,單詞序列堆疊在一起,所有單詞的預(yù)測都按照相同的方式進行,沒有有效的措施來區(qū)分視覺詞和非視覺詞。
涉及的參考文獻如下:
[1].Xu,K.,Ba,J.,Kiros,R.,Cho,K.,Courville,A.C.,Salakhudinov,R.,Zemel,R.,Bengio,Y.:Show,attend and tell:Neural image caption generation with visualattention.In:ICML.pp.2048{2057(2015).
[2]A.Karpathy and L.Fei-Fei.Deep visual-semantic alignments forgenerating image descriptions.In CVPR,2015.1,4,5.
[3]Simonyan,K.,Zisserman,A.:Very deep convolutional networks forlarge-scale image recognition.arXiv preprint arXiv:1409.1556(2014).
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門大學(xué),未經(jīng)廈門大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111005878.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 使用后向自適應(yīng)規(guī)則進行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺
- 采用自適應(yīng)機匣和自適應(yīng)風(fēng)扇的智能發(fā)動機
- 一種自適應(yīng)樹木自動涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動機燃氣自適應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)





