[發(fā)明專利]基于區(qū)域特征的圖像描述模型注意力機制評價方法與系統(tǒng)有效
| 申請?zhí)枺?/td> | 202210273007.5 | 申請日: | 2022-03-19 |
| 公開(公告)號: | CN114359741B | 公開(公告)日: | 2022-06-17 |
| 發(fā)明(設(shè)計)人: | 姜文暉;朱旻煒;方玉明;趙小偉;劉揚 | 申請(專利權(quán))人: | 江西財經(jīng)大學(xué) |
| 主分類號: | G06V20/10 | 分類號: | G06V20/10;G06V10/40;G06F16/33;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京中濟緯天專利代理有限公司 11429 | 代理人: | 黃攀 |
| 地址: | 330013 江西省南*** | 國省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 區(qū)域 特征 圖像 描述 模型 注意力 機制 評價 方法 系統(tǒng) | ||
1.一種基于區(qū)域特征的圖像描述模型注意力機制評價方法,其特征在于,所述方法包括如下步驟:
步驟一、獲取自然場景下的圖像,通過目標(biāo)檢測網(wǎng)絡(luò)確定所述圖像中的潛在目標(biāo)區(qū)域,并通過深度神經(jīng)網(wǎng)絡(luò),利用感興趣區(qū)域池化在所述潛在目標(biāo)區(qū)域中提取得到對應(yīng)的區(qū)域空間特征,其中所述區(qū)域空間特征包括多個語義特征;
步驟二、將提取出的所述區(qū)域空間特征輸入至圖像描述模型以生成單詞序列,將所述多個語義特征以及所述單詞序列輸入至注意力模塊,通過所述注意力模塊以得到生成句子,其中所述生成句子中包含各所述語義特征的權(quán)重,所述語義特征的權(quán)重為在時間步驟處對應(yīng)生成的邊界框的注意力權(quán)重;
步驟三、將所述生成句子中每一時間步驟的名詞與真值句子中有位置標(biāo)注的名詞進行匹配,以查找出所述生成句子中對應(yīng)的匹配名詞,并同時記錄所述匹配名詞在所述生成句子中對應(yīng)的時間步驟;
步驟四、將生成各所述匹配名詞時潛在目標(biāo)區(qū)域?qū)?yīng)的所述語義特征的權(quán)重加載到所述圖像中對應(yīng)的每個像素點上,然后計算人工標(biāo)注的邊界框內(nèi)的像素點權(quán)重累加和,以得到局部注意力評價結(jié)果,其中所述局部注意力評價結(jié)果包括被認定為正確匹配名詞的數(shù)量;
步驟五、根據(jù)所述圖像的所述局部注意力評價結(jié)果,綜合計算得到全局注意力評價結(jié)果;
在所述步驟四中,所述局部注意力評價結(jié)果的計算方法為:
通過判斷匹配名詞的局部注意準(zhǔn)確率是否大于預(yù)設(shè)閾值;
當(dāng)判斷到所述匹配名詞的局部注意準(zhǔn)確率大于預(yù)設(shè)閾值,則判定圖像描述模型在生成所述匹配名詞時的注意力是正確的,以確定得到所述局部注意力評價結(jié)果;
局部注意力準(zhǔn)確率的計算方法包括如下步驟:
獲取時間步驟中邊界框的注意力權(quán)重,以及邊界框的位置;
初始化空白圖像,將邊界框的注意力權(quán)重映射到空白圖像內(nèi)邊界框內(nèi)的對應(yīng)位置,并通過累積以更新所述空白圖像以得到映射圖,其中所述映射圖對應(yīng)有多個映射圖像素權(quán)重;
將映射圖上人工標(biāo)注的邊界框中所包含的所有映射圖像素權(quán)重進行累加以得到匹配名詞的局部注意力準(zhǔn)確率;
所述映射圖像素權(quán)重表示為:
其中,表示所述映射圖像素權(quán)重,表示歸一化項,表示未歸一化的像素權(quán)重值,表示示性函數(shù),表示時間步驟中第個區(qū)域的權(quán)重值,表示區(qū)域的序號,表示像素坐標(biāo),表示區(qū)域的總數(shù);
其中,表示第個區(qū)域在圖像中的位置。
2.根據(jù)權(quán)利要求1所述的基于區(qū)域特征的圖像描述模型注意力機制評價方法,其特征在于,在所述步驟一中,所述區(qū)域空間特征表示為:
其中,表示所述區(qū)域空間特征, 表示單個特定區(qū)域的特征向量,表示特征的總數(shù), 表示特征的序號。
3.根據(jù)權(quán)利要求2所述的基于區(qū)域特征的圖像描述模型注意力機制評價方法,其特征在于,在所述步驟二中,在時間步驟處對應(yīng)生成的邊界框的注意力權(quán)重的計算公式表示為:
其中,表示用于將區(qū)域特征映射到統(tǒng)一映射空間的第一參數(shù)矩陣,表示用于將區(qū)域特征映射到統(tǒng)一映射空間的第二參數(shù)矩陣,表示映射空間的維度,表示未歸一化的權(quán)重,表示矩陣轉(zhuǎn)置操作,表示歸一化操作。
4.根據(jù)權(quán)利要求1所述的基于區(qū)域特征的圖像描述模型注意力機制評價方法,其特征在于,匹配名詞的局部注意力準(zhǔn)確率表示為:
其中,表示匹配名詞的局部注意力準(zhǔn)確率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江西財經(jīng)大學(xué),未經(jīng)江西財經(jīng)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210273007.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





