[發明專利]基于注意力的重要對象檢測方法有效
| 申請號: | 201811594302.0 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN109711463B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 宋凌云;楊寬;劉均 | 申請(專利權)人: | 廣東順德西安交通大學研究院 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/25;G06V10/82;G06N3/0442;G06N3/045;G06N3/0464;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 徐文權 |
| 地址: | 528399 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 重要 對象 檢測 方法 | ||
本發明一種基于注意力的重要對象檢測算法,包括步驟1,建立基于注意力的重要對象檢測模型;步驟2,基于注意力的對象定位對基于注意力的重要對象檢測模型進行訓練;步驟3,利用完成訓練的基于注意力的重要對象檢測模型對圖像的重要對象進行檢測。通過考慮人類視覺系統的特點,人類在識別圖像時并不會察看圖像的所有區域,而是會立即被圖像中感興趣的區域吸引而重點觀察這些區域,從而進一步識別和理解整幅圖像的語義。從而本發明將圖像檢測算法和圖像注釋算法結合起來,利用圖像注釋算法提供的注意力,快速檢測圖像中最有可能最在重點對象的區域,大大減少了圖像中重點對象的檢測時間,提高了對象檢測的準確率。
技術領域
本發明屬于計算機應用領域、人工智能、圖像理解、對象檢測和圖像注釋的自動生成領域,特別涉及一種基于注意力的重要對象檢測方法。
背景技術
隨著數碼設備的普及和移動互聯網絡的發展,圖像數據量出現了爆炸性增長。在現實生活中,網絡搜索引擎、車輛和臉部識別系統、行人追蹤等系統都對圖像的自動理解有很高的需求。如何提高圖像識別算法的精度和效率,對圖像資源進行有效的檢索和管理是當前計算機視覺領域研究的重要課題。對象檢測是圖像自動理解任務中的核心和重點,它不僅要求識別出圖像中出現了哪些對象,而且要求算法給出對象在圖像中的具體位置。傳統的對象檢測算法對圖像所有可能位置進行了掃描和識別,不僅需要花費大量時間和計算資源,而且存在準確率低的缺點。
發明內容
針對現有技術中存在的問題,本發明提供一種基于注意力的重要對象檢測方法,計算量相對較小、準確率高,能夠提高計算機的圖像存儲、檢索和管理能力。
本發明是通過以下技術方案來實現:
基于注意力的重要對象檢測方法,包括如下步驟,
步驟1,建立基于注意力的重要對象檢測模型;
步驟1.1,編碼;
對圖像數據集中的每一幅圖像通過編碼器進行編碼,編碼為一個和對應圖像成設定比例大小的三維的特征圖;
步驟1.2,解碼;
將特征圖解碼為一句對應圖像的文本描述,將文本描述進行分詞得到的所有詞語分別作為標簽,對于每個標簽得到一個與對應圖像相同尺寸的注意力圖,注意力圖的每個位置數值的大小表示對應圖像中每個位置對于對應標簽的重要程度;
步驟2,基于注意力的對象定位對基于注意力的重要對象檢測模型進行訓練;
步驟2.1,根據注意力圖,選取注意力超過設定閾值的區域,用深度卷積網絡識別所選取區域中所包含的對象類別,并生成代表重要對象位置的矩形框區域;
步驟2.2,利用感興趣區域池化抽取矩形框區域的特征,將得到的特征向量并送入全連接層和softmax分類器,計算所選矩形框區域在各個標簽上的概率分布;選取概率值最大的標簽作為矩形框區域對應的標簽;
步驟2.3,重復步驟2.1和2.2處理所有的注意力圖后,利用所得概率分布進行基于Noisy-Or的多示例多標簽分類,計算整個對應圖像在各個標簽上的預測概率值基于獲得的預測概率使用平方差損失函數計算基于注意力的重要對象檢測模型的預測概率值與真實概率值之間的誤差,利用反向傳播算法訓練基于注意力的重要對象檢測模型的參數;
步驟3,利用完成訓練的基于注意力的重要對象檢測模型對圖像的重要對象進行檢測。
優選的,具體包括如下步驟,
步驟1.1,基于卷積神經網絡,對圖像數據集D中的每一幅圖像Id進行圖像編碼,得到圖像Id的特征圖V=[v1,v2,…,vm];其中,1≤d≤D,m是特征圖長和寬的乘積;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東順德西安交通大學研究院,未經廣東順德西安交通大學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811594302.0/2.html,轉載請聲明來源鉆瓜專利網。





