[發明專利]一種基于自監督學習的全景圖像顯著性預測方法在審
| 申請號: | 202211344155.8 | 申請日: | 2022-10-31 |
| 公開(公告)號: | CN115631121A | 公開(公告)日: | 2023-01-20 |
| 發明(設計)人: | 葉茂;鄒子壯 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06T5/50 | 分類號: | G06T5/50;G06V10/44;G06V10/74;G06V10/764;G06V10/82;G06N3/08;G06N3/0464 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 學習 全景 圖像 顯著 預測 方法 | ||
1.一種基于自監督學習的全景圖像顯著性預測方法,其特征在于,包括以下步驟:
S1、利用無標簽ERP圖像集訓練編碼器,包括以下子步驟:
S11、格式轉換:將ERP圖像投影到球面,得到CMP圖像組Ci和標簽Pi,i=1,…,6;
S12、對Ci進行隨機打亂得到ci,并根據ci的原始位置對Pi進行更新得到代理任務的標簽
S13、進行編碼器訓練,構建全局特征提取網絡與局部特征提取網絡并將全局特征和局部特征作為輸入,通過特征融合學習這兩者的特征,對全局特征提取網絡的模型參數進行更新;
S2、進行解碼器訓練:解碼器gθ:被構造用于預測最終的顯著性結果
S3、將待識別的全景圖像輸入訓練好的編碼器中進行特征提取,然后將提取的特征輸入解碼器中,得到最終的顯著性預測。
2.根據權利要求1所述的一種基于自監督學習的全景圖像顯著性預測方法,其特征在于,所述步驟S13中,全局特征提取網絡與局部特征提取網絡分別為:
其中FE是全局特征,是局部特征,E表示ERP圖像;-代表特征提取網路的推理過程,全局特征提取網絡與局部特征提取網絡均采用VGG16去掉尾部5層后的模型;
然后將得到的全局特征FE和局部特征一起聯合輸入到特征融合網絡;
所述特征融合網絡包括特征變換和點乘操作兩個部分:首先將FE和經過兩個權重不共享的全連接層得到rE和然后通過下面的方程進行變換:
QE=rEWQ
其中WQ、WV和WK是三類特征不共享的權重,QE、和分別代表著Query、Value和Key;
然后利用點乘操作對所得到的特征進行融合:
其中CAi為特征融合后的結果,ReLU為激活函數,表示函數嵌套運算符;
得到的CAi被用于最終的位置預測:
通過下方的損失函數進行訓練:
由損失函數計算預測值和標簽值之間的差異,然后根據該差異進行梯度回傳并根據梯度更新模型中的參數,遍歷無標簽ERP圖像集100次后停止,得到全局特征提取網絡
3.根據權利要求1所述的一種基于自監督學習的全景圖像顯著性預測方法,其特征在于,所述步驟S2具體實現方法為:
顯著性圖像獲取:以頭部和眼部運動的記錄文件作為解碼器的訓練集;首先建立一個與訓練集中圖像大小相同的零矩陣,頭部和眼部的記錄文件中會記錄下不同的視點位置,如果某個點在文件中被記錄了,則在矩陣中標記為1;根據記錄位置,采用以下的方法對該零矩陣進行更新:
Sij就是視點圖;而視點圖因其稀疏矩陣的特性,訓練難度較大,因此進行下方的處理:
其中G是膨脹角為5°的高斯核,SE表示由Sij構成的矩陣;
進行如下更新:
其中,T代表著從ERP轉換成為CMP的過程,Tback代表從CMP轉換為ERP的過程;
損失函數:根據顯著性圖像大多數區域都為0的特性,選擇以下損失函數來對解碼器模型進行訓練:
是預測分布,是真實分布,ε是為了防止預測值過于接近0而導致損失趨向無窮所設定的一個常量,WE、HE分別為圖像的寬度和高度;
由損失函數計算預測值和標簽值之間的差異,然后根據該差異進行梯度回傳并根據梯度更新模型中的參數,遍歷訓練集一百次后停止,得到解碼器gθ。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211344155.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種觸覺感知診斷裝置
- 下一篇:一種臨床叩擊檢查裝置





