[發(fā)明專利]結(jié)合局部先驗特征和深度卷積特征的甲骨刻辭文字檢測方法有效
| 申請?zhí)枺?/td> | 202010094934.1 | 申請日: | 2020-02-13 |
| 公開(公告)號: | CN111310760B | 公開(公告)日: | 2023-05-26 |
| 發(fā)明(設計)人: | 宋傳鳴;何熠輝;洪飏;王相海 | 申請(專利權(quán))人: | 遼寧師范大學 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V10/764;G06V30/19;G06V10/82;G06N3/0464;G06N3/048;G06N3/084 |
| 代理公司: | 大連非凡專利事務所 21220 | 代理人: | 閃紅霞 |
| 地址: | 116000 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結(jié)合 局部 先驗 特征 深度 卷積 甲骨 文字 檢測 方法 | ||
1.一種結(jié)合局部先驗特征和深度卷積特征的甲骨刻辭文字檢測方法,其特征在于按照如下步驟進行:
步驟1.建立并初始化用于甲骨刻辭文字檢測的深度卷積神經(jīng)網(wǎng)絡Nobc,所述Nobc包含1個用于特征提取的子網(wǎng)絡Nfeature、1個用于甲骨文字區(qū)域建議的子網(wǎng)絡Nrpn、1個用于甲骨文字區(qū)域特征降維的子網(wǎng)絡Ndim和1個用于區(qū)域分類的子網(wǎng)絡Ncls;
步驟1.1建立并初始化子網(wǎng)絡Nfeature,含有6組卷積層,分別為Conv0、Conv1、Conv2、Conv3、Conv4和Conv5;
所述Conv0包含1層卷積操作和5個由公式(1)定義的預設卷積核,每個卷積核以1個像素為步長進行卷積運算;
所述Conv1包含2層卷積操作和1層池化操作,其中,每個卷積層含有64個大小為3×3的、以Xavier方法進行初始化的卷積核,每個卷積核以1個像素為步長進行卷積運算,池化層以大小為2×2的池化核、以SAME填充模式進行最大池化運算;
所述Conv2包含2層卷積操作和1層池化操作,其中,每個卷積層含有128個大小為3×3的、以Xavier方法進行初始化的卷積核,每個卷積核以1個像素為步長進行卷積運算,池化層以大小為2×2的池化核、以SAME填充模式進行最大池化運算;
所述Conv3包含3層卷積操作和1層池化操作,其中,每個卷積層含有256個大小為3×3的、以Xavier方法進行初始化的卷積核,每個卷積核以1個像素為步長進行卷積運算,池化層以大小為2×2的池化核、以SAME填充模式進行最大池化運算;
所述Conv4包含3層卷積操作和1層池化操作,其中,每個卷積層含有512個大小為3×3的、以Xavier方法進行初始化的卷積核,每個卷積核以1個像素為步長進行卷積運算,池化層以大小為2×2的池化核、以SAME填充模式進行最大池化運算;
所述Conv5包含3層卷積操作,其中,每個卷積層含有512個大小為3×3的、以Xavier方法進行初始化的卷積核,每個卷積核以1個像素為步長進行卷積運算;
步驟1.2建立并初始化子網(wǎng)絡Nrpn,含有3組卷積層,分別為RpnConv、RpnPred和RpnScore;
所述RpnConv包含1層卷積操作,含有512個大小為3×3的卷積核,每個卷積核以1個像素為步長、以SAME填充模式進行卷積運算,并采用均值為0、標準差為0.01的高斯分布進行初始化;
所述RpnPred包含1層卷積操作,含有36個大小為1×1的卷積核,每個卷積核以1個像素為步長、以VALID填充模式進行卷積運算,并采用均值為0、標準差為0.01的高斯分布進行初始化;
所述RpnScore包含1層卷積操作,含有18個大小為1×1的卷積核,每個卷積核以1個像素為步長、以VALID填充模式進行卷積運算,并采用均值為0、標準差為0.01的高斯分布進行初始化;
步驟1.3建立并初始化子網(wǎng)絡Ndim,含有1組剪裁池化層和2組卷積層,分別為CropPool、Conv6和Conv7;
所述CropPool包含1層縮放操作和1層池化操作,其中,縮放操作用于將候選區(qū)域的尺寸變換為14×14像素,池化層以大小為2×2的池化核、以SAME填充模式進行最大池化運算;
所述Conv6包含3層卷積操作,其中,每個卷積層含有512個大小為3×3的、以Xavier方法進行初始化的卷積核,每個卷積核以1個像素為步長、以VALID填充模式進行卷積運算;
所述Conv7包含1層卷積操作,含有4096個大小為1×1的、以Xavier方法進行初始化的卷積核,每個卷積核以1個像素為步長、以VALID填充模式進行卷積運算;
步驟1.4建立并初始化子網(wǎng)絡Ncls,含有2組全連接層,分別為Fc1和Fc2;
所述Fc1有4096個輸入單元和8個輸出單元,并采用均值為0、標準差為0.001的高斯分布進行初始化;
所述Fc2有4096個輸入單元和2個輸出單元,并采用均值為0、標準差為0.01的高斯分布進行初始化;
步驟2.輸入甲骨刻辭圖像訓練集和人工已標注的每幅訓練圖像的甲骨文字區(qū)域坐標集、甲骨文字區(qū)域標簽集,對深度卷積神經(jīng)網(wǎng)絡Nobc進行訓練;
步驟2.1對于訓練集中的每幅圖像T及其人工已標注的甲骨文字區(qū)域坐標集Cref和甲骨文字區(qū)域標簽集Clabel,令迭代次數(shù)iter←1,執(zhí)行步驟2.2~2.11;
步驟2.2將每幅圖像T的顏色空間從RGB轉(zhuǎn)換到HSV,并將其V分量記為TV;
步驟2.3采用最大類間方差法計算TV的最優(yōu)全局閾值,并將TV進行二值化,而保持每幅圖像T的飽和度分量TS和色調(diào)分量TH不變;
步驟2.4將二值化后的TV分量與飽和度分量TS、色調(diào)分量TH從HSV顏色空間轉(zhuǎn)換到RGB空間,令所得圖像為T′;
步驟2.5采用子網(wǎng)絡Nfeature提取圖像T′的特征圖;
步驟2.5.1利用卷積層Conv0的5個卷積核對圖像T′進行卷積運算,令各個卷積核的計算結(jié)果分別為C1、C2、C3、C4、C5,再根據(jù)公式(2)將5個卷積結(jié)果進行融合,提取出圖像T′的局部先驗紋理特征圖TF1;
C=C1×w1+C2×w2+C3×w3+C4×w4+C5×w5??????????????????(2)
所述w1、w2、w3、w4和w5表示預設權(quán)重;
步驟2.5.2利用卷積層Conv1對局部先驗紋理特征圖TF1進行卷積運算,得到卷積特征圖TF2;
步驟2.5.3利用卷積層Conv2對卷積特征圖TF2進行卷積運算,得到更大尺度下的卷積特征圖TF3;
步驟2.5.4利用卷積層Conv3對卷積特征圖TF3進行卷積運算,得到更大尺度下的卷積特征圖TF4;
步驟2.5.5利用卷積層Conv4對卷積特征圖TF4進行卷積運算,得到更大尺度下的卷積特征圖TF5;
步驟2.5.6利用卷積層Conv5對卷積特征圖TF5進行卷積運算,得到更大尺度下的卷積特征圖TF6;
步驟2.6采用子網(wǎng)絡Nrpn選取圖像T′的候選甲骨文字區(qū)域;
步驟2.6.1利用卷積層RpnConv對卷積特征圖TF6進行卷積運算,得到初始區(qū)域建議結(jié)果TRinit;
步驟2.6.2利用卷積層RpnPred對初始區(qū)域建議結(jié)果TRinit進行處理,得到區(qū)域建議的預測集合TRpred;
步驟2.6.3利用卷積層RpnScore對區(qū)域建議的預測集合TRinit進行處理,然后經(jīng)過softmax激活函數(shù),計算得到區(qū)域建議的可能性評估結(jié)果集合TRscore;
步驟2.6.4根據(jù)區(qū)域建議的預測集合TRpred和區(qū)域建議的可能性評估結(jié)果集合TRscore,利用非極大值抑制方法獲得圖像T′的候選區(qū)域集合TRROIs;
步驟2.7對于圖像T′的候選區(qū)域集合TRROIs的每個候選甲骨文字區(qū)域TRROI,采用子網(wǎng)絡Ndim提取該區(qū)域的卷積特征圖;
步驟2.7.1將每個候選甲骨文字區(qū)域TRROI作為掩碼,提取出卷積特征圖TF6中處于該區(qū)域的卷積特征子圖TF′6;
步驟2.7.2采用剪裁池化層CropPool將卷積特征子圖TF′6縮放變換為14×14像素,得到尺寸歸一化后的卷積特征子圖TF″6;
步驟2.7.3利用卷積層Conv6對卷積特征子圖TF″6進行卷積運算,得到更大尺度下的卷積特征圖TF′7;
步驟2.7.4利用卷積層Conv7對卷積特征圖TF′7進行卷積運算,得到更大尺度下的卷積特征圖TF′8;
步驟2.7.5按照光柵掃描的順序,將卷積特征圖TF′8拉伸成長度為4096的一維向量TF′1d;
步驟2.8對于圖像T′的候選區(qū)域集合TRROIs的每個候選甲骨文字區(qū)域TRROI,根據(jù)TRROI所對應的一維向量TF′1d,采用子網(wǎng)絡Ncls對其進行分類,計算得出其候選區(qū)域的頂點坐標集合、分類置信度向量和分類預測結(jié)果;
步驟2.8.1利用全連接層Fc1對一維向量TF′1d進行處理,得到候選甲骨文字區(qū)域TRROI的頂點坐標集合TB′pred;
步驟2.8.2利用全連接層Fc2對一維向量TF′1d進行處理,得到候選甲骨文字區(qū)域TRROI的分類置信度向量TScls,再經(jīng)過softmax激活函數(shù),得出最終的分類預測結(jié)果TS′pred;
步驟2.9將圖像T′的每個候選文字區(qū)域的頂點坐標集合TB′pred取并集,得到圖像T′的所有候選文字區(qū)域的集合TBpred;
步驟2.10分別計算分類置信度向量TScls與人工標注的甲骨文字區(qū)域標簽集Clabel的交叉熵損失Loss1、所有候選文字區(qū)域的集合TBpred與人工標注的甲骨文字區(qū)域集合Cref的重疊度損失Loss2、區(qū)域建議的可能性評估結(jié)果集合TRscore與人工標注的甲骨文字區(qū)域標簽集Clabel的交叉熵損失Loss3、區(qū)域建議的預測集合TRpred與人工標注的甲骨文字區(qū)域集合Cref的重疊度損失Loss4,根據(jù)公式(3)~公式(5)計算甲骨文字區(qū)域的預測損失TotalLoss;
TotalLoss=Loss+RLoss????????????????????(5)
所述||·||1表示L1范數(shù);
步驟2.11若訓練集中的所有圖像均已處理完畢,則轉(zhuǎn)入步驟2.12,否則從訓練集中取出一幅未處理的圖像,令其為T,返回步驟2.2;
步驟2.12令iter←iter+1,若迭代次數(shù)iter>Total_iter,則得到已訓練好的深度卷積神經(jīng)網(wǎng)絡Nobc,轉(zhuǎn)入步驟3,否則利用基于隨機梯度下降法的反向誤差傳播算法和預測損失TotalLoss更新Nobc的參數(shù),轉(zhuǎn)入步驟2.2重新處理訓練集中的所有圖像,所述Total_iter表示預設的迭代次數(shù);
步驟3.輸入待處理的甲骨刻辭圖像I,其顏色空間為RGB,采用已完成訓練的深度卷積神經(jīng)網(wǎng)絡Nobc檢測I中的甲骨文字區(qū)域;
步驟3.1將I的顏色空間從RGB轉(zhuǎn)換到HSV,并將其V分量記為IV;
步驟3.2采用最大類間方差法計算IV的最優(yōu)全局閾值,并將IV進行二值化,保持I的飽和度分量IS和色調(diào)分量IH不變;
步驟3.3利用多條件連通區(qū)域填充算法對IV進行處理,得到圖像I的粗去噪結(jié)果;
步驟3.3.1采用尺寸為10×10像素的矩形結(jié)構(gòu)元素,對IV施加形態(tài)學開運算,并標記出全部的8-連通區(qū)域,令8-連通區(qū)域的總數(shù)為Nc;
步驟3.3.2采用OpenCV的contourArea方法,計算第i(1≤i≤Nc)個8-連通區(qū)域的面積與圖像總面積的比值Si;
步驟3.3.3采用OpenCV的convexHull方法,計算第i個8-連通區(qū)域的凸包,進而利用contourArea方法計算第i個8-連通區(qū)域的輪廓面積與其凸包面積的比值Ki;
步驟3.3.4采用OpenCV的approxPolyDP多邊擬合方法,計算第i個8-連通區(qū)域的多邊形逼近角點數(shù)Ni;
步驟3.3.5對于第i個8-連通區(qū)域,若其滿足Ki0.4,或Si0.001,或0.002Si0.014,或Ni>12且Si0.05,則將該8-連通區(qū)域用黑色像素進行填充;
步驟3.3.6將處理后的IV分量與飽和度分量IS、色調(diào)分量IH從HSV顏色空間轉(zhuǎn)換到RGB空間,令所得圖像為I′;
步驟3.4采用子網(wǎng)絡Nfeature提取圖像I′的特征圖;
步驟3.4.1利用卷積層Conv0的5個卷積核對圖像I′進行卷積運算,令各個卷積核的計算結(jié)果分別為C1、C2、C3、C4、C5,再根據(jù)公式(2)的定義將5個卷積結(jié)果進行融合,從而提取出I′的局部先驗紋理特征圖F1;
步驟3.4.2利用卷積層Conv1對局部先驗紋理特征圖F1進行卷積運算,得到卷積特征圖F2;
步驟3.4.3利用卷積層Conv2對卷積特征圖F2進行卷積運算,得到更大尺度下的卷積特征圖F3;
步驟3.4.4利用卷積層Conv3對卷積特征圖F3進行卷積運算,得到更大尺度下的卷積特征圖F4;
步驟3.4.5利用卷積層Conv4對卷積特征圖F4進行卷積運算,得到更大尺度下的卷積特征圖F5;
步驟3.4.6利用卷積層Conv5對卷積特征圖F5進行卷積運算,得到更大尺度下的卷積特征圖F6;
步驟3.5采用子網(wǎng)絡Nrpn選取圖像I′的候選甲骨文字區(qū)域;
步驟3.5.1利用卷積層RpnConv對卷積特征圖F6進行卷積運算,得到初始區(qū)域建議結(jié)果Rinit;
步驟3.5.2利用卷積層RpnPred對初始區(qū)域建議結(jié)果Rinit進行處理,得到區(qū)域建議的預測集合Rpred;
步驟3.5.3利用卷積層RpnScore對初始區(qū)域建議結(jié)果Rinit進行處理,然后經(jīng)過softmax激活函數(shù),計算得到區(qū)域建議的可能性評估結(jié)果集合Rscore;
步驟3.5.4根據(jù)區(qū)域建議的預測集合Rpred和區(qū)域建議的可能性評估結(jié)果集合Rscore,利用非極大值抑制方法獲得甲骨文字的候選區(qū)域集合RROIs,并相應地更新可能性評估結(jié)果集合Rscore;
步驟3.6對于甲骨文字的候選區(qū)域集合RROIs的每個候選甲骨文字區(qū)域RROI,采用子網(wǎng)絡Ndim提取該區(qū)域的卷積特征圖;
步驟3.6.1將每個候選甲骨文字區(qū)域RROI作為掩碼,提取出卷積特征圖F6中處于該區(qū)域的卷積特征子圖F6′;
步驟3.6.2采用剪裁池化層CropPool將卷積特征子圖F′6縮放變換為14×14像素,得到尺寸歸一化后的卷積特征子圖F″6;
步驟3.6.3利用卷積層Conv6對卷積特征子圖F″6進行卷積運算,得到更大尺度下的卷積特征圖F′7;
步驟3.6.4利用卷積層Conv7對卷積特征圖F′7進行卷積運算,得到更大尺度下的卷積特征圖F′8;
步驟3.6.5按照光柵掃描的順序,將卷積特征圖F′8拉伸成長度為4096的一維向量F′1d;
步驟3.7對于甲骨文字的候選區(qū)域集合RROIs的每個候選甲骨文字區(qū)域RROI,根據(jù)RROI所對應的一維向量F′1d,采用子網(wǎng)絡Ncls對其進行分類,計算得到其候選框的頂點坐標集合、分類置信度向量和分類預測結(jié)果;
步驟3.7.1利用全連接層Fc1對一維向量F′1d進行處理,得到候選區(qū)域的頂點坐標集合B′pred;
步驟3.7.2利用全連接層Fc2對一維向量F′1d進行處理,得到候選甲骨文字區(qū)域RROI的分類置信度向量Scls,再經(jīng)過softmax激活函數(shù),得出最終的分類預測結(jié)果S′pred;
步驟3.7.3若分類預測結(jié)果S′pred為“甲骨文字區(qū)域”,則保留RROI,否則從RROIs中將RROI刪除,從Rscore中刪除RROI所對應的評分,并刪除頂點坐標集合B′pred;
步驟3.8根據(jù)甲骨文字的候選區(qū)域集合RROIs中每個候選文字區(qū)域RROI的頂點坐標及其評分結(jié)果,利用非極大值抑制算法去除重疊的候選框,進而獲得最終的甲骨文字區(qū)域的頂點坐標集合Bfinal,并更新可能性評估結(jié)果集合Rscore;
步驟3.9根據(jù)頂點坐標集合Bfinal和可能性評估結(jié)果集合Rscore,在待處理圖像I上繪制矩形候選框及其置信度,并輸出帶有框選標記的結(jié)果圖像。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于遼寧師范大學,未經(jīng)遼寧師范大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010094934.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





