[發明專利]一種自然場景下的水平文本檢測方法在審
| 申請號: | 202111663029.4 | 申請日: | 2021-12-30 |
| 公開(公告)號: | CN114332868A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 閻波;高一健;李達;唐亮 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06N3/04;G06V10/762;G06K9/62;G06V10/82;G06V10/80;G06V30/19 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 代維凡 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然 場景 水平 文本 檢測 方法 | ||
1.一種自然場景下的水平文本檢測方法,其特征在于,包括以下步驟:
S1、選擇包含水平文本的自然場景圖片構建數據集;
S2、建立由特征提取子模型和文本檢測子模型構成的水平文本檢測模型,并根據數據集,優化文本檢測子模型;
S3、根據數據集,采用遷移學習,通過損失函數,訓練水平文本檢測模型;
S4、基于嵌入式操作系統的軟件開發工具包,將訓練完成的水平文本檢測模型部署在手持終端設備上;
S5、通過步驟S4的手持終端設備,檢測自然場景圖片的水平文本。
2.根據權利要求1所述的自然場景下的水平文本檢測方法,其特征在于,所述特征提取子模型包括:第一處理單元、第二處理單元、第三處理單元、第四處理單元、第五處理單元和第六處理單元;
所述第一處理單元包括5個卷積模塊和4個最大池化層,其輸入端作為特征提取子模型的輸入端,其輸出端分別與第二處理單元的輸入端和第五處理單元的第一輸入端連接;
所述第二處理單元包括3個卷積模塊和2個最大池化層,其輸出端分別與第三處理單元的輸入端和第四處理單元的輸入端連接;
所述第三處理單元包括2個卷積模塊,其輸出端作為特征提取子模型的第一輸出端;
所述第四處理單元包括2個卷積模塊和1個上采樣層,其輸出端與第五處理單元的第二輸入端連接;
所述第五處理單元為特征融合層,其輸出端與第六處理單元的輸入端連接;
所述第六處理單元包括2個卷積模塊,其輸出端作為特征提取子模型的第二輸出端。
3.根據權利要求2所述的自然場景下的水平文本檢測方法,其特征在于,所述卷積模塊均包括:卷積層、批量歸一化層和激活函數層;
所述卷積層的輸入端作為卷積模塊的輸入端,其輸出端與批量歸一化層的輸入端連接;
所述批量歸一化層的輸出端與激活函數層的輸入端連接;
所述激活函數層的輸出端作為卷積模塊的輸出端,其激活函數為LeakReLU函數。
4.根據權利要求3所述的自然場景下的水平文本檢測方法,其特征在于,所述第三處理單元和第六處理單元的所有卷積模塊的卷積核尺寸均為3×1。
5.根據權利要求4所述的自然場景下的水平文本檢測方法,其特征在于,所述文本檢測子模型為YOLO LAYER檢測層;其輸入端與特征提取子模型的第一輸出端和第二輸出端連接;其包括K個先驗錨框。
6.根據權利要求5所述的自然場景下的水平文本檢測方法,其特征在于,所述步驟S2中根據數據集,優化文本檢測子模型的方法包括以下步驟:
A1、提取數據集中每張圖片的文本區域尺寸大小分別作為各個樣本;
A2、任選擇K個樣本作為初始的K個聚類中心{a1,a2,…,aK};
A3、計算每個樣本分別到K個聚類中心的歐式距離,并將每個樣本分別納入與其歐氏距離最小的聚類中心的類別;
A4、通過下式更新每個類別的聚類中心:
其中,ak為第k個類別的聚類中心,sk為第k個類別,x為歸屬于第k個類別的樣本,k為閉區間[1,K]內的正整數;
A5、判斷更新后每個類別的聚類中心是否改變,若是,則跳轉至步驟A3,若否,則跳轉至步驟A6;
A6、將K個聚類中心的數值作為K個先驗錨框的尺寸。
7.根據權利要求6所述的自然場景下的水平文本檢測方法,其特征在于,所述步驟S3包括以下分步驟:
S31、將COCO數據集上預訓練的YOLOv3-tiny模型參數遷移至水平文本檢測模型;
S32、根據數據集,通過損失函數,采用隨機梯度下降方式訓練水平文本檢測模型。
8.根據權利要求7所述的自然場景下的水平文本檢測方法,其特征在于,所述損失函數為:
Loss=lbox+lobj+lclass
其中,Loss為損失函數,lbox為先驗錨框位置因素的檢測誤差,lobj為置信度因素的檢測誤差,lclass為檢測類別因素的檢測誤差;
其中,λbox為先驗錨框位置因素比重,S2為輸入文本檢測子模型的特征圖大小,B為先驗錨框大小,i為特征圖單元坐標索引號,j為先驗錨框單元坐標索引號,為(i,j)處檢測結果值,若(i,j)處有文本目標,則值為0,若(i,j)處沒有文本目標,則值為1,(xi,yi,wi,hi)為(i,j)處預測得出的邊界框位置信息,(xi,yi)為(i,j)處預測得出的邊界框中心坐標,wi為(i,j)處預測得出的邊界框的寬,hi和為(i,j)處預測得出的邊界框的高,為(i,j)處真值邊界框位置信息,為(i,j)處真值邊界框中心坐標,為(i,j)處真值邊界框寬,hi為(i,j)處真值邊界框高;
其中,λnoobj為預測得出的邊界框中不存在對象的置信度權重,λobj為預測得出的邊界框中存在對象的置信度權重,為(i,j)處不存在文本目標的狀態值,若(i,j)處沒有文本目標,則值為1,若(i,j)處有文本目標,則值為0,ci為特征圖第i單元坐標處預測得出的邊界框負責預測目標的置信度,為真實情況下特征圖第i單元坐標處預測得出的邊界框是否應該負責預測目標的狀態值,若真實情況下特征圖第i單元坐標處預測得出的邊界框應該負責預測目標,則為1,若真實情況下特征圖第i單元坐標處預測得出的邊界框不應該負責預測目標,則為0;
其中,λclass為檢測類別因素比重,c為類別標記,classes為水平文本檢測所有可能的類別,pi(c)為特征圖第i單元坐標處為c類的預測概率,為特征圖第i單元坐標處為c類的真實概率,log(·)為對數函數;
λbox、λobj和λnoobj的和為1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111663029.4/1.html,轉載請聲明來源鉆瓜專利網。





