[發明專利]一種基于語義分割的場景任意形狀的文本檢測方法在審
| 申請號: | 202010340620.5 | 申請日: | 2020-04-26 |
| 公開(公告)號: | CN111553351A | 公開(公告)日: | 2020-08-18 |
| 發明(設計)人: | 楊海東;羅哲;黃坤山;彭文瑜;林玉山 | 申請(專利權)人: | 佛山市南海區廣工大數控裝備協同創新研究院;佛山市廣工大數控裝備技術發展有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34;G06K9/62;G06N3/04 |
| 代理公司: | 廣州科沃園專利代理有限公司 44416 | 代理人: | 徐莉 |
| 地址: | 528200 廣東省佛山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 分割 場景 任意 形狀 文本 檢測 方法 | ||
本發明公開一種基于語義分割的場景任意形狀的文本檢測方法,包括以下步驟:S1、構建任意形狀的基于語義分割的場景文本檢測網絡模型;S2、根據整體目標損失函數,利用反向傳播算法和隨機梯度下降優化,最小化整體損失函數,對S1中設計的模型進行迭代訓練;S3、利用逐步擴展尺度的方法,根據S2中訓練的模型來進行場景文本檢測識別,本發明針對自然場景下任意形狀、緊密靠近的文本實例的文本檢測問題,提出了一種基于語義分割,并創造性地利用多內核的逐步擴展尺度方法來檢測文本,更精準地檢測文本塊位置。
技術領域
本發明涉及計算機視覺領域,尤其涉及一種基于語義分割的場景任意形狀的文本檢測方法。
背景技術
隨著卷積神經網絡的發展,場景文本檢測已經取得了快速發展,目前在地理定位、實時翻譯、盲人幫助等領域得到了不錯的應用。但場景文本的檢測不同于傳統的光學字符識別(OCR),由于多方向、彎曲甚至非文本行的文字布局,場景文本的檢測更具有挑戰性。目前,廣泛應用的場景文本檢測方法中主要存在兩大困難:一方面,大多數現有方法采用四邊形bounding box(邊界框),這種邊界框無法準確定位具有任意形狀的文本;另一方面,有很多場景文本行間彼此很相近,導致檢測正確率不高,會把連著的文本行識別為一行。傳統上,基于分割的方法可以很好的緩解第一個困難,但通常無法解決第二個困難。
發明內容
針對上述問題,本發明提出一種基于語義分割的場景任意形狀的文本檢測方法,主要解決背景技術中的問題。
本發明提出一種基于語義分割的場景任意形狀的文本檢測方法,包括以下步驟:
S1、構建任意形狀的基于語義分割的場景文本檢測網絡模型;
S2、根據整體目標損失函數,利用反向傳播算法和隨機梯度下降優化,最小化整體損失函數,對S1中設計的模型進行迭代訓練;
S3、利用逐步擴展尺度的方法,根據S2中訓練的模型來進行場景文本檢測識別。
進一步改進在于,所述步驟S1中場景文本檢測網絡模型的構建方法包括以下步驟:
S101、利用特征金字塔網絡進行特征提取和多特征融合,特征金字塔網絡是一個以殘差深度卷積神經網絡為基礎,由一個自底向上連接、一個頂向下連接和一個橫向連接的結構組成的網絡;利用特征金字塔網絡模型從輸入數據集圖片中提取并融合低層高分辨率特征和高層高語義信息特征:首先,將訓練數據集圖片輸入特征金字塔網絡自底向上網絡結構中,即網絡的前向過程。前向過程中,網絡特征圖經過某些層后會改變,而在經過其他一些層的時候不會改變,以網絡中不改變特征圖大小的卷積層單元定義為一個層級,即有層級{P2,P3,P4,P5}。接下來,利用自上而下連接進行上采樣操作,利用橫向連接將高層特征和低層特征進行融合,最后,再采用3*3卷積核對每個融合進行卷積,以消除上采樣的混疊效應,最終得到{F2,F3,F4,F5}四個特征層。
S102、利用文本/非文本區域分割網絡,實現像素級別文本區域識別,從而實現準確定位具有任意形狀文本的檢測要求,并將步驟S101中所得到的特征圖經1*1卷積層-上采樣-sigmoid層產生n個同一文本圖像里但文本區域分割尺度各異的mask圖S1,S2,…,Sn。
進一步改進在于,所述步驟S102具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佛山市南海區廣工大數控裝備協同創新研究院;佛山市廣工大數控裝備技術發展有限公司,未經佛山市南海區廣工大數控裝備協同創新研究院;佛山市廣工大數控裝備技術發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010340620.5/2.html,轉載請聲明來源鉆瓜專利網。





