[發(fā)明專利]基于特征的文本檢測方法及裝置在審
| 申請?zhí)枺?/td> | 202110262507.4 | 申請日: | 2021-03-10 |
| 公開(公告)號: | CN113065548A | 公開(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計)人: | 劉義江;李云超;姜琳琳;吳彥巧;姜敬;檀小亞;師孜晗;陳蕾;侯棟梁;池建昆;范輝;閻鵬飛;魏明磊;辛銳;陳曦;楊青;沈靜文 | 申請(專利權(quán))人: | 國網(wǎng)河北省電力有限公司;國網(wǎng)河北省電力有限公司雄安新區(qū)供電公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34;G06K9/62;G06K9/00;G06N3/04 |
| 代理公司: | 石家莊新世紀(jì)專利商標(biāo)事務(wù)所有限公司 13100 | 代理人: | 呼春輝 |
| 地址: | 050022 *** | 國省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 特征 文本 檢測 方法 裝置 | ||
本發(fā)明公開了基于特征的文本檢測方法及裝置,涉及自然場景下文本檢測技術(shù)領(lǐng)域;方法包括S1語義分割,通過第一神經(jīng)網(wǎng)絡(luò)從圖片中獲取含有全局特征的第一特征圖;S2特征融合,獲取到相同大小的如下特征圖,第二特征圖為帶有檢測需要信息的感興趣區(qū)域,第三特征圖為帶有掩碼需要信息的感興趣區(qū)域,將第一和第二特征圖融合并獲得第四特征圖,將第一和第三特征圖融合并獲得第五特征圖;S3檢測,對第四特征圖進行類別預(yù)測和邊框精修并獲取水平矩形框;S4掩碼,對第五特征圖卷積操作并獲取相應(yīng)的掩碼圖;裝置包括語義分割模塊、檢測模塊、掩碼模塊和特征融合模塊共四個程序模塊;其通過步驟S1至步驟S4等,實現(xiàn)了自然場景下的通用文本檢測。
技術(shù)領(lǐng)域
本發(fā)明涉及自然場景下文本檢測技術(shù)領(lǐng)域,尤其涉及一種基于特征的文本檢測方法及裝置。
背景技術(shù)
通用文本檢測在計算機視覺占有重要的位置,如自動駕駛,智能導(dǎo)航等領(lǐng)域內(nèi)具有非常重要的作用,雖然現(xiàn)在已經(jīng)有部分商業(yè)應(yīng)用,但是自然場景下的文本識別往往更具有難度,相比掃描圖片,自然場景下的圖片往往光線條件更差,背景更嘈雜,同時存在文字部分彎曲,透視,模糊等現(xiàn)象,這導(dǎo)致了目前的主流算法在復(fù)雜環(huán)境下的表現(xiàn)得不到保證。尤其是當(dāng)有遮擋,模糊等情況存在時,目前主流的方法由于不會考慮到文本的全局信息,存在漏檢,誤檢的可能性。
針對文本檢測問題,現(xiàn)有的基于深度學(xué)習(xí)的方法主要分為基于字符的檢測算法和基于單詞的檢測算法,其中,基于字符的檢測算法是利用事先設(shè)計好的字符檢測器來檢測出圖片當(dāng)中存在的字符,然后根據(jù)先驗知識將字符連接成單詞或者文本行,這類方法的思路比較簡單,實現(xiàn)部署也相對容易,然而這種方法因為要生成大量的字符候選框并且要合并,比較耗時。相比之下,基于單詞級別的檢測算法直接檢測單詞,會更高效和簡單,但這種方法通常無法有效地檢測具有任意形狀的文本。
為了解決這個問題,一些基于單詞的方法進一步應(yīng)用實例分割來進行文本檢測,解決了任意形狀文本的檢測問題,同時針對復(fù)雜場景諸如彎曲,透視等具有更高的魯棒性。但是現(xiàn)有的基于實例分割的方法仍然有兩個主要的局限性。
一是,這些方法只基于單個感興趣區(qū)域(RoI)檢測文本,而不考慮全局上下文,因此它們傾向于基于有限的視覺信息產(chǎn)生不準(zhǔn)確的檢測結(jié)果。
二是,現(xiàn)有的方法沒有對不同層次的單詞語義進行建模,產(chǎn)生假陽性的可能性增大。
現(xiàn)有技術(shù)問題及思考:
如何解決自然場景下的通用文本檢測的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于特征的文本檢測方法及裝置,其通過步驟S1至步驟S4等,實現(xiàn)了自然場景下的通用文本檢測。
為解決上述技術(shù)問題,本發(fā)明所采取的技術(shù)方案是:一種基于特征的文本檢測方法,基于依次連接的第一神經(jīng)網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò),所述第一神經(jīng)網(wǎng)絡(luò)包括以基礎(chǔ)網(wǎng)絡(luò)去掉最后的全連接層后接特征金字塔網(wǎng)絡(luò),包括如下步驟,S1語義分割,處理器從存儲器獲取圖片,通過第一神經(jīng)網(wǎng)絡(luò)從圖片中獲取含有全局特征的第一特征圖;S2特征融合,處理器獲取到經(jīng)第一神經(jīng)網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò)形成的感興趣區(qū)域、對齊感興趣區(qū)域并獲得相同大小的第二特征圖和第三特征圖,第二特征圖為帶有檢測需要信息的感興趣區(qū)域,第三特征圖為帶有掩碼需要信息的感興趣區(qū)域,處理器將第一特征圖與第二特征圖融合并獲得通道信息融合后的第四特征圖,處理器將第一特征圖與第三特征圖融合并獲得通道信息融合后的第五特征圖;S3檢測,處理器對第四特征圖進行類別預(yù)測和邊框精修并獲取水平矩形框;S4掩碼,處理器對第五特征圖卷積操作并獲取相應(yīng)的掩碼圖。
進一步的技術(shù)方案在于:在步驟S1中,處理器通過第一神經(jīng)網(wǎng)絡(luò)從圖片中獲取全局的分割圖;在步驟S3中,處理器對第四特征圖進行類別預(yù)測和邊框精修并獲取感興趣區(qū)域的二分類信息和邊框回歸信息;在步驟S4中,處理器對第五特征圖卷積操作并獲取相應(yīng)的局部分割圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)河北省電力有限公司;國網(wǎng)河北省電力有限公司雄安新區(qū)供電公司,未經(jīng)國網(wǎng)河北省電力有限公司;國網(wǎng)河北省電力有限公司雄安新區(qū)供電公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110262507.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





