[發明專利]文本檢測方法、模型訓練方法及對應裝置有效
| 申請號: | 202010623505.9 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111767867B | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 張發恩;張建偉 | 申請(專利權)人: | 創新奇智(北京)科技有限公司 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06V30/19;G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 檢測 方法 模型 訓練 對應 裝置 | ||
本申請涉及文本檢測技術領域,提供一種文本檢測方法、模型訓練方法及對應裝置。其中,文本檢測方法包括:獲取待檢測圖像;將待檢測圖像輸入至預訓練的文本檢測網絡進行處理,獲得文本檢測網絡輸出的候選框的位置、文本分數以及連接分數;根據候選框的文本分數從全部的候選框中確定目標候選框;根據目標候選框的連接分數將其與相鄰的目標候選框進行連接,并根據連接在一起的目標候選框確定文本行檢測框;該文本檢測網絡包括卷積神經網絡、滑動窗口層、長短時記憶網絡以及全連接層。該方法使用連接分數連接目標候選框,首先避免了設置大量閾值,其次由于連接分數是文本檢測網絡學習產生的,從而顯著提高了網絡的泛化能力,改善了文本檢測效果。
技術領域
本發明涉及文本檢測技術領域,具體而言,涉及一種文本檢測方法、模型訓練方法及對應裝置。
背景技術
在橫向文本檢測中,連接文本提議網絡(Connectionist Text Proposal Network,簡稱CTPN)是目前最好的檢測模型之一。CTPN在進行文本檢測時,首先會生成很多矩形候選框,然后再根據候選框的幾何尺寸和位置對候選框進行連接,最后基于連接在一起的候選框形成文本行檢測框。在這一過程中,連接候選框時所依據的有關候選框的幾何尺寸和位置的閾值都是預先設定好的,難以適應于不同的數據集,導致文本檢測效果不佳。
發明內容
本申請實施例的目的在于提供一種文本檢測方法、模型訓練方法及對應裝置,以改善上述技術問題。
為實現上述目的,本申請提供如下技術方案:
第一方面,本申請實施例提供一種文本檢測方法,包括:獲取待檢測圖像;將所述待檢測圖像輸入至預訓練的文本檢測網絡進行處理,獲得所述文本檢測網絡輸出的候選框的位置、所述候選框的文本分數以及所述候選框的連接分數;其中,所述文本檢測網絡包括依次連接的卷積神經網絡、滑動窗口層、長短時記憶網絡以及全連接層;根據所述候選框的文本分數從全部的候選框中確定目標候選框;根據所述目標候選框的連接分數將其與相鄰的目標候選框進行連接,并根據連接在一起的目標候選框確定文本行檢測框。
在上述方法中使用的文本檢測網絡其全連接層會輸出連接分數,在后續步驟中會基于該連接分數連接目標候選框,而不再依賴于事先設定好的閾值。其好處在于:首先,避免了設置大量閾值,不僅降低了算法復雜度,也減輕了技術人員設定閾值的負擔;其次,由于連接分數是文本檢測網絡學習產生的,而非基于某種預設規則計算的,因此只要文本檢測網絡基于不同的數據集進行訓練,該分數就可以適應于不同的數據集,從而顯著提高了網絡的泛化能力,改善了文本檢測效果。
在第一方面的一種實現方式中,所述候選框經由以所述卷積神經網絡輸出的特征圖中的特征點為中心點的錨框回歸后得到,所述根據所述候選框的文本分數從全部的候選框中確定目標候選框,包括:對于所述卷積神經網絡輸出的特征圖中的每個特征點,從以該特征點為中心點的所有錨框回歸得到的候選框中選擇文本分數最高的候選框作為所述目標候選框。
對于卷積神經網絡輸出的特征圖中的每個特征點,都對應待檢測圖像中的多個錨框,而每個錨框經過回歸都會產生一個候選框,因此在文本檢測網絡的全連接層之后會輸出大量的候選框,如果對所有的候選框都采用連接分數判斷其是否需要與相鄰的候選框連接,則計算量過大,并且存在大量無效計算。因此在上述實現方式中,首先利用候選框的文本分數對預測出的候選框進行篩選,在每個特征點對應的全部候選框中僅保留一個文本分數最高(即最可能包含文本)的候選框作為目標候選框,然后僅對目標候選框執行連接操作,避免了大量的無效計算,顯著降低了文本檢測過程中的運算量。
在第一方面的一種實現方式中,根據連接在一起目標候選框確定的文本行檢測框有多個,所述方法還包括:利用非極大值抑制算法對多個文本行檢測框進行處理,得到最終的文本行檢測框。
對于同一個文本行,經文本檢測網絡檢測可能得到多個文本行檢測框,可以利用非極大值抑制算法抑制文本行檢測框的數量,以便確定最終的檢測結果,提高文本檢測的精確性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新奇智(北京)科技有限公司,未經創新奇智(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010623505.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生態農莊
- 下一篇:原位水生態營養鹽沉積物-上覆水界面遷移轉化模擬系統





