[發明專利]一種基于多任務學習的場景文本檢測方法及系統有效
| 申請號: | 202211298048.6 | 申請日: | 2022-10-22 |
| 公開(公告)號: | CN115546778B | 公開(公告)日: | 2023-06-13 |
| 發明(設計)人: | 彭良瑞;丁寧;劉長松 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/146;G06V30/19;G06V10/766;G06V10/80;G06V10/82 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 學習 場景 文本 檢測 方法 系統 | ||
1.一種基于多任務學習的場景文本檢測方法,其特征在于,包括以下步驟:
將場景圖像輸入至文本檢測模型,所述文本檢測模型,包括主干網絡、特征金字塔網絡、區域候選網絡和檢測網絡,其中,
利用所述主干網絡和所述特征金字塔網絡對所述場景圖像進行特征提取,得到多尺度特征圖,將所述多尺度特征圖輸入所述區域候選網絡得到候選區域特征圖,并利用所述檢測網絡對所述候選區域特征圖進行文本檢測得到文本檢測結果;其中,所述檢測網絡的結構,包括外接框回歸分支、掩膜預測分支與文本識別分支的多任務學習級聯細化網絡結構;
所述主干網絡,包括多個Swin?Transformer主干網絡;所述利用主干網絡和所述特征金字塔網絡對所述場景圖像進行特征提取,得到多尺度特征圖,包括:
將所述多個Swin?Transformer主干網絡組合得到組合主干網絡;
將數據增強后的場景圖像輸入所述組合主干網絡進行特征提取,得到初始多尺度特征圖;以及,
將所述初始多尺度特征圖輸入所述特征金字塔網絡,輸出得到多尺度特征圖;
在所述利用檢測網絡對所述候選區域特征圖進行文本檢測得到文本檢測結果之前,所述方法,還包括:
將多尺度特征圖輸入所述區域候選網絡得到候選區域,并截取候選區域特征圖;
根據所述候選區域特征圖的長寬比例得到排列方向預測結果,基于所述排列方向預測結果對所述候選區域特征圖進行預設角度的旋轉操作得到旋轉后特征圖;
所述利用檢測網絡對所述候選區域特征圖進行文本檢測得到文本檢測結果,包括:
將所述旋轉后特征圖輸入所述外接框回歸分支進行外接框回歸操作和文本/非文本分類判決得到文本外接框,并輸入所述掩膜預測分支進行像素級的分割操作得到掩膜,以及輸入所述文本識別分支得到文本識別結果;
在模型訓練階段,基于所述文本外接框、掩膜和文本識別結果進行外接框回歸、掩膜預測和文本識別的多任務學習;在模型測試階段,利用所述掩膜生成最小外接四邊形得到所述文本檢測結果。
2.根據權利要求1所述的方法,其特征在于,在所述將場景圖像輸入至文本檢測模型之前,所述方法,還包括:
對所述場景圖像的色彩屬性信息進行隨機調整操作,得到色彩空間變換圖像;
對所述場景圖像隨機進行旋轉和剪切操作,得到幾何空間變換圖像;
基于所述色彩空間變換圖像和所述幾何空間變換圖像得到數據增強后的場景圖像。
3.一種基于多任務學習的場景文本檢測系統,其特征在于,包括:
數據輸入模塊,用于將場景圖像輸入至文本檢測模型,所述文本檢測模型,包括主干網絡、特征金字塔網絡、區域候選網絡和檢測網絡,其中,
文本檢測模塊,用于利用所述主干網絡和所述特征金字塔網絡對所述場景圖像進行特征提取,得到多尺度特征圖,將所述多尺度特征圖輸入所述區域候選網絡得到候選區域特征圖,并利用所述檢測網絡對所述候選區域特征圖進行文本檢測得到文本檢測結果;其中,所述檢測網絡的結構,包括外接框回歸分支、掩膜預測分支與文本識別分支的多任務學習級聯細化網絡結構;
所述主干網絡,包括多個Swin?Transformer主干網絡;所述文本檢測模塊,還用于:
將所述多個Swin?Transformer主干網絡組合得到組合主干網絡;
將數據增強后的場景圖像輸入所述組合主干網絡進行特征提取,得到初始多尺度特征圖;以及,
將所述初始多尺度特征圖輸入所述特征金字塔網絡,輸出得到多尺度特征圖;
所述系統,還包括特征旋轉模塊,用于:
將多尺度特征圖輸入所述區域候選網絡得到候選區域,并截取候選區域特征圖;
根據所述候選區域特征圖的長寬比例得到排列方向預測結果,基于所述排列方向預測結果對所述候選區域特征圖進行預設角度的旋轉操作得到旋轉后特征圖;
所述文本檢測模塊,還用于:
將所述旋轉后特征圖輸入所述外接框回歸分支進行外接框回歸操作和文本/非文本分類判決得到文本外接框,并輸入所述掩膜預測分支進行像素級的分割操作得到掩膜,以及輸入所述文本識別分支得到文本識別結果;
在模型訓練階段,基于所述文本外接框、掩膜和文本識別結果進行外接框回歸、掩膜預測和文本識別的多任務學習;在模型測試階段,利用所述掩膜生成最小外接四邊形得到所述文本檢測結果。
4.根據權利要求3所述的系統,其特征在于,在所述數據輸入模塊之前,所述系統,還包括預處理模塊,用于:
對所述場景圖像的色彩屬性信息進行隨機調整操作,得到色彩空間變換圖像;
對所述場景圖像隨機進行旋轉和剪切操作,得到幾何空間變換圖像;
基于所述色彩空間變換圖像和所述幾何空間變換圖像得到數據增強后的場景圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211298048.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鈦合金鑄艙內腔加工多切點刀具
- 下一篇:一種電機裝配用殼體固定裝置





