[發明專利]基于弱監督的字符檢測器訓練方法、裝置、系統及介質有效
| 申請號: | 201711460633.0 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108052937B | 公開(公告)日: | 2019-05-31 |
| 發明(設計)人: | 章成全;劉家銘;韓鈞宇;丁二銳 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/34 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 張臻賢;徐瑞紅 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 字符 檢測器 訓練 方法 裝置 系統 介質 | ||
1.一種基于弱監督的字符檢測器訓練方法,其特征在于,包括:
輸入待處理對象的粗粒度標注信息,所述粗粒度標注信息包括待處理對象的基于詞、文本條和/或行的標注信息;
對所述粗粒度標注信息的整體外包圍輪廓沿所述待處理對象的字符的排列方向進行等分分割以獲得所述待處理對象的字符的粗包圍盒,其中,所述粗包圍盒包括上下邊界和左右邊界;
根據所述粗粒度標注信息,通過神經網絡模型獲得所述待處理對象的字符的預測包圍盒,其中,所述預測包圍盒包括上下邊界和左右邊界;
根據所述粗包圍盒和所述預測包圍盒確定所述待處理對象的字符的精細包圍盒,將所述精細包圍盒的標注信息作為所述待處理對象的字符標注,其中,所述精細包圍盒包括上下邊界和左右邊界。
2.根據權利要求1所述的方法,其特征在于,所述基于詞、文本條和/或行的標注信息為詞、文本條和/或行的整體外包圍輪廓,所述整體外包圍輪廓包括矩形框。
3.根據權利要求1所述的方法,其特征在于,對所述粗粒度標注信息的整體外包圍輪廓沿所述待處理對象的字符的排列方向進行等分分割以獲得所述待處理對象的字符的粗包圍盒,包括:
將所述粗粒度標注信息的整體外包圍輪廓進行N等分,其中,與文字方向垂直的方向為分割線的方向,所述文字方向是所述待處理對象的字符的排列方向,N為所述粗粒度標注信息中的字符個數,或者N為所述整體外包圍輪廓最長邊長度除以最短邊長度的商的四舍五入式取整數值。
4.根據權利要求1所述的方法,其特征在于,根據所述粗包圍盒和所述預測包圍盒確定所述待處理對象的字符的精細包圍盒,包括:
判斷第一條件和第二條件是否同時滿足,所述第一條件為所述預測包圍盒的置信度大于預設的置信度閾值,所述第二條件為所述粗包圍盒和所述預測包圍盒的交疊比大于預設的交疊比閾值;
若所述第一條件和所述第二條件同時滿足,則根據所述預測包圍盒調整所述粗包圍盒,生成所述精細包圍盒;
若所述第一條件不滿足或所述第二條件不滿足,則將所述粗包圍盒賦值給所述精細包圍盒。
5.根據權利要求4所述的方法,其特征在于,根據所述預測包圍盒調整所述粗包圍盒,生成所述精細包圍盒,包括:
判斷所述粗粒度標注信息的文字方向所在直線與水平軸的夾角是否小于等于45°,所述文字方向是所述待處理對象的字符的排列方向;
若是則將所述粗包圍盒的上下邊界作為所述精細包圍盒的上下邊界,將所述預測包圍盒的左右邊界作為所述精細包圍盒的左右邊界;
若否則將所述粗包圍盒的上下邊界作為所述精細包圍盒的左右邊界,將所述預測包圍盒的左右邊界作為所述精細包圍盒的上下邊界。
6.根據權利要求1-5中任一項所述的方法,其特征在于,在根據所述粗包圍盒和所述預測包圍盒確定所述待處理對象的字符的精細包圍盒之后,還包括:
根據所述精細包圍盒計算所述神經網絡模型的損失函數,通過誤差反向傳播算法更新所述神經網絡模型的參數值。
7.一種基于弱監督的字符檢測器訓練裝置,其特征在于,包括:
輸入模塊,用于輸入待處理對象的粗粒度標注信息,所述粗粒度標注信息包括待處理對象的基于詞、文本條和/或行的標注信息;
字符粗定位模塊,用于對所述粗粒度標注信息的整體外包圍輪廓沿所述待處理對象的字符的排列方向進行等分分割以獲得所述待處理對象的字符的粗包圍盒,其中,所述粗包圍盒包括上下邊界和左右邊界;
字符檢測器,用于根據所述粗粒度標注信息,通過神經網絡模型獲得所述待處理對象的字符的預測包圍盒,其中,所述預測包圍盒包括上下邊界和左右邊界;
字符調整模塊,用于根據所述粗包圍盒和所述預測包圍盒確定所述待處理對象的字符的精細包圍盒,將所述精細包圍盒的標注信息作為所述待處理對象的字符標注,其中,所述精細包圍盒包括上下邊界和左右邊界。
8.根據權利要求7所述的裝置,其特征在于,所述基于詞、文本條和/或行的標注信息為詞、文本條和/或行的整體外包圍輪廓,所述整體外包圍輪廓包括矩形框。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711460633.0/1.html,轉載請聲明來源鉆瓜專利網。





