[發明專利]文本框標注方法、裝置和存儲介質有效
| 申請號: | 202010161011.3 | 申請日: | 2020-03-10 |
| 公開(公告)號: | CN111353458B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 彭梅英;魯四喜;農高明;唐嘉龍 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本框 標注 方法 裝置 存儲 介質 | ||
本申請公開了一種文本框標注方法、裝置和存儲介質,屬于信息技術領域。所述方法包括:獲取圖像中的多個文本框的位置信息;根據所述多個文本框的位置信息,確定所述多個文本框的屬性名稱;將所述多個文本框的位置信息和屬性名稱作為所述圖像的文本框標注信息。本申請中是自動獲取該圖像的文本框標注信息,從而可以提高標注效率,減少標注時間,并且避免因人工標注而導致的主觀誤差,可以提高文本框標注工作的產量和質量。
技術領域
本申請涉及信息技術領域,特別涉及一種文本框標注方法、裝置和存儲介質。
背景技術
OCR(Optical?Character?Recognition,光學字符識別)是指通過掃描等光學輸入方式將票據、報刊、書籍、文稿、證件及其它印刷品的文字轉化為圖像信息,再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入的技術。
OCR可以通過深度學習的方式實現。具體地,先將待識別圖像提供給基于深度學習的文本框檢測模型,獲得該圖像中的文本框位置信息,然后根據文本框位置信息對該圖像進行剪切處理,獲得待識別圖像塊,將該圖像塊提供給文本內容識別模型,獲得該圖像塊中的文本內容。
文本框檢測模型的性能極大的影響著OCR的識別準確率,因而針對文本框檢測模型的參數調優和驗證測試顯得尤為重要,在此過程中,需要使用大量的文本框標注信息。目前,文本框都是由技術人員手工進行標注,工作量大且耗時非常長,非常不利于文本框檢測模型的參數調優和驗證測試。
發明內容
本申請提供了一種文本框標注方法、裝置和存儲介質,可以提高文本框標注工作的產量和質量。
一方面,提供了一種文本框標注方法,所述方法包括:
獲取圖像中的多個文本框的位置信息;
根據所述多個文本框的位置信息,確定所述多個文本框的屬性名稱;
將所述多個文本框的位置信息和屬性名稱作為所述圖像的文本框標注信息。
一方面,提供了一種文本框標注裝置,所述裝置包括:
獲取模塊,用于獲取圖像中的多個文本框的位置信息;
確定模塊,用于根據所述多個文本框的位置信息,確定所述多個文本框的屬性名稱;
標注模塊,用于將所述多個文本框的位置信息和屬性名稱作為所述圖像的文本框標注信息。
一方面,提供了一種文本框標注裝置,所述文本框標注裝置包括處理器和存儲器,所述存儲器用于存儲支持文本框標注裝置執行上述的文本框標注方法的程序,以及存儲用于實現上述的文本框標注方法所涉及的數據。所述處理器被配置為用于執行所述存儲器中存儲的程序。所述文本框標注裝置還可以包括通信總線,所述通信總線用于在所述處理器與所述存儲器之間建立連接。
一方面,提供了一種計算機可讀存儲介質,所述存儲介質上存儲有指令,所述指令被處理器執行時實現上述的文本框標注方法的步驟。
一方面,提供了一種包含指令的計算機程序產品,當其在計算機上運行時,使得計算機執行上述的文本框標注方法。
本申請提供的技術方案至少可以帶來以下有益效果:
獲取圖像中的多個文本框的位置信息后,根據該多個文本框的位置信息,確定該多個文本框的屬性名稱,從而提高了獲取文本框的屬性名稱的速度和準確度。最后,將該多個文本框的位置信息和屬性名稱作為該圖像的文本框標注信息。如此,是自動獲取該圖像的文本框標注信息,從而可以提高標注效率,減少標注時間,并且避免因人工標注而導致的主觀誤差,可以提高文本框標注工作的產量和質量。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010161011.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種系統登錄控制方法、裝置及計算機可讀存儲介質
- 下一篇:隔膜及電化學電池





