[發明專利]一種文本標注方法在審
| 申請號: | 202110306681.4 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN113033380A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 張書源 | 申請(專利權)人: | 建信覽智科技(北京)有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06F40/143;G06F40/279 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100037 北京市西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 標注 方法 | ||
本發明提供了一種文本標注方法,包括以下步驟:S1:通過對圖像進行人工標注與OCR系統自動識別分別得到實體文字框以及自動檢測文字框;S2:計算實體文字框與自動檢測文字框的重疊度,根據重疊度鏈接兩個文字框,得到自動檢測文字框的文字信息;S3:根據實體文字框從圖像中將實體文字影像切出,得到文字條影像;S4:將得到的文字條影像送入OCR系統進行識別;S5:將步驟S4中識別出來的文本與步驟S2中自動檢測文字框中識別到的文本進行匹配,生成文本標注數據。本發明中的文本標注方法,通過在圖像上標注實體,能夠做到標注和OCR系統解耦,使OCR系統的迭代升級不會對標注結果造成影響。
技術領域
本發明涉及文本信息抽取領域,具體而言,涉及一種文本標注方法。
背景技術
在智能文檔領域中,信息抽取任務是一個很常見的任務,它的主要目標是從文檔中抽取一些實體信息比如,公司名,日期。這些實體信息散落在圖片中的各個位置。
現有實現文檔信息抽取的常見方法包括:
1、將圖片送入到光學字符識別(Optical Character Recognition,簡稱OCR)系統中,OCR系統輸出文字區域坐標和該區域的文字(輸出會有一定的錯誤);
2、在OCR系統輸出的文本上標注實體信息;
3、將標注好的文本,送入到神經網絡中的訓練模型,對實體信息進行抽取。
在經濟貿易活動中,很多關鍵要素信息(比如:公司名,日期,金額)是存儲在票據的影像中。目前,已經存在各種各樣的OCR技術,將這些票據的影像字符轉換為計算機能理解的文本編碼。但是如何抽取這些票據中的要素信息,還需要借助自然語言處理(NaturalLanguage Processing,簡稱NLP)技術來實現關鍵要素的抽取,所以,如何對這些OCR系統輸出的自然語言文本進行標注,標注格式是怎樣的,就十分重要。
在現有文檔信息抽取過程中,因為標注是在OCR系統的結果上進行的,而OCR系統則是不斷更新迭代升級的,所以當OCR系統模型改變之后,OCR系統輸出的文本錯誤分布和上一個模型的文本錯誤分布會有一些差別,導致之前標注數據訓練出的模型在新的OCR系統上抽取效果下降,標注和OCR系統嚴重耦合。
發明內容
針對現有技術存在的問題,本發明提供了一種文本標注方法,能夠消減因OCR系統不斷更新,對后續訓練模型實體信息抽取效果的影響。
第一方面,本發明提供的一種文本標注方法,包括以下步驟:
S1:通過對圖像進行人工標注與OCR系統自動識別分別得到實體文字框以及自動檢測文字框;
S2:計算實體文字框與自動檢測文字框的重疊度,根據重疊度鏈接兩個文字框,得到自動檢測文字框的文本;
S3:根據實體文字框從圖像中將實體文字影像切出,得到文字條影像;
S4:將得到的文字條影像送入OCR系統進行識別;
S5:將步驟S4中識別出來的文本與步驟S2中自動檢測文字框中識別到的文本進行匹配,生成文本標注數據。
進一步,步驟S1中,還包括得到實體文字框的坐標信息,以及通過pixelink算法得到自動檢測文字框的坐標信息。
進一步,步驟S1及步驟S2之間還包括對自動檢測文字框的坐標信息進行還原,以使OCR系統自動識別后的文字框坐標還原為原始圖像的坐標。
進一步,以圖像的左上角為坐標原點,坐標還原包括:
當圖像縮放m倍后:
x=1/m*x0
y=1/m*y0;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于建信覽智科技(北京)有限公司,未經建信覽智科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110306681.4/2.html,轉載請聲明來源鉆瓜專利網。





