[發明專利]一種醫療體檢報告單文字識別及糾正方法在審
| 申請號: | 201911258459.0 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN111090990A | 公開(公告)日: | 2020-05-01 |
| 發明(設計)人: | 楊青川;宋瀅瀅;夏惟德;何帆;周振 | 申請(專利權)人: | 中電健康云科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/284;G06K9/32;G06K9/34;G16H15/00 |
| 代理公司: | 成都弘毅天承知識產權代理有限公司 51230 | 代理人: | 許志輝 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫療 體檢 報告 文字 識別 糾正 方法 | ||
1.一種醫療體檢報告單文字識別及糾正方法,其特征在于,包括:
S1:拍攝醫療體檢報告單,對其進行內容提取及透視變換,得到醫療體檢報告單圖像;
S2:采用PSE Net技術對醫療體檢報告單圖像進行文本檢測,得到多個第一文本框;
S3:根據每個第一文本框的高寬比對不符合預設高寬比條件的第一文本框進行刪除,根據每兩第一文本框的橫向間距和縱向間距對剩下的第一文本框進行合并,得到多個第二文本框;
S4:根據第二文本框之間的橫向距離,將符合預設橫向距離的兩第二文本框按列合并,得到多個列文本框;
S5:根據預設的行判斷條件判斷第二文本框的行數,同時,根據預設的列判斷條件判斷當前第二文本框屬于的列文本框,得到第二文本框的列數;
S6:將第二文本框中包含的文字按小圖形式進行截圖,按順序保存到同一張大圖中,并記錄每一小圖在大圖中的位置;
S7:利用訓練好的CRNN對大圖進行文字識別,得到的識別結果包括文字識別結果和文字檢測定位結果,將S6中記錄的位置與文字檢測定位結果進行比對,將對應的文字識別結果添加到數據表的相應位置,然后將數據表中的文字輸入到Excel中;
S8:利用NLP技術對Excel中的文字進行糾正,得到最終識別報告單。
2.根據權利要求1所述的一種醫療體檢報告單文字識別及糾正方法,其特征在于,所述S3中,預設高寬比條件為第一文本框的高/寬小于等于2。
3.根據權利要求1所述的一種醫療體檢報告單文字識別及糾正方法,其特征在于,所述S3中,根據每兩第一文本框的橫向間距和縱向間距對剩下的第一文本框進行合并,得到第二文本框,具體為:取所有第一文本框的高度的中位數作為一個字節長寬,若兩第一文本框的橫向間距小于1倍字節長寬并且縱向間距小于0.5倍字節長寬,則合并兩第一文本框,得到第二文本框。
4.根據權利要求3所述的一種醫療體檢報告單文字識別及糾正方法,其特征在于,所述S4中,將符合預設橫向距離的兩第二文本框按列合并,得到多個列文本框,具體為:若兩第二文本框的橫向距離小于2.5倍字節長寬,則判斷兩第二文本框為一列合并為大框,遍歷所有的第二文本框,即得到多個列文本框。
5.根據權利要求4所述的一種醫療體檢報告單文字識別及糾正方法,其特征在于,所述S5具體為:
S5.1:設第二文本框分別為box1,box2,...,boxn,其中n為第二文本框個數,boxn(xn,yn,wn,hn),x和y分別是對應的第二文本框的左上角的橫坐標和縱坐標,w和h分別是對應的第二文本框的寬度和高度,將n個第二文本框按縱坐標升序排列;
S5.2:定義每一行的上邊界y_top為該行第一個第二文本框的y,每一行的下邊界y_bottom為該行第一個第二文本框的y+h,若上邊界y_top和下邊界y_bottom與下一個第二文本框的y和y+h的差分別小于1.5倍字節長寬,或下一個第二文本框的中心(y+y+h)/2與上邊界和下邊界的中心(y_top+y_bottom)/2的間距小于0.5倍字節長寬,則判斷兩第二文本框屬于同一行,得到第二文本框的行數;
若判斷為不屬于同一行,則更新上邊界y_top和下邊界y_bottom為下一行的第一個第二文本框的y和y+h;
S5.3:若第二文本框在列文本框的右側且左間距不超過2.5倍字節長寬,則判斷該第二文本框屬于的該列文本框,得到第二文本框的列數;
S5.4:將第二文本框的行數和列數存儲為str格式。
6.根據權利要求1所述的一種醫療體檢報告單文字識別及糾正方法,其特征在于,所述S7中,將S6中記錄的位置與文字檢測定位結果進行比對,將對應的文字識別結果添加到數據表的相應位置,具體為:若文字檢測定位結果與記錄的位置一致,且定位處有文字識別結果,則將文字識別結果添加到DataFrame的對應位置中,否則將not_readable添加到DataFrame的對應位置中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電健康云科技有限公司,未經中電健康云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911258459.0/1.html,轉載請聲明來源鉆瓜專利網。





