[發明專利]一種醫療報告單照片中敏感信息脫敏方法及系統在審
| 申請號: | 202111265566.3 | 申請日: | 2021-10-28 |
| 公開(公告)號: | CN113936764A | 公開(公告)日: | 2022-01-14 |
| 發明(設計)人: | 王玨 | 申請(專利權)人: | 蘇州良醫匯網絡科技有限公司 |
| 主分類號: | G16H15/00 | 分類號: | G16H15/00;G06F21/62;G06F40/295;G06V30/40 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 王廣浩 |
| 地址: | 215000 江蘇省蘇州市工業園區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫療 報告 片中 敏感 信息 方法 系統 | ||
1.一種醫療報告單照片中敏感信息脫敏方法,其特征在于,包括以下步驟:
S1、基于先驗知識構建敏感信息范圍;
S2、讀取當前醫療報告單照片,檢測當前醫療報告單照片中的文本框并識別出文本內容;
S3、根據敏感信息范圍,結合使用關鍵詞匹配和序列標注網絡中的命名實體識別方法,對每個文本框的文本內容進行敏感信息的檢測與識別;
S4、對識別出的每個敏感信息的坐標進行定位;
S5、根據定位出的坐標對敏感信息位置進行打碼脫敏處理。
2.如權利要求1所述的醫療報告單照片中敏感信息脫敏方法,其特征在于,所述步驟S1包括:
S11、從現有醫療報告單照片中整理歸納,構建敏感信息匹配關鍵詞列表;
S12、搜集整理醫院名稱列表,并進行拆分、合并處理得到醫院名稱關鍵詞列表。
3.如權利要求2所述的醫療報告單照片中敏感信息脫敏方法,其特征在于,敏感信息匹配關鍵詞列表中的敏感信息包括:姓名、患者姓名、病人號、病人ID、病理號、病歷號、病例號、病案號。
4.如權利要求1所述的醫療報告單照片中敏感信息脫敏方法,其特征在于,步驟S2中,所述檢測當前醫療報告單照片中的文本框并識別出文本內容,包括:通過OCR模型檢測當前醫療報告單照片中的文本框并識別出文本內容,得到文本框坐標、文本內容與識別置信度。
5.如權利要求1所述的醫療報告單照片中敏感信息脫敏方法,其特征在于,步驟S3包括:
S31、遍歷文本框,使用THULAC對每個文本框的文本識別內容進行分詞,并標注詞性,返回詞性標注結果nes;
S32、遍歷詞性標注結果nes,如果當前信息ne_text不在已保存的敏感信息列表ne_list中,則根據詞性進行進一步判斷;
S33、關鍵詞列表keyword_list匹配查找時,如果匹配關鍵詞match_word和對應匹配信息ne_text被敏感信息檢測識別在兩個文本框,則無法脫敏,需要進一步二次處理;如果text_str文本長度不超過閾值skip_keyword_len,遍歷關鍵詞列表keyword_list,查找敏感信息match_word;
S34、如果當前文本框字符串text_str中包含醫院二字,遍歷醫院列表hosoital_list,查找是否有醫院名稱在當前字符串中text_str,如果有,將該醫院hospital添加到敏感信息列表ne_list;
S35、檢測字符串text_str中的電子郵箱地址emails,如果emails不為空,則添加到敏感信息列表ne_list中;
S36、經過步驟S34和S35步驟后,敏感信息列表ne_list中可能存在重復,在下一步遍歷敏感信息ne_list之前進行一下去重處理;
S37、遍歷敏感信息列表ne_list中的每個敏感信息,查找當前文本框字符串text_str中該敏感信息出現的索引,返回text_str長度和ne_index。
6.如權利要求5所述的醫療報告單照片中敏感信息脫敏方法,其特征在于,步驟S32中,根據詞性進行進一步判斷,包括:
S321、如果ne_text的詞性是人名,且ne_text文本長度不超過閾值skip_np_len,則將當前詞ne_text添加到敏感信息列表ne_list中;
S322、如果ne_text的詞性是地名,則將當前詞ne_text添加到敏感信息列表ne_list中;
S323、如果ne_text的詞性是數詞,進一步判斷ne_text是否為手機號、身份證號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州良醫匯網絡科技有限公司,未經蘇州良醫匯網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111265566.3/1.html,轉載請聲明來源鉆瓜專利網。





