[發明專利]自由文本去識別在審
| 申請號: | 201980073632.1 | 申請日: | 2019-10-10 |
| 公開(公告)號: | CN112970071A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | D·普萊泰亞;R·P·科斯特;P·P·范利斯東克 | 申請(專利權)人: | 皇家飛利浦有限公司 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G06F21/62 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 劉兆君 |
| 地址: | 荷蘭艾*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自由 文本 識別 | ||
一種系統或方法根據包括自然語言短語中的非結構化文本(100)的患者數據的數據集來生成去識別輸出。黑名單(105)具有不允許的詞項。對非結構化文本進行處理以確定詞計數(110),該詞計數包括在非結構化文本中的出現次數(k)低于閾值(120)的低比率詞項的列表。隨后,在非結構化文本中掩蓋(130)低比率詞項和黑名單詞項以生成去識別輸出(140)。
技術領域
本發明涉及對諸如患者數據之類的個人可識別信息(PII)的處理的分析。更具體地,本發明涉及對包括例如與疾病或處置有關的自由文本的患者數據的分析和去識別。這樣的自由文本包括自然語言短語,并且可以包括臨床記錄、出院小結、移交記錄等,并且在本文檔中被稱為非結構化文本。
背景技術
最新的法規(例如,通用數據保護條例,歐盟理事會,歐洲議會和理事會于2016年4月27日關于在處理個人數據和此類數據的自由流動方面保護自然人而頒布的條例(eu)2016/679,并廢除了指令95/46/ec,2016年4月”,HIPAA“醫療保險可攜性和責任法案;美國勞工部,雇員福利安全管理局,2004年”)對處理個人可識別信息(PII)提出了嚴格要求,同時對不遵守規定的行為處以巨額罰款。
基于文本的患者醫學記錄是醫學研究和數據分析中的重要資源。為了保護患者的隱私和保密性,如HIPAA和GDPR之類法規要求先將受保護的健康信息(PHI)從醫學記錄中移除,然后再將PHI用于次要目的。對非結構化文本文檔的去識別通常是手動實現的并且需要大量資源。
雖然在對結構化臨床數據(例如,醫院數據庫、關系數據倉庫)的去識別的領域中已經進行了大量研究,但是由于諸如自由文本臨床記錄、出院小結和移交記錄之類的數據的非結構化性質,對此類數據的去識別的研究尚不成熟。針對該問題的解決方案是使用涉及醫學、自然語言處理等領域的知識的多學科方法(例如參見HuiYang和JonathanM.Garibaldi的“Automatic detection of protected health information from clinicnarratives”(生物醫學信息學雜志,58(S):S30-S38,2015年12月)),臨床文本挖掘、機器學習(例如參見K.Rajput、G.Chetty和R.Davey的“Phis(protected health information)identification from free text clinical records based on machine learning”(2017IEEE計算智能研討會系列(SSCI),第1-9頁,2017年11月))和循環神經網絡(例如參見Franck Dernoncourt、Ji Young Lee、Ozlem Uzuner和Peter Szolovits的“De-identification of patient notes with recurrent neural networks”(美國醫學信息學學會雜志,24(3):596-606,2017年))。
然而,由于此類數據的非結構化性質,基于黑名單的方法具有大量的真負例。例如,它們無法涵蓋異常詞(例如“Summer”既可以是名稱又可以是時間指示符/季節)、拼寫錯誤(例如拼寫成“Jonh”而不是“John”)或非結構化數據的自由性質(例如,圣誕節實際上就是12月25日)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于皇家飛利浦有限公司,未經皇家飛利浦有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980073632.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:制備鎳復合氫氧化物的方法
- 下一篇:聚乙烯反應器中熔體流動指數響應的改進





