[發明專利]一種基于匿名化隱私保護技術的醫療事件抽取方法有效
| 申請號: | 202110589943.2 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113312470B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 李建欣;李倩;孫睿;司靖輝;毛乾任;黃洪仁 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/35;G06F40/14;G06F40/194;G06F40/211;G06F40/258;G06F40/295;G06F40/30;G06F21/62;G16H50/70;G06N3/04;G06N3/08 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 匿名 隱私 保護 技術 醫療 事件 抽取 方法 | ||
本發明通過人工智能領域的方法,實現了一種基于匿名化隱私保護技術的醫療事件抽取方法。由事件檢測模型和事件抽取模型構成;事件檢測模型輸入已發布新聞的概要信息或新聞正文的第一段落作為與標題進行信息交互的摘要文本,使用雙向注意力流獲取標題中的單詞與摘要中文本的關聯信息,之后通過單詞嵌入層、雙向注意力機制層、模型層、輸出層的模型結構,采用Bi?LSTM模型方法得到最終的分類標簽;事件抽取模型通過抽取時間、地點、人物、組織機構、v?n詞對五項參數的方式結構化表示從事件中提取的有效信息。最終實現了能夠克服事件句中可能存在的實體語義信息不明的情況,以及利用語義依存樹學習文本結構信息來彌補文本中實體含義部分缺失的問題的方法。
技術領域
本發明涉及人工智能領域,尤其涉及一種基于匿名化隱私保護技術的醫療事件抽取方法。
背景技術
自從互聯網技術出現以來,對應的網絡安全問題就受到廣泛關注,其中隱私安全問題一直是重中之重。事件抽取技術是從文本中捕獲事件并抽取事件的要素,是一種對文本內容的結構化分析。已有的事件抽取方法大多是基于模板的方法,這種方式只能抽取指定類型的事件且需要大量的標注工作,而針對開放域的事件抽取方法無需標注數據和不限事件類型。而文本中存在一些敏感信息被加密,這給我們的事件抽取任務增加了難度。目前針對涉及隱私內容的事件抽取技術的研究相對少,基本是模式匹配的方式,這種方式無法適用于語法結構復雜多變的文本。
事件抽取是信息抽取技術的一個重要分支,主要包括事件類型識別、觸發詞識別、事件要素識別、要素角色識別是個任務。通過事件抽取技術能夠幫助我們結構化的展示事件發生的時間、地點、人物、行為等內容,幫助我們快速的掌握事件關鍵信息。對于有敏感信息保護的文本,目前沒有一套基于隱私保護的開放域事件抽取方法與裝置實現針對事件要素抽取的方法。而從帶有敏感實體被隱去的文本中抽取事件要素并結構化展示是對用戶隱私信息保護的同時對事件最直觀的信息的捕捉,提升用戶的體驗。
發明內容
為此,本發明首先提出一種基于匿名化隱私保護技術的醫療事件抽取方法,由基于摘要-文本雙向流注意力機制的事件檢測模型和基于隱私保護的開放域事件抽取模型構成,其中檢測模型主要用于識別事件的具體分類,而抽取模型則依賴檢測模型中的標題-摘要相關度矩陣計算各個單詞的權重指數,以協助識別事件中的關鍵要素,該方法最終輸出具體的事件檢測以及多元組(時間,地點,人物,組織機構,v-n詞對)類型的事件結構化表示信息;所述事件檢測模型輸入已發布新聞的概要信息或新聞正文的第一段落作為與標題進行信息交互的摘要文本,使用雙向注意力流獲取標題中的單詞與摘要中文本的關聯信息,之后通過單詞嵌入層采用預訓練的Bert模型來對標題和摘要中的文本進行嵌入編碼,并獲取最后一層的隱向量作為標題和摘要中每個單詞的表示向量,之后利用雙向注意力機制層鏈接和融合標題與摘要中的信息,得到針對每一個標題單詞的雙向注意力機制層的輸出向量后,利用模型層的Bi-LSTM模型學習標題中每個單詞的新的上下文相關的表示信息,輸出每個單詞的隱向量,最后通過輸出層,將所述每個單詞的隱向量進行拼接后,經過一個全連接層獲取針對每一個分類的計算結果,并通過softmax歸一化后得到最終的分類標簽予以輸出;
所述事件抽取模型通過抽取時間、地點、人物、組織機構、v-n詞對五項參數的方式結構化表示從事件中提取的有效信息。
所述利用雙向注意力機制層鏈接和融合標題與摘要中的信息的具體方法為:標題中每個單詞的嵌入編碼表示向量表示為{,,…,摘要中每個單詞的嵌入編碼表示向量表示為{,,…,首先計算標題表示向量與摘要表示向量之間的相似度矩陣,以表示標題中的第個詞與摘要中第個詞的相似度值;
之后通過對相似度矩陣中列進行softmax計算得到摘要中每個單詞的權重,并進行加權加和的方式得到更新后的針對每一個標題單詞的摘要特征表示,計算針對標題中的每一個單詞,摘要中最相關的單詞:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110589943.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種沼氣生產用原料預處理裝置
- 下一篇:一種焦深自動補償方法、裝置和系統





