[發明專利]一種基于匿名化隱私保護技術的醫療事件抽取方法有效
| 申請號: | 202110589943.2 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113312470B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 李建欣;李倩;孫睿;司靖輝;毛乾任;黃洪仁 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/35;G06F40/14;G06F40/194;G06F40/211;G06F40/258;G06F40/295;G06F40/30;G06F21/62;G16H50/70;G06N3/04;G06N3/08 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 匿名 隱私 保護 技術 醫療 事件 抽取 方法 | ||
1.一種基于匿名化隱私保護技術的醫療事件抽取方法,其特征在于:由基于摘要-文本雙向流注意力機制的事件檢測模型和基于隱私保護的開放域事件抽取模型構成,其中檢測模型主要用于識別事件的事件類別,而抽取模型則依賴檢測模型中的標題-摘要相關度矩陣計算各個單詞的權重指數,以協助識別事件中的關鍵要素,該方法最終輸出檢測出的事件以及多元組(時間,地點,人物,組織機構,v-n詞對)類型的事件結構化表示信息;所述事件檢測模型輸入醫療文本的概要信息或正文的第一段落作為與標題進行信息交互的摘要文本,使用雙向注意力流獲取標題中的單詞與摘要中文本的關聯信息,之后通過單詞嵌入層采用預訓練的Bert模型來對標題和摘要中的文本進行嵌入編碼,并獲取最后一層的隱向量作為標題和摘要中每個單詞的表示向量,之后利用雙向注意力機制層鏈接和融合標題與摘要中的信息,得到針對每一個標題單詞的雙向注意力機制層的輸出向量后,利用模型層的Bi-LSTM模型學習標題中每個單詞的新的上下文相關的表示信息,輸出每個單詞的隱向量,最后通過輸出層,將所述每個單詞的隱向量進行拼接后,經過一個全連接層獲取針對每一個分類的計算結果,并通過softmax歸一化后得到最終的分類標簽予以輸出;
所述事件抽取模型通過抽取時間、地點、人物、組織機構、v-n詞對五項參數的方式結構化表示從事件中提取的有效信息;
所述利用雙向注意力機制層鏈接和融合標題與摘要中信息的具體方法為:標題中每個單詞的嵌入編碼表示向量表示為{,,…,摘要中每個單詞的嵌入編碼表示向量表示為{,,…,首先計算標題表示向量與摘要表示向量之間的相似度矩陣,以表示標題中的第個詞與摘要中第個詞的相似度值;
之后通過對相似度矩陣中列進行softmax計算得到摘要中每個單詞的權重,并進行加權求和的方式得到更新后的針對每一個標題單詞的摘要特征表示,計算針對標題中的每一個單詞,與之相對應的摘要中最相關的單詞:
再通過對相似度矩陣中的第列來選取與標題單詞最相關的摘要單詞,從而針對每一列均得到一個最大值,將這些值進行softmax歸一化來得到針對每一個標題單詞所對應的權重,經過加權求和后得到新的標題特征表示,計算針對摘要中的每一個詞,與之相對應的標題中最相關的單詞:
最后針對每一個標題單詞,將(,)進行向量拼接后得到雙向注意力機制層的輸出向量;
所述v-n詞對的抽取方法為:首先根據所述事件檢測模型中的相似度矩陣計算每個單詞的語義權重指數,從而獲取詞對的候選詞集,具體實現方式為,針對標題中單詞所對應的列中每一項進行加和得到單詞在摘要中的重要程度:
然后計算與所述單詞對應的權重相乘得到單詞最終的權重數值,篩選權重大于閾值的單詞作為詞對的候選詞集:
在得到候選詞集后,還需要依據文本的句法分析樹中來獲取單詞之間的依存距離,得到的句法分析樹,通過單詞間依存距離的最近鄰原則來組合候選詞集中的動詞與名詞,再根據依存關系進行處理后得到最終的v-n詞對。
2.如權利要求1所述的一種基于匿名化隱私保護技術的醫療事件抽取方法,其特征在于:時間參數的抽取方法為:抽取具體的某年某月某日的時間信息,依據模板匹配的方式進行,通過設計“\\d{4}年\\d{1,2}月\\d{1,2}日”、“\\d{1,2}月\\d{1,2}日”與“\\d{1,2}日”三個正則表達式進行匹配,當匹配到的信息符合第二與第三個表達式時,則采用新聞發布或者當前的時間年份、月份進行補全。
3.如權利要求2所述的一種基于匿名化隱私保護技術的醫療事件抽取方法,其特征在于:所述地點、人物、組織機構信息只提取不包含隱私信息的實體信息,首先利用語義依存分析工具LTP所帶的實體抽取模塊進行初步的實體識別,在得到抽取結果后經過特殊字符過濾、停用詞詞典過濾方式篩選出高質量的實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110589943.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種沼氣生產用原料預處理裝置
- 下一篇:一種焦深自動補償方法、裝置和系統





