[發明專利]一種醫學疾病診斷記錄中實體消歧的方法有效
| 申請號: | 201710112316.3 | 申請日: | 2017-02-28 |
| 公開(公告)號: | CN106951684B | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 宋國杰;劉徽;李鵬宇 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G16H50/70;G06F16/28 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫學 疾病診斷 記錄 實體 方法 | ||
1.一種疾病診斷記錄中實體消歧的方法,基于異構伴病網絡和圖模型,對醫學疾病診斷記錄中多個待消歧的實體進行消歧;疾病診斷記錄記作R={R1,R2,...RT|Ri,i=1,...T},Ri表示第i條疾病診斷記錄,包含主診斷疾病名稱、副診斷疾病名稱以及手術名稱,所述實體包括疾病實體和手術實體;疾病診斷記錄中的醫學標注數據記作D={D1,D2,...DK|Di,i=1,...K};所述方法以包含多個待消歧的實體mi和oi的待消歧記錄r={m1,m2,...ml1;o1,o2,...ol2}作為輸入,將待消歧記錄r中每一個待消歧實體mi和oi對應的候選實體集合記為所有待消歧實體的候選實體集合記為針對待消歧記錄r={m1,m2,...ml1;o1,o2,...ol2},所述方法包括如下步驟:
1)根據醫生疾病診斷記錄R={R1,R2,...RT|Ri,i=1,...T}和醫學標注數據D={D1,D2,...DK|Di,i=1,...K},構造異構伴病網絡G=(V,E),異構伴病網絡節點包括疾病節點和手術節點,其中疾病包括主診斷疾病和副診斷疾病,主診斷疾病對應手術;包括如下過程:
11)將疾病診斷記錄R={R1,R2,...RT|Ri,i=1,...T}中的第i條疾病診斷記錄Ri表示為Ri={m1,m2,...ml1;o1,o2,...ol2},其中m1表示主診斷疾病名稱;m2~ml1表示副診斷疾病名稱;o1~ol2表示手術名稱;每一條疾病診斷記錄Ri中的每一個非標準實體記為mi或oi;
12)由標注數據D構建映射詞典,找到每一個非標準實體mi或oi對應的標準實體,記為N(mi)或N(oi);建立映射(mi,N(mi))或(oi,N(oi));
13)將每一條疾病診斷記錄Ri中的每個非標準疾病實體對應的標準實體作為伴病網絡中的節點,每兩個非標準疾病實體mi1、mi2對應的標準實體N(mi1)、N(mi2),i1≠i2之間存在一條邊E=(N(mi1),N(mi2)),邊(N(mi1),N(mi2))的權重通過式1計算得到:
式1中,count(N(mi1),N(mi2))為N(mi1)、N(mi2)共同出現的疾病記錄的條數;count(N(mi1),*)為包含N(mi1)的疾病記錄的條數;count(*,N(mi2))為包含N(mi2)的疾病記錄的條數;
14)每一條疾病診斷記錄Ri中每個非標準的手術實體對應的標準實體作為伴病網絡中的節點,每兩個不同非標準手術實體oi1、oi2對應的標準手術實體N(oi1)、N(oi2),i1≠i2之間存在一條邊E=(N(oi1),N(oi2));邊E=(N(oi1),N(oi2))的權重W(N(oi1),N(oi2))表示為(N(oi1),N(oi2))出現的次數與N(oi1)、N(oi2)分別出現的次數之和的比值,通過式1計算得到;
15)每一條疾病診斷記錄Ri中的主診斷疾病實體m1對應的手術集合o={o1,...ol2},將每一個手術對應的標準實體作為異構伴病網絡中的手術類型節點,m1、oi對應的標準實體N(m1)、N(oi)之間存在一條邊,用(m1,oi)出現的次數占N(m1)、N(oi)分別出現的次數之和的比值表示邊的權重W(N(m1),N(oi));
16)對每一條疾病診斷記錄Ri,執行步驟12)、13)、14)、15),由此構建得到異構伴病網絡G=(V,E);
2)構造疾病層次關系網絡Gm=(Vm,Em),表示疾病之間的所屬關系;
3)對一條待消歧疾病記錄中的每一個實體mi、oi,經過數據預處理和多層過濾機制,從疾病編碼庫、手術編碼庫和所述疾病層次關系網絡Gm中檢索,得到候選實體集合或進一步得到所有待消歧實體的候選實體集合具體包括如下過程:
31)對一條待消歧疾病記錄中的每一個實體mi或oi,經過數據預處理和多層過濾機制,得到預處理后的待消歧實體;
32)設定編輯距離的相似度閾值為Threshold;根據式2計算編輯距離相似度:
其中,str1和str2分別表示待消歧實體和標準實體,editdis(str1,str2)表示str1、str2的編輯距離;當editSim(str1,str2)≥Threshold時,將str2作為候選實體加入到候選實體集合中;4)利用所有待消歧實體和相應的候選實體集合通過異構伴病網絡G構建得到候選實體子圖G'=(V',E');包括如下過程:
41)對待消歧的疾病診斷記錄中每一個待消歧實體mi或oi,對應的候選實體集合按照的形式轉化為由待消歧實體和候選實體構成的對,作為由待消歧實體對應的候選實體構成的子圖中的節點;當不同的待消歧實體mi1,mi2,i1≠i2對應同一個候選實體時,視為兩個節點和
42)對于41)中構造的節點,節點之間的邊由所述異構伴病網絡得到,構成子圖中節點的邊包括:疾病實體和疾病實體之間的邊、手術實體和手術實體之間的邊、疾病實體和手術實體之間的邊;主診斷疾病實體對應的多個候選疾病實體與所有的手術候選實體之間的邊;
43)構造的子圖中節點之間的邊滿足約束條件:同一待消歧實體mi或oi對應的候選實體之間沒有邊相連,表示為刪去不滿足上述約束條件的邊;
由步驟41)、42)和43),得到由待消歧實體對應的候選實體構成的異構子圖G'=(V',E');
5)對每一個待消歧實體,通過異構網絡個性化網頁排名算法He-PPR對所述待消歧實體對應的候選實體節點進行打分;具體包括如下步驟:
51)異構網絡中,節點e的貢獻由異構網絡中不同類型的節點同時決定;節點在隨機游走時以概率α隨機游走,同時以概率β跳轉到當前同一類型節點的子圖中的某一固定點s,并以概率γ跳轉到另一同類型節點子圖中的某一固定點s',其中α+β+γ=1,將(s,s')對節點e的貢獻記為coh(s,s')(e);
52)對每一個待消歧實體,根據編輯距離相似度計算得到所述待消歧實體的局部得分和全局得分,所述待消歧實體的得分為局部得分和全局得分之和;
6)輸出得分最高的K個節點,作為待消歧實體對應的標準實體;
由此實現實體消歧。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710112316.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于玻璃門窗的簡易玻璃膠槍
- 下一篇:一種防腐鋼管的自動生產線





