[發(fā)明專利]一種基于多視圖主題建模技術的異常處方篩選方法有效
| 申請?zhí)枺?/td> | 201810992868.2 | 申請日: | 2018-08-29 |
| 公開(公告)號: | CN109448808B | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設計)人: | 趙俊峰;詹思延;謝冰;卓琳;唐爽;劉少欽 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G16H20/10 | 分類號: | G16H20/10;G16H70/40;G06F16/335;G06K9/62 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視圖 主題 建模 技術 異常 處方 篩選 方法 | ||
本發(fā)明公開一種基于多視圖主題建模技術的異常處方篩選方法,其步驟為:1)將來自醫(yī)療系統(tǒng)的數(shù)據(jù)整理成處方數(shù)據(jù),其中每條處方數(shù)據(jù)中包含診斷特征和用藥特征;2)將處方數(shù)據(jù)輸入MV?LDA模型進行訓練;其中,MV?LDA模型包括K個主題,每個主題中包含診斷特征視圖和用藥特征視圖;主題k中的診斷特征視圖由一個診斷特征集合和在每個診斷特征的所對應的概率值組成,用藥特征視圖由一個用藥特征集合和集合中每個用藥特征所對應的概率值組成;3)利用訓練好的MV?LDA模型對待識別處方數(shù)據(jù)進行推斷,得到其基于診斷特征的主題分布和基于用藥特征的主題分布;然后計算兩主題分布的相似度,判斷該待識別處方數(shù)據(jù)是否為異常處方。
技術領域
本發(fā)明屬于醫(yī)療信息處理領域,涉及一種基于多視圖主題建模技術的異常處方篩選方法,通過對處方進行建模來檢測醫(yī)療處方中的異常處方。
背景技術
現(xiàn)有醫(yī)療領域內的異常檢測算法可以分成有監(jiān)督和無監(jiān)督兩類。在有監(jiān)督的學習方法中,常用一些機器學習方法對人工標注的醫(yī)療數(shù)據(jù)進行分析。例如,M.Kumar等人在一個標記了足夠多異常實例并且質量良好的數(shù)據(jù)集中,運用SVM有監(jiān)督學習方法,檢測醫(yī)療索賠數(shù)據(jù)中的記錄錯誤(Kumar M,Ghani R,Mei Z S.Data mining to predict and preventerrors in health insurance claims processing:ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining,Washington,Dc,Usa,July,2010[C].),K.Heller等人(Chandola V,Banerjee A, Kumar V.Anomaly detection:A survey[M].ACM,2009.)。假設所有實例都屬于某個確定的類別,用SVM方法從數(shù)據(jù)集中描繪出兩類實例的邊界,任何分錯邊的實例都被視為有異常信息的實例。但是由于獲取有監(jiān)督學習所需要的高質量標記數(shù)據(jù)集非常困難,為此,研究人員也提出了一系列的無監(jiān)督的異常檢測方法。無監(jiān)督方法一般是通過尋找離群點來實現(xiàn)的,通過把每個實例抽象成高維空間中的一個點,把遠離空間中其他點的數(shù)據(jù)點作為異常點。例如, Yamanishi等人就是使用基于概率生成模型的無監(jiān)督PAD方法去檢測病理數(shù)據(jù)的異常 (Yamanishi K,Takeuchi J I,Williams G,et al.On-line unsupervised outlier detection using finite mixtureswith discounting learning algorithms.[J].Data Mining and Knowledge Discovery,2004,8(3):275-300);以及M.M.Breunig等人提出的基于密度的LOF方法(Breunig MM.LOF: identifying density-based local outliers:ACM SIGMOD InternationalConference on Management of Data,May 16-18,2000,Dallas,Texas,Usa,2000[C].)。但是在醫(yī)療領域中,這類離群點并不一定都是異常數(shù)據(jù),因為醫(yī)療領域中存在著大量的發(fā)病率很低的罕見病,實際上,除去部分較為常見的病癥之外,大部分的疾病發(fā)病率都非常低,異常點檢測的方法無法處理這類問題。與罕見數(shù)據(jù)相比,我們更希望檢測那些特征之間不匹配的實例。上下文異常檢測(CAD)就是一種使用兩類特征之間的關系進行異常值檢測的無監(jiān)督方法,CAD把特征分為上下文特征,設為y,和指示特征,設為x,在假設絕大多數(shù)數(shù)據(jù)是正常的情況下,學習得出x到y(tǒng)的一個映射函數(shù),y=f(x)。對于某一條測試數(shù)據(jù),如果其兩類特征不符合y=f(x),就認為這條數(shù)據(jù)是異常數(shù)據(jù)。CAD方法在醫(yī)療中也有應用,例如J.Hu等人的解決方案是在指示特性和一組語境特征上使用回歸模型,然后使用剩余部分的測試實例,來確定異常值,從而在醫(yī)療記錄中識別異常用藥案例(Hu J,Wang F,Sun J,et al.AHealthcare Utilization Analysis Framework for Hot Spotting and ContextualAnomaly Detection[J].AMIA...Annual Symposium proceedings/ AMIA Symposium.AMIASymposium,2012,2012:360-369.)。但是由于醫(yī)療數(shù)據(jù)的高維稀疏性,CAD方法在醫(yī)療領域取得的效果并不好,且CAD方法只能用于檢測兩類特征之間的不匹配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810992868.2/2.html,轉載請聲明來源鉆瓜專利網。





