[發(fā)明專利]基于決策樹分層的藥品不良反應數(shù)據(jù)遮蔽效應消除的方法有效
| 申請?zhí)枺?/td> | 202010841630.7 | 申請日: | 2020-08-20 |
| 公開(公告)號: | CN112133450B | 公開(公告)日: | 2022-08-23 |
| 發(fā)明(設計)人: | 魏建香;阮倩昀;盧志強 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G16H70/40 | 分類號: | G16H70/40;G16H10/40 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 牛莉莉 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 決策樹 分層 藥品 不良反應 數(shù)據(jù) 遮蔽 效應 消除 方法 | ||
1.基于決策樹分層的藥品不良反應數(shù)據(jù)遮蔽效應消除的方法,其特征在于:所述方法包括以下步驟:
1)數(shù)據(jù)的采集:包括原始ADR數(shù)據(jù)的采集和標準庫的采集;
2)數(shù)據(jù)的預處理:數(shù)據(jù)的預處理包括對所述原始ADR數(shù)據(jù)中的不良反應名稱規(guī)范為標準庫中包括的不良反應名稱,刪除標準庫中未包括的藥品及其所述未包括藥品的不良反應數(shù)據(jù),統(tǒng)一化混雜因子所在的字段值,添加藥品不良反應是否出現(xiàn)在標準庫的字段“是否已知”,記錄重復的藥品不良反應組合數(shù);
3)構建多級分層的決策樹:將原始ADR數(shù)據(jù)的四個特征“性別”、“年齡”、“是否屬于抗生素類”和“地區(qū)”視為混雜因子;為了確定主要的三個混雜因子,從上述四個混雜因子中任選三個作為數(shù)據(jù)的特征,進行下述構建決策樹的過程:將“是否已知”字段作為決策任務的類標簽,利用WEKA軟件中的J48分類算法構建決策樹,根據(jù)每一個子類中數(shù)據(jù)實際的類別和預測的類別不一致的比例,來分析分類的精度,再次選擇三個不同的混雜因子,重復構建多級分層的決策樹的步驟,最后,選擇分類精度最高的一組混雜因子;
4)信號檢測:從所構建的決策樹中得到分類的規(guī)則,即將ADR數(shù)據(jù)按照三個混雜因子的優(yōu)先順序分類,根據(jù)分類的規(guī)則從數(shù)據(jù)集中提取出每一個子類中的數(shù)據(jù),即數(shù)據(jù)子集,采用信號檢測方法分別對數(shù)據(jù)集和數(shù)據(jù)子集進行信號檢測,從而獲得兩個信號集,總樣本的信號檢測結果對應信號集1,子樣本各自做信號檢測后整合的結果對應信號集2;
5)性能評估:以標準庫作為檢驗的標準,設計評價指標,對兩個信號集進行性能評估,分析基于決策樹的多級分層方法在削弱數(shù)據(jù)遮蔽效應方面發(fā)揮的作用。
2.根據(jù)權利要求1所述的基于決策樹分層的藥品不良反應數(shù)據(jù)遮蔽效應消除的方法,其特征在于:所述步驟5)中還包括如下具體步驟:
501)設計基于標準庫的四格表
標準庫為分類決策提供了客觀的依據(jù),為了比較多級分層前后總樣本和子樣本在信號檢測結果上的差異性,選擇標準庫作為檢驗的標準;用標準庫中藥品不良反應組合對信號集1和信號集2進行標注,如果該組合出現(xiàn)在標準庫中,則標注為“1”,否則標注為“0”,將信號集1、信號集2與標準庫進行比較,構成所需的四格表;
其中,a代表信號集1與信號集2檢出均為陽性信號的ADR組合數(shù);b代表信號集1檢出為陽性信號,信號集2檢出為陰性信號的ADR組合數(shù);c代表信號集1檢出為陰性信號,信號集2檢出為陽性信號的ADR組合數(shù);d代表信號集1和信號集2檢出均為陰性信號的ADR組合數(shù);a1、b1、c1和d1分別表示a、b、c和d中出現(xiàn)在標準庫中的ADR組合數(shù);a0、b0、c0和d0分別表示a、b、c和d中未出現(xiàn)在標準庫中的ADR組合數(shù);且a=a1+a0,b=b1+b0,c=c1+c0,d=d1+d0
故,當信號集1與信號集2均為陽性信號時,a(a1,a0);當信號集1為陽性信號,信號集2為陰型信號時,b(b1,b0);當信號集1為陰性信號,信號集2為陽性信號時,c(c1,c0);當信號集1、信號集2均為陰性信號時,d(d1,d0);
502)設計評價指標
①查全率R
用查全率R1描述總樣本檢測出已知信號的能力,由公式1表示:
用查全率R2描述多級分層后的子樣本檢測出已知信號的能力,由公式2表示:
②查準率P
用查準率P1描述總樣本檢測出已知信號的能力,由公式3表示:
用查準率P2描述多級分層后的子樣本檢測出已知信號的能力,由公式4表示:
③F指標
總樣本和多級分層后的子樣本的F指標分別由公式5、公式6表示:
當F指標達到最大值時,查全率和查準率保持相對平衡,數(shù)據(jù)遮蔽效應消除性能最好;若F1≥F2,則無需對總樣本進行分層檢測;否則為需要對總樣本進行分層檢測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010841630.7/1.html,轉載請聲明來源鉆瓜專利網。





