[發(fā)明專利]基于決策樹分層的藥品不良反應數(shù)據(jù)遮蔽效應消除的方法有效

申請?zhí)枺?/td>	202010841630.7	申請日：	2020-08-20
公開（公告）號：	CN112133450B	公開（公告）日：	2022-08-23
發(fā)明（設計）人：	魏建香;阮倩昀;盧志強	申請（專利權）人：	南京郵電大學
主分類號：	G16H70/40	分類號：	G16H70/40;G16H10/40
代理公司：	南京蘇科專利代理有限責任公司 32102	代理人：	牛莉莉
地址：	210003 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于決策樹分層藥品不良反應數(shù)據(jù) 遮蔽效應消除方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.基于決策樹分層的藥品不良反應數(shù)據(jù)遮蔽效應消除的方法，其特征在于：所述方法包括以下步驟：

1)數(shù)據(jù)的采集：包括原始ADR數(shù)據(jù)的采集和標準庫的采集；

2)數(shù)據(jù)的預處理：數(shù)據(jù)的預處理包括對所述原始ADR數(shù)據(jù)中的不良反應名稱規(guī)范為標準庫中包括的不良反應名稱，刪除標準庫中未包括的藥品及其所述未包括藥品的不良反應數(shù)據(jù)，統(tǒng)一化混雜因子所在的字段值，添加藥品不良反應是否出現(xiàn)在標準庫的字段“是否已知”，記錄重復的藥品不良反應組合數(shù)；

3)構建多級分層的決策樹：將原始ADR數(shù)據(jù)的四個特征“性別”、“年齡”、“是否屬于抗生素類”和“地區(qū)”視為混雜因子；為了確定主要的三個混雜因子，從上述四個混雜因子中任選三個作為數(shù)據(jù)的特征，進行下述構建決策樹的過程：將“是否已知”字段作為決策任務的類標簽，利用WEKA軟件中的J48分類算法構建決策樹，根據(jù)每一個子類中數(shù)據(jù)實際的類別和預測的類別不一致的比例，來分析分類的精度，再次選擇三個不同的混雜因子，重復構建多級分層的決策樹的步驟，最后，選擇分類精度最高的一組混雜因子；

4)信號檢測：從所構建的決策樹中得到分類的規(guī)則，即將ADR數(shù)據(jù)按照三個混雜因子的優(yōu)先順序分類，根據(jù)分類的規(guī)則從數(shù)據(jù)集中提取出每一個子類中的數(shù)據(jù)，即數(shù)據(jù)子集，采用信號檢測方法分別對數(shù)據(jù)集和數(shù)據(jù)子集進行信號檢測，從而獲得兩個信號集，總樣本的信號檢測結果對應信號集1，子樣本各自做信號檢測后整合的結果對應信號集2；

5)性能評估：以標準庫作為檢驗的標準，設計評價指標，對兩個信號集進行性能評估，分析基于決策樹的多級分層方法在削弱數(shù)據(jù)遮蔽效應方面發(fā)揮的作用。

2.根據(jù)權利要求1所述的基于決策樹分層的藥品不良反應數(shù)據(jù)遮蔽效應消除的方法，其特征在于：所述步驟5)中還包括如下具體步驟：

501)設計基于標準庫的四格表

標準庫為分類決策提供了客觀的依據(jù)，為了比較多級分層前后總樣本和子樣本在信號檢測結果上的差異性，選擇標準庫作為檢驗的標準；用標準庫中藥品不良反應組合對信號集1和信號集2進行標注，如果該組合出現(xiàn)在標準庫中，則標注為“1”，否則標注為“0”，將信號集1、信號集2與標準庫進行比較，構成所需的四格表；

其中，a代表信號集1與信號集2檢出均為陽性信號的ADR組合數(shù)；b代表信號集1檢出為陽性信號，信號集2檢出為陰性信號的ADR組合數(shù)；c代表信號集1檢出為陰性信號，信號集2檢出為陽性信號的ADR組合數(shù)；d代表信號集1和信號集2檢出均為陰性信號的ADR組合數(shù)；a1、b1、c1和d1分別表示a、b、c和d中出現(xiàn)在標準庫中的ADR組合數(shù)；a0、b0、c0和d0分別表示a、b、c和d中未出現(xiàn)在標準庫中的ADR組合數(shù)；且a＝a1+a0，b＝b1+b0，c＝c1+c0，d＝d1+d0

故，當信號集1與信號集2均為陽性信號時，a(a₁,a₀)；當信號集1為陽性信號，信號集2為陰型信號時，b(b₁,b₀)；當信號集1為陰性信號，信號集2為陽性信號時，c(c₁,c₀)；當信號集1、信號集2均為陰性信號時，d(d₁,d₀)；

502)設計評價指標

①查全率R

用查全率R₁描述總樣本檢測出已知信號的能力，由公式1表示：

用查全率R₂描述多級分層后的子樣本檢測出已知信號的能力，由公式2表示：

②查準率P

用查準率P₁描述總樣本檢測出已知信號的能力，由公式3表示：

用查準率P₂描述多級分層后的子樣本檢測出已知信號的能力，由公式4表示：

③F指標

總樣本和多級分層后的子樣本的F指標分別由公式5、公式6表示：

當F指標達到最大值時，查全率和查準率保持相對平衡，數(shù)據(jù)遮蔽效應消除性能最好；若F₁≥F₂，則無需對總樣本進行分層檢測；否則為需要對總樣本進行分層檢測。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。