[發(fā)明專利]一種面向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖掘方法有效
| 申請(qǐng)?zhí)枺?/td> | 201510093861.3 | 申請(qǐng)日: | 2015-03-02 |
| 公開(公告)號(hào): | CN104765947B | 公開(公告)日: | 2017-12-26 |
| 發(fā)明(設(shè)計(jì))人: | 林鴻飛;趙明珍 | 申請(qǐng)(專利權(quán))人: | 大連理工大學(xué) |
| 主分類號(hào): | G06F19/00 | 分類號(hào): | G06F19/00 |
| 代理公司: | 大連星海專利事務(wù)所有限公司21208 | 代理人: | 徐雪蓮 |
| 地址: | 116023 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 數(shù)據(jù) 潛在 藥物 不良反應(yīng) 挖掘 方法 | ||
1.一種面向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖掘方法,其特征在于,該方法包括以下步驟:
A、抓取藥物不良事件報(bào)告:在本地構(gòu)建藥物不良事件數(shù)據(jù)集,利用爬蟲技術(shù)從已知的藥物不良事件報(bào)告數(shù)據(jù)庫中抓取包含有藥名文本數(shù)據(jù)的藥物不良事件報(bào)告,并以字符串形式存儲(chǔ)于所述藥物不良事件數(shù)據(jù)集中,對(duì)于格式上無法存儲(chǔ)在傳統(tǒng)的關(guān)系數(shù)據(jù)庫中的藥物不良事件報(bào)告,利用格式解析工具將藥物不良事件報(bào)告轉(zhuǎn)化為字符串形式按行以文本文件的方式存儲(chǔ)于藥物不良事件數(shù)據(jù)集中;所述藥名文本數(shù)據(jù)為出現(xiàn)在藥物不良事件報(bào)告的藥名域中的文本數(shù)據(jù);
B、對(duì)藥物不良事件數(shù)據(jù)集的藥物不良事件報(bào)告進(jìn)行數(shù)據(jù)預(yù)處理;所述數(shù)據(jù)預(yù)處理過程包括以下步驟:
B1、藥名文本數(shù)據(jù)規(guī)范化:利用正則表達(dá)式對(duì)所述藥物不良事件報(bào)告中的藥名文本數(shù)據(jù)進(jìn)行規(guī)范化;
B2、生成候選藥名片段:對(duì)于規(guī)范化后的藥名文本數(shù)據(jù)中所包含有‘+’、‘-’、‘/’符號(hào)的藥名文本,通過 ‘+’、‘-’、‘/’符號(hào)對(duì)藥名文本進(jìn)行切分,以形成候選藥名片段;
B3、基于頻率的候選藥名片段去噪:
在步驟B2所形成的候選藥名片段中所存在的無對(duì)應(yīng)藥名的文本數(shù)據(jù),預(yù)設(shè)最小頻率閾值,并將出現(xiàn)次數(shù)小于該閾值的藥名片段從候選藥名片段中過濾掉,得到藥物名稱列表;
C、藥名標(biāo)準(zhǔn)化:利用生物醫(yī)學(xué)命名實(shí)體識(shí)別技術(shù),對(duì)藥物名稱列表中的藥物名稱進(jìn)行藥名標(biāo)準(zhǔn)化;藥名標(biāo)準(zhǔn)化的具體方法為:通過利用MetaMap系統(tǒng)對(duì)藥物名稱列表進(jìn)行生物醫(yī)學(xué)實(shí)體識(shí)別,并將識(shí)別到的生物醫(yī)學(xué)實(shí)體映射到UMLS的超級(jí)敘詞表中形成不良反應(yīng)藥物列表 (d1,d2,…, dm)和不良反應(yīng)列表(a1,a2,…,an);
D、過濾已知不良反應(yīng):對(duì)于步驟C得到的不良反應(yīng)藥物列表 (d1,d2,…, dm)和不良反應(yīng)列表(a1,a2,…,an),在每份藥物不良事件報(bào)告中,將不良反應(yīng)藥物列表中的藥物di的已知不良反應(yīng)aj從不良反應(yīng)列表中去除,得到過濾后的不良反應(yīng)列表(a1,a2,…,aj-1,aj+1,…,am);
E、關(guān)聯(lián)度計(jì)算:包括以下步驟:
E1、在已知的藥物不良事件報(bào)告數(shù)據(jù)庫中,統(tǒng)計(jì)不良事件藥物列表中藥物di出現(xiàn)的次數(shù)、不良反應(yīng)aj出現(xiàn)的次數(shù)以及該藥物di和不良反應(yīng)aj的共現(xiàn)次數(shù);
E2、計(jì)算藥物di出現(xiàn)的情況下不良反應(yīng)aj出現(xiàn)的條件概率p(aj|di),和不良反應(yīng)aj出現(xiàn)的情況下藥物di出現(xiàn)的條件概率p(di|aj);,其中,fre(di)為藥物di出現(xiàn)的次數(shù),fre(aj)為不良反應(yīng)aj出現(xiàn)的次數(shù),fre(ai,dj)為藥物di和不良反應(yīng)aj的共現(xiàn)次數(shù);
E3、關(guān)聯(lián)度計(jì)算:利用雙條件概率乘積法,計(jì)算藥物di和不良反應(yīng)aj的關(guān)聯(lián)度:sim(di,aj)=p(aj|di)*p(di|aj);
F、關(guān)聯(lián)度排序:對(duì)于藥物di,根據(jù)步驟E3的藥物和不良反應(yīng)之間的關(guān)聯(lián)度sim(di,aj)值,對(duì)所有的不良反應(yīng)按照降序排列,取排列次序在前的不良反應(yīng)作為藥物di的潛在藥物不良反應(yīng)。
2.根據(jù)權(quán)利要求1所述的一種面向大數(shù)據(jù)的潛在藥物不良反應(yīng)數(shù)據(jù)挖掘方法,其特征在于,所述已知的藥物不良事件報(bào)告數(shù)據(jù)庫為公共開放數(shù)據(jù)集或電子病歷。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510093861.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





