[發(fā)明專利]基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法有效
| 申請(qǐng)?zhí)枺?/td> | 201210122900.4 | 申請(qǐng)日: | 2012-04-24 |
| 公開(公告)號(hào): | CN102708285A | 公開(公告)日: | 2012-10-03 |
| 發(fā)明(設(shè)計(jì))人: | 吳駿;劉正;王志堅(jiān);許峰 | 申請(qǐng)(專利權(quán))人: | 河海大學(xué) |
| 主分類號(hào): | G06F19/00 | 分類號(hào): | G06F19/00 |
| 代理公司: | 南京天翼專利代理有限責(zé)任公司 32112 | 代理人: | 湯志武 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 復(fù)雜 網(wǎng)絡(luò) 模型 并行 pagerank 算法 核心 藥物 挖掘 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種中藥復(fù)雜網(wǎng)絡(luò)建模,以及在該模型上采用并行化PageRank算法挖掘中藥核心藥物的技術(shù)。
背景技術(shù)
數(shù)據(jù)挖掘技術(shù)可以在大量數(shù)據(jù)下發(fā)現(xiàn)潛在的、有用的知識(shí),是計(jì)算機(jī)人工智能的重要組成部分,利用數(shù)據(jù)挖掘技術(shù)可以實(shí)現(xiàn)對(duì)中藥復(fù)方數(shù)據(jù)的智能分析,發(fā)現(xiàn)潛在中藥配伍規(guī)律。常用的數(shù)據(jù)挖掘模型都是基于事務(wù)項(xiàng)的,即把復(fù)方看成由多種藥物組成的事務(wù)并儲(chǔ)存在事務(wù)數(shù)據(jù)庫中。
隨著中藥復(fù)方數(shù)據(jù)規(guī)模的增加以及對(duì)更深層次挖掘的要求,傳統(tǒng)的基于事務(wù)項(xiàng)模型的中藥關(guān)聯(lián)規(guī)則、分類和聚類等算法已經(jīng)難以滿足中藥數(shù)據(jù)挖掘的需求。而將復(fù)雜網(wǎng)絡(luò)分析以及并行計(jì)算引入中藥數(shù)據(jù)挖掘中可以彌補(bǔ)傳統(tǒng)數(shù)據(jù)挖掘的缺陷,并能直觀展現(xiàn)藥物間關(guān)系,加速系統(tǒng)響應(yīng)速度,是有效的創(chuàng)新和嘗試。
復(fù)雜網(wǎng)絡(luò)分析如今已經(jīng)涉及到社會(huì)關(guān)系、經(jīng)濟(jì)、交通、生命科學(xué)等多個(gè)領(lǐng)域,能夠展現(xiàn)節(jié)點(diǎn)關(guān)系拓?fù)浣Y(jié)構(gòu)、模擬信息傳播以及挖掘節(jié)點(diǎn)隱藏知識(shí)。利用中藥復(fù)方數(shù)據(jù)構(gòu)建中藥復(fù)雜網(wǎng)絡(luò)打破了傳統(tǒng)中藥數(shù)據(jù)挖掘基于事務(wù)項(xiàng)的建模模型,可以深入研究中藥配伍規(guī)律。其中利用復(fù)雜網(wǎng)絡(luò)中的PageRank算法可以挖掘中藥的核心藥物,其主要包括兩方面的應(yīng)用:
1)哪些藥物是治療特定病癥最常見且最關(guān)鍵的藥物,比如治療哮喘、消渴癥等給定病癥,哪些中藥材用得多并且對(duì)組方來說最為關(guān)鍵。
2)哪些藥物是在大量中藥組方中常用到的關(guān)鍵藥物,可以大量隨機(jī)選取復(fù)方數(shù)據(jù)庫中的一些復(fù)方作為初始數(shù)據(jù),研究其中關(guān)鍵的藥物有哪些。在此與第一種應(yīng)用不同的是這里并沒有給定癥狀,而僅僅是隨機(jī)選擇的大量復(fù)方數(shù)據(jù)。
PageRank算法是一種數(shù)據(jù)挖掘的方法,傳統(tǒng)的PageRank算法不能在分布式并行環(huán)境下運(yùn)行,隨著數(shù)據(jù)的激增,普通的算法不再適用于大規(guī)模數(shù)據(jù)。為了提高算法的可擴(kuò)展性以及可伸縮性,以便能在大量復(fù)方數(shù)據(jù)下快速高效運(yùn)行算法,需要用到并行計(jì)算MapReduce編程模式。該編程模式主要包括Map和Reduce兩個(gè)過程,體現(xiàn)了分治和合并的思想。實(shí)現(xiàn)MapReduce編程模式的系統(tǒng)框架有Google集群和Hadoop集群等。
發(fā)明內(nèi)容
本發(fā)明目的是:解決實(shí)現(xiàn)中藥復(fù)雜網(wǎng)絡(luò)建模,并在該模型上采用并行化PageRank算法,以快速發(fā)現(xiàn)中藥核心藥物。
為解決上述問題,本發(fā)明技術(shù)方案是:基于復(fù)雜網(wǎng)絡(luò)模型并行化PageRank算法的核心藥物挖掘方法,包括如下步驟:
1)組網(wǎng)階段:
a)預(yù)處理生成中藥復(fù)方數(shù)據(jù)集,格式化為文本數(shù)據(jù);所說的預(yù)處理為抽取中藥復(fù)方數(shù)據(jù)中所有復(fù)方的藥物組成;每個(gè)中藥復(fù)方均格式化為文本數(shù)據(jù);
b)將初始文本數(shù)據(jù)部署至Hadoop平臺(tái),即開發(fā)分布式并行程序的平臺(tái);所說的部
署為將步驟a生成的初始文本數(shù)據(jù)上傳至Hadoop的分布式文件系統(tǒng)(HDFS);
c)并行化組建中藥藥物網(wǎng)絡(luò)TCM;
具體過程如下:
1)為每個(gè)中藥復(fù)方(一行文本數(shù)據(jù))設(shè)定一個(gè)唯一復(fù)方標(biāo)識(shí)ID;
2)建立從藥物到復(fù)方標(biāo)識(shí)ID之間的倒排索引;
3)為每個(gè)藥物設(shè)定唯一藥物標(biāo)識(shí)id,并包含在復(fù)方中出現(xiàn)的頻次;
4)再次建立倒排索引,還原中藥復(fù)方的文本數(shù)據(jù);
5)分布式并行程序的每個(gè)Map函數(shù)讀取一行文本數(shù)據(jù),解析出中藥復(fù)方的藥物節(jié)點(diǎn)信息;
6)兩兩組合原復(fù)方中的藥物,以按字典序小的藥物ID加上頻次作為Key,另一個(gè)作為Value,以鍵值對(duì)<Key,Value>的形式經(jīng)過shuffle?&?&?sort(Hadoop平臺(tái)自帶的兩個(gè)步驟,主要對(duì)Key值進(jìn)行排序整理等)發(fā)送到Reduce函數(shù);
7)開發(fā)分布式并行程序的Reduce函數(shù)接收相同Key下組成的[Value]數(shù)組(即Map函數(shù)傳遞的所有在該Key下的Value,結(jié)合上文來說即藥物的ID與其出現(xiàn)頻次),按照下式計(jì)算兩兩藥物間度量,將大于設(shè)定閾值的藥對(duì)寫入文件并保存至HDFS中
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué),未經(jīng)河海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210122900.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





