[發(fā)明專利]基于深度學(xué)習(xí)和基因表達(dá)數(shù)據(jù)的化合物肝毒性早期預(yù)測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910546943.7 | 申請(qǐng)日: | 2019-06-24 |
| 公開(kāi)(公告)號(hào): | CN110517790B | 公開(kāi)(公告)日: | 2023-06-09 |
| 發(fā)明(設(shè)計(jì))人: | 馮春來(lái);陳恒巍;季薇;芮蒙杰 | 申請(qǐng)(專利權(quán))人: | 江蘇大學(xué) |
| 主分類號(hào): | G16H70/40 | 分類號(hào): | G16H70/40 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 212013 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 基因 表達(dá) 數(shù)據(jù) 化合物 毒性 早期 預(yù)測(cè) 方法 | ||
1.一種基于深度學(xué)習(xí)和基因表達(dá)數(shù)據(jù)的化合物肝毒性早期預(yù)測(cè)方法,其特征在于,包括如下步驟:
步驟一:通過(guò)從公共生物醫(yī)學(xué)數(shù)據(jù)庫(kù)中對(duì)化合物作用后的基因表達(dá)數(shù)據(jù)進(jìn)行挖掘,將得到的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與標(biāo)準(zhǔn)化,構(gòu)建建模數(shù)據(jù)樣本;
所述步驟一包括如下步驟:
1.1通過(guò)從公共生物醫(yī)學(xué)數(shù)據(jù)庫(kù)中收集來(lái)自同一基因芯片測(cè)定的化合物作用后的基因表達(dá)數(shù)據(jù);所述公共生物醫(yī)學(xué)數(shù)據(jù)庫(kù)包括ArrayExpress、Gene?Expression?Omnibus?(GEO);
1.2基因表達(dá)數(shù)據(jù)樣本根據(jù)肝毒性病變級(jí)別按5分法分為嚴(yán)重,病變范圍為[75%,100%],中度嚴(yán)重,病變范圍為[50%,?75%),中度,病變范圍為[25%,?50%),輕度,病變范圍為[1%,?25%),輕微,病變范圍為[0%,?1%);
1.3將出現(xiàn)任意一次毒性級(jí)別為嚴(yán)重、中度嚴(yán)重、中度和輕度毒性的化合物標(biāo)記為陽(yáng)性化合物,其所有時(shí)間點(diǎn)、所有劑量下的用藥組樣本均為肝毒性陽(yáng)性樣本;毒性病變級(jí)別輕微的化合物的基因表達(dá)數(shù)據(jù)樣本和所有對(duì)照組樣本作為肝毒性陰性樣本;
1.4?基于R語(yǔ)言及Bioconductor?R包,對(duì)收集的肝毒性陽(yáng)性樣本和陰性樣本的基因表達(dá)數(shù)據(jù)進(jìn)行預(yù)處理;其中,通過(guò)Impute包對(duì)基因表達(dá)的缺失值及無(wú)效值進(jìn)行填充,通過(guò)Limma包對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化;
1.5按照基因芯片的注釋文件,將標(biāo)準(zhǔn)化的基因表達(dá)數(shù)據(jù)的探針I(yè)D與相應(yīng)的genesymbol進(jìn)行逐一匹配;
1.6將所有建模樣本數(shù)據(jù)按照80%:20%隨機(jī)分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于模型的訓(xùn)練學(xué)習(xí),測(cè)試集用于模型的性能評(píng)估;
步驟二:通過(guò)基因差異表達(dá)分析與特征權(quán)重計(jì)算篩選肝毒性特征基因,作為最終模型樣本特征;
所述步驟二包括如下步驟:
2.1?基于貝葉斯算法的limma?R包對(duì)預(yù)處理后的基因表達(dá)數(shù)據(jù)進(jìn)行差異表達(dá)分析,選取其中差異表達(dá)倍數(shù)的絕對(duì)值大于或等于2并且adjust-P值小于或等于0.05的基因作為特征基因;
2.2?進(jìn)一步通過(guò)深度學(xué)習(xí)算法對(duì)特征基因的權(quán)重進(jìn)行計(jì)算并保留特征權(quán)重值大于0.1的基因作為最終模型構(gòu)建的特征基因,即肝毒性特征基因;
步驟三:基于深度學(xué)習(xí)算法構(gòu)建預(yù)測(cè)模型,將篩選得到的肝毒性特征基因的表達(dá)數(shù)據(jù)用于模型的訓(xùn)練與學(xué)習(xí);
所述步驟三包括如下步驟:
3.1?模型選取序貫(Sequential)模型接口,模型結(jié)構(gòu)包括輸入層、隱藏層以及輸出層,其中隱藏層包括全連接層和Dropout層;
3.2?模型的輸入為基因表達(dá)數(shù)據(jù),其中每個(gè)特征基因都作為輸入層的一個(gè)節(jié)點(diǎn);
3.3?模型的輸出為二分類結(jié)果0和1,其中0代表肝毒性陰性,1代表肝毒性陽(yáng)性;
3.4?模型的隱藏層中,其通過(guò)Rectified?Linear?Unit?(ReLU)?激活函數(shù)來(lái)激活輸入層的值進(jìn)而傳入全連接層,該激活函數(shù)的公式為:
;
其中,x為輸入數(shù)據(jù)的值,y為數(shù)據(jù)激活后的值,W為權(quán)重矩陣,b為偏差;
3.5?模型的輸出層中,其通過(guò)Sigmoid激活函數(shù)來(lái)激活隱藏層的值進(jìn)而傳出為最終的輸出結(jié)果,該激活函數(shù)的公式為:
;
其中,y為隱藏層傳出的激活后的值,z為模型輸出結(jié)果,為轉(zhuǎn)置權(quán)重矩陣,為轉(zhuǎn)置偏差;
3.6?模型的訓(xùn)練過(guò)程中,采用compile模塊對(duì)模型的學(xué)習(xí)過(guò)程進(jìn)行配置,其參數(shù)分別設(shè)置為:優(yōu)化器設(shè)為Root?Mean?Square?prop,指標(biāo)列表設(shè)為accuracy以及損失函數(shù)設(shè)為binary_crossentropy,其中該損失函數(shù)的計(jì)算公式為:
;
其中,LH(x,z)為預(yù)測(cè)值與真實(shí)值的差異大小,x為樣本對(duì)應(yīng)的真實(shí)值,?z為樣本對(duì)應(yīng)的預(yù)測(cè)值,d為epoch數(shù);
3.7?將步驟二處理后最終得到的肝毒性特征基因表達(dá)數(shù)據(jù)作為模型的輸入,其中80%作為訓(xùn)練集用來(lái)訓(xùn)練模型,20%作為測(cè)試集用來(lái)測(cè)試模型性能;
步驟四:通過(guò)網(wǎng)格搜索算法與交叉驗(yàn)證對(duì)模型的關(guān)鍵參數(shù)進(jìn)行優(yōu)化,提高模型的預(yù)測(cè)性能;
所述步驟四包括如下步驟:
4.1?設(shè)置參數(shù)尋優(yōu)范圍,其中epoch?number為[10,?50,?100,?200,?500],batch?size為[10,?32,?64,?128],learning?rate為[0.01,?0.001,?0.00001],dropout?rate為[0,0.2,?0.5],node?number為[50,?100,?300,?500,?1000];
4.2?通過(guò)網(wǎng)格搜索算法對(duì)構(gòu)建的900個(gè)模型進(jìn)行尋優(yōu);
4.3?通過(guò)10折交叉驗(yàn)證模式及評(píng)價(jià)指標(biāo)對(duì)模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià),其中性能評(píng)價(jià)指標(biāo)包括:敏感度(SEN);特異性(SPE);準(zhǔn)確性(Accuracy,ACC);馬修斯相關(guān)系數(shù)(Matthewscorrelation?coefficient,MCC);ROC曲線下面積(AUC);其中,敏感度、特異性和準(zhǔn)確性越接近于100%,馬修斯相關(guān)系數(shù)及ROC曲線下面積越接近于1,表明該模型預(yù)測(cè)性能越好;相反,敏感度、特異性和準(zhǔn)確性越接近于0,馬修斯相關(guān)系數(shù)及ROC曲線下面積越接近于0.5,表明該模型預(yù)測(cè)性能越差;
;
;
;
;
其中,TP代表真陽(yáng)性;?TN代表真陰性;?FP代表假陽(yáng)性;?FN代表假陰性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇大學(xué),未經(jīng)江蘇大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910546943.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 心腦血管疾病易感基因芯片檢測(cè)試劑盒
- 一組用于頭頸部鱗狀細(xì)胞癌分子分型的基因及其應(yīng)用
- 產(chǎn)β-丙氨酸的重組菌及其構(gòu)建方法與應(yīng)用
- 一種檢測(cè)高血壓藥物代謝相關(guān)基因的引物組和試劑盒
- 一組用于腎細(xì)胞癌分子分型的基因及其應(yīng)用
- 一組用于膀胱癌檢測(cè)的基因及其應(yīng)用
- 一組用于髓母細(xì)胞瘤分子分型的基因及其應(yīng)用
- 一種頭發(fā)相關(guān)的基因位點(diǎn)庫(kù)及其應(yīng)用
- 馬度米星化合物的生物合成基因簇及其應(yīng)用
- 彌漫性大B細(xì)胞淋巴瘤分子分型試劑盒及分型裝置





