[發(fā)明專利]基于Adaboost、BP神經(jīng)網(wǎng)絡(luò)和隨機森林融合的mirco-RNA前體識別方法在審
| 申請?zhí)枺?/td> | 201910141438.4 | 申請日: | 2019-02-26 |
| 公開(公告)號: | CN109872773A | 公開(公告)日: | 2019-06-11 |
| 發(fā)明(設(shè)計)人: | 胡楊;逄龍;程亮;張凝一;趙天意 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué) |
| 主分類號: | G16B20/00 | 分類號: | G16B20/00;G06N3/04 |
| 代理公司: | 北京天奇智新知識產(chǎn)權(quán)代理有限公司 11340 | 代理人: | 范光曄 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分類器 強分類器 隨機森林 權(quán)重 標(biāo)簽建立 權(quán)重分配 弱分類器 算法分類 提取特征 準(zhǔn)確度 融合 擬合 前體 整合 預(yù)測 | ||
本發(fā)明提供了一種基于Adaboost、BP神經(jīng)網(wǎng)絡(luò)和隨機森林融合的mirco?RNA前體識別方法,屬于mirco?RNA前體識別方法技術(shù)領(lǐng)域。本發(fā)明從pre?miRNA序列中提取N個特征;通過提取特征及其相應(yīng)的標(biāo)簽建立N/2個BP分類器和N/2個RF分類器;在訓(xùn)練和建立分類器時,計算每個分類器獲得的相應(yīng)權(quán)重;通過組合弱權(quán)重分布的分類器獲得強分類器。本發(fā)明可以避免傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)和RF算法分類器過度擬合和不穩(wěn)定的缺點,整合了多個弱分類器并將權(quán)重分配給它們;最后,獲得了具有高精度和穩(wěn)定性的強分類器,可以獲得高預(yù)測準(zhǔn)確度。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于Adaboost、BP神經(jīng)網(wǎng)絡(luò)和隨機森林融合的mirco-RNA前體識別方法,屬于mirco-RNA前體識別方法技術(shù)領(lǐng)域。
背景技術(shù)
微小RNA(miRNA)是一組非編碼的短(約21nt)RNA,其作為細(xì)胞生物過程中的調(diào)節(jié)劑起重要作用。pre-miRNA的識別和發(fā)現(xiàn)有助于理解調(diào)節(jié)過程,miRNA和其他基因的功能,以及更多的生物進化。大多數(shù)miRNA的生物發(fā)生機制被認(rèn)為是相似的:miRNA來自pre-miRNA,其包括不完美的發(fā)夾結(jié)構(gòu),然后在cy-toplasm中,成熟形式通過Dicer核酸內(nèi)切酶的作用產(chǎn)生。由于miRNA的重要性,miRNA的準(zhǔn)確鑒定是重新研究miRNA功能和轉(zhuǎn)錄后遺傳過程的首要任務(wù)。
有兩種識別miRNA的方法,傳統(tǒng)的實驗方法(耗費時間和金錢)和計算方法。因此,近年來越來越重視計算方法的發(fā)展。計算方法的重點是使用機器學(xué)習(xí)技術(shù)來區(qū)分真正的pre-miRNA和偽pre-miRNA(具有類似發(fā)夾狀的第二結(jié)構(gòu))。
在神經(jīng)網(wǎng)絡(luò)分類器中,BP神經(jīng)網(wǎng)絡(luò)因其強大的自學(xué)習(xí)能力而成為一種廣泛使用的算法,特別適用于解決內(nèi)部機制問題。另一方面,隨機森林(RF)算法也是用于pre-miRNA識別的強大分類算法。與其他分類器相比,RF算法在解決所提出的高維特征集方面具有優(yōu)越的優(yōu)勢。然而,這兩種算法傾向于過度擬合并且輸出不穩(wěn)定。因此,提出了一種新的算法,將多個BP神經(jīng)網(wǎng)絡(luò)分類器和多個RF算法分類器與一個名為BRAda算法(為本發(fā)明基于Adaboost、BP神經(jīng)網(wǎng)絡(luò)和隨機森林融合的mirco-RNA前體識別方法的縮寫)的新型Adaboost框架相結(jié)合,通過Adaboost框架分配分類器權(quán)重,可以獲得高精度和可靠性。基于所提出的特征集和新算法的用于pre-miRNA識別的分類器。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決上述現(xiàn)有技術(shù)存在的問題,進而提供一種基于Adaboost、BP神經(jīng)網(wǎng)絡(luò)和隨機森林融合的mirco-RNA前體識別方法。
本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
步驟1:從pre-miRNA序列中提取N個特征,N取98,則提取98維特征;
步驟2:通過提取特征及其相應(yīng)的標(biāo)簽建立N/2個BP分類器和N/2個RF分類器;
步驟3:在訓(xùn)練和建立分類器時,計算每個分類器獲得的相應(yīng)權(quán)重;
步驟4:組合弱權(quán)重分布的分類器獲得強分類器。
所述步驟1中從pre-miRNA序列中提取N個特征包括一級序列特征和二級序列特征;
所述一級序列特征為N-Gram頻率,選擇N值為3,在指定序列的三核苷酸組中存在64個組合,獲得總共64維頻率特征作為N-Gram頻率特征;
所述二級序列特征包括三重結(jié)構(gòu)序列、堿基對含量特征和MFE功能;其中,所述三重結(jié)構(gòu)序列為對于任何三個核苷酸單元,有8個可能的組合,考慮三個字符組的第一個核苷酸,有32個不同的組合;所述堿基對含量特征為miRNA序列中的核苷酸配對G-C配對的頻率;MFE功能為最小自由能。
所述步驟2中相應(yīng)標(biāo)簽為0表示陰性樣本,1表示陽性樣本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué),未經(jīng)哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910141438.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于條件隨機森林的笑臉檢測器及方法
- 隨機森林模型訓(xùn)練的方法及模型訓(xùn)練控制系統(tǒng)
- 隨機森林模型訓(xùn)練方法及裝置
- 基于結(jié)構(gòu)化隨機森林編碼器的眼底視網(wǎng)膜血管分割方法
- 一種基于隨機森林模型的慢性肝病風(fēng)險評估系統(tǒng)
- 基于改進隨機森林方法的風(fēng)光發(fā)電出力的短期預(yù)測方法
- 交互式隨機森林子樹篩選方法、裝置、設(shè)備及可讀介質(zhì)
- 交互式隨機森林集成方法、設(shè)備及可讀存儲介質(zhì)
- 一種基于深度森林的眼底圖像血管分割方法和系統(tǒng)
- 隨機森林的生成方法、裝置、電子設(shè)備及存儲介質(zhì)
- 權(quán)重調(diào)整模塊與權(quán)重調(diào)整方法
- 網(wǎng)頁主題的分類方法及裝置
- 接收裝置
- 基于權(quán)重濾波的視頻去噪裝置及方法
- 權(quán)重數(shù)據(jù)存儲方法和基于該方法的神經(jīng)網(wǎng)絡(luò)處理器
- 危害因素的權(quán)重因子的確定方法、裝置及存儲介質(zhì)
- 用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法
- 處理器
- 用于對深度神經(jīng)網(wǎng)絡(luò)的權(quán)重進行轉(zhuǎn)換的方法和系統(tǒng)
- 神經(jīng)網(wǎng)絡(luò)的量化方法、裝置、服務(wù)器和存儲介質(zhì)





