[發(fā)明專利]用于識(shí)別細(xì)胞外基質(zhì)蛋白的集成學(xué)習(xí)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410588610.8 | 申請(qǐng)日: | 2014-10-28 |
| 公開(公告)號(hào): | CN104331642A | 公開(公告)日: | 2015-02-04 |
| 發(fā)明(設(shè)計(jì))人: | 張承進(jìn);楊潤(rùn)濤;高瑞;張麗娜 | 申請(qǐng)(專利權(quán))人: | 山東大學(xué) |
| 主分類號(hào): | G06F19/24 | 分類號(hào): | G06F19/24;G06F19/18 |
| 代理公司: | 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 張勇 |
| 地址: | 250061 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 識(shí)別 細(xì)胞 基質(zhì) 蛋白 集成 學(xué)習(xí)方法 | ||
1.用于識(shí)別細(xì)胞外基質(zhì)蛋白的集成學(xué)習(xí)方法,其特征是,包括以下步驟:
步驟一:數(shù)據(jù)集建立:建立細(xì)胞外基質(zhì)ECM蛋白序列的訓(xùn)練樣本集和獨(dú)立測(cè)試樣本集;
步驟二:基于序列組成、物理化學(xué)屬性、進(jìn)化信息及結(jié)構(gòu)信息,將訓(xùn)練樣本集中的蛋白質(zhì)序列映射成數(shù)值特征向量;
步驟三:為降低計(jì)算復(fù)雜度和減少特征的冗余性,采用信息增益率—增量特征選擇方法挑選出相對(duì)有效的特征子集,以提高評(píng)估訓(xùn)練樣本集的預(yù)測(cè)性能;
步驟四:采用集成學(xué)習(xí)的方法建立集成分類器模型,以解決數(shù)據(jù)集不平衡的問(wèn)題;
步驟五:將獨(dú)立測(cè)試樣本集按步驟二的方法映射成數(shù)值特征向量,基于集成分類器模型的預(yù)測(cè)結(jié)果,采用多數(shù)表決方法得到測(cè)試樣本的類別,最終利用所有測(cè)試樣本的預(yù)測(cè)結(jié)果評(píng)價(jià)預(yù)測(cè)系統(tǒng)的性能;
步驟六:利用用于細(xì)胞外基質(zhì)蛋白識(shí)別的網(wǎng)絡(luò)服務(wù)器系統(tǒng),進(jìn)行在線識(shí)別細(xì)胞外基質(zhì)蛋白。
2.如權(quán)利要求1所述的用于識(shí)別細(xì)胞外基質(zhì)蛋白的集成學(xué)習(xí)方法,其特征是,所述步驟一中訓(xùn)練樣本集含有410個(gè)后生動(dòng)物ECM蛋白和4464個(gè)后生動(dòng)物非ECM蛋白;獨(dú)立測(cè)試樣本集則包括85個(gè)人類ECM蛋白和130個(gè)人類非ECM蛋白。
3.如權(quán)利要求1所述的用于識(shí)別細(xì)胞外基質(zhì)蛋白的集成學(xué)習(xí)方法,其特征是,所述步驟二中,所述蛋白質(zhì)序列映射成數(shù)值特征向量的方法為:基于序列組成官能團(tuán)的頻率的特征建立策略;基于序列組成信息熵的特征建立策略;基于序列組成氨基酸分布的特征建立策略;基于序列組成氨基酸轉(zhuǎn)換的特征建立策略;基于物理化學(xué)屬性偽氨基酸組成的特征建立策略;基于物理化學(xué)屬性離散小波變換的特征建立策略;基于進(jìn)化信息的特征建立策略;基于進(jìn)化信息非穩(wěn)定構(gòu)象的特征建立策略;基于進(jìn)化信息二級(jí)結(jié)構(gòu)信息的特征建立策略;基于進(jìn)化信息功能域信息的特征建立策略。
4.如權(quán)利要求1所述的用于識(shí)別細(xì)胞外基質(zhì)蛋白的集成學(xué)習(xí)方法,其特征是,所述步驟三中,采用信息增益率—增量特征選擇方法挑選出相對(duì)有效的特征子集,具體為:利用增量特征選擇方法獲取最優(yōu)特征子集,增量特征選擇方法從空特征集合開始,按特征的排序從高到低逐一加入到特征集合;每一次加入一個(gè)特征,都會(huì)產(chǎn)生一個(gè)新的特征子集,具有高均衡準(zhǔn)確率和低維數(shù)的特征子集將被作為預(yù)測(cè)系統(tǒng)的最終輸入特征向量。
5.如權(quán)利要求1所述的用于識(shí)別細(xì)胞外基質(zhì)蛋白的集成學(xué)習(xí)方法,其特征是,所述步驟四中的分類器模型為隨機(jī)森林,隨機(jī)森林通過(guò)重采樣技術(shù),隨機(jī)生成訓(xùn)練樣本用于訓(xùn)練多個(gè)決策樹,基于多數(shù)表決的方法,獨(dú)立測(cè)試樣本的最終預(yù)測(cè)結(jié)果由決策樹輸出類別的眾數(shù)而定。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410588610.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動(dòng)態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種高效免疫活性細(xì)胞群制備及用于抗腫瘤的方法
- 獲得和使用內(nèi)胚層和肝細(xì)胞的組合物和方法
- bumetanide在抑制腫瘤細(xì)胞增殖中的應(yīng)用
- 細(xì)胞陣列計(jì)算系統(tǒng)以及其中細(xì)胞之間的通信方法
- 細(xì)胞陣列計(jì)算系統(tǒng)以及其中細(xì)胞間群發(fā)通信方法
- 獲得和使用內(nèi)胚層和肝細(xì)胞的組合物和方法
- 用于自動(dòng)生成遺傳修飾的T細(xì)胞的方法
- 細(xì)胞核圖像輪廓捕獲設(shè)備及其方法
- 細(xì)胞結(jié)構(gòu)體及細(xì)胞結(jié)構(gòu)體的制造方法
- 一種懸浮細(xì)胞培養(yǎng)中去除死細(xì)胞的方法





