[發(fā)明專利]一種人類蛋白質(zhì)亞細(xì)胞位置預(yù)測方法在審
| 申請?zhí)枺?/td> | 201710204499.1 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN106778070A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 沈紅斌;周航 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18;G06F19/24 |
| 代理公司: | 上海伯瑞杰知識產(chǎn)權(quán)代理有限公司31227 | 代理人: | 孟旭彤 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 人類 蛋白質(zhì) 細(xì)胞 位置 預(yù)測 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于生物信息技術(shù)領(lǐng)域,特別涉及一種人類蛋白質(zhì)亞細(xì)胞位置預(yù)測的方法。
背景技術(shù)
了解蛋白質(zhì)的亞細(xì)胞位置對于理解蛋白質(zhì)的功能、蛋白質(zhì)間的相互作用,以及藥物的靶向治療具有重要的意義。然而目前利用實(shí)驗(yàn)檢驗(yàn)的方法來獲取蛋白質(zhì)的亞細(xì)胞位置需要很大的時(shí)間和成本。因此利用蛋白質(zhì)亞細(xì)胞位置預(yù)測工具來對大量的蛋白質(zhì)進(jìn)行預(yù)測具有重要意義。根據(jù)我們的統(tǒng)計(jì),在2016年二月份發(fā)布的SWISS-PROT蛋白質(zhì)數(shù)據(jù)庫上一共有550552條蛋白質(zhì),其中只有10.4%的蛋白質(zhì)具有實(shí)驗(yàn)驗(yàn)證的亞細(xì)胞位置,剩下的未知亞細(xì)胞位置的蛋白質(zhì)急需通過一種可靠的預(yù)測方法來預(yù)測。
到目前為止,已經(jīng)有很多能夠預(yù)測蛋白質(zhì)亞細(xì)胞位置的工具,常見的網(wǎng)絡(luò)服務(wù)器包括BaCeLlo,YLoc,MultiLoc,GOASVM,WoLF PSORT,CellPLoc,HSLPred等等。這些預(yù)測工具給相關(guān)領(lǐng)域的生物學(xué)家?guī)砹藰O大的便利。
蛋白質(zhì)的亞細(xì)胞位置信息經(jīng)常被用在疾病的基因治療,藥物靶向治療上。例如通過檢查在腫瘤中蛋白質(zhì)YAP的表達(dá)和亞細(xì)胞定位來研究Hippo/YAP途徑在小兒肝細(xì)胞癌演變中的作用。所以,一個(gè)易于使用的高精度預(yù)測工具將非常有助于這些實(shí)驗(yàn)室進(jìn)行臨床研究。我們以前發(fā)布的網(wǎng)絡(luò)服務(wù)器Hum-mPLoc2.0是專門為預(yù)測人類蛋白質(zhì)定位而設(shè)計(jì)的。每年使用的次數(shù)已從2010年的2萬次增加到2015年的8萬多次。這表明為了提供更好的預(yù)測服務(wù),基于新技術(shù)和更全面精準(zhǔn)的注釋數(shù)據(jù)庫來進(jìn)一步增強(qiáng)預(yù)測能力具有重要意義。
通常,用于預(yù)測蛋白質(zhì)亞細(xì)胞定位的計(jì)算方法可以分為兩類,即基于同源性搜索的方法和基于機(jī)器學(xué)習(xí)的方法。基于同源性搜索的方法可以被認(rèn)為是利用最近鄰方法來進(jìn)行預(yù)測,在該方法中兩個(gè)蛋白質(zhì)之間的距離通常通過它們的序列同源性來衡量。通過計(jì)算查詢蛋白質(zhì)與大量已有亞細(xì)胞位置注釋信息的序列的同源性,該方法找到前K個(gè)最相似的蛋白質(zhì),并將它們的注釋信息傳遞給所要預(yù)測的蛋白質(zhì)作為分類結(jié)果。基于同源性搜索的方法是一種比較直接的預(yù)測方法,但是它的性能顯著取決于是否能夠找到相似度高已有亞細(xì)胞位置信息注釋的同源序列,此外,有些時(shí)候兩個(gè)蛋白質(zhì)序列之間的相似度高但是他們可具有非常不同的結(jié)構(gòu)或功能,這會導(dǎo)致該方法的失效。
基于機(jī)器學(xué)習(xí)的預(yù)測器是蛋白質(zhì)亞細(xì)胞位置預(yù)測中的一類較為靈活模型。它們需要所謂的訓(xùn)練數(shù)據(jù)集,然后通過基于統(tǒng)計(jì)學(xué)習(xí)的算法來學(xué)習(xí)分類規(guī)則。因此,訓(xùn)練數(shù)據(jù)的質(zhì)量與所學(xué)習(xí)的統(tǒng)計(jì)規(guī)則的質(zhì)量密切相關(guān)。受益于蛋白質(zhì)數(shù)據(jù)庫中關(guān)于亞細(xì)胞位置信息越來越多并且越來越可靠的注釋,我們可以通過收集大規(guī)模訓(xùn)練數(shù)據(jù)以便于更充分地訓(xùn)練分類模型。在機(jī)器學(xué)習(xí)模型中的另一個(gè)重要問題是如何編碼蛋白質(zhì)序列,因?yàn)榇蠖鄶?shù)算法需要提取特征向量作為輸入,如何從原始蛋白質(zhì)序列以及相關(guān)聯(lián)的現(xiàn)有知識中提取特征對于分類器的最終性能是至關(guān)重要的。用于預(yù)測亞細(xì)胞位置的現(xiàn)有機(jī)器學(xué)習(xí)工具使用各種特征如下:
(1)基于殘基的統(tǒng)計(jì)特征,偽氨基酸組成和位置特異性評分矩陣。
(2)基于信號肽,功能域的特征。
(3)基于數(shù)據(jù)庫注釋的特征,例如基因本體論(GO)特征。
由于GO特征是對領(lǐng)域知識的高級抽象,當(dāng)擁有足夠的注釋時(shí),它們通常比基于序列所提取的特征具有更高的準(zhǔn)確性。然而,大量的注釋數(shù)據(jù)帶來新的算法挑戰(zhàn)。例如,通過對每個(gè)GO特征使用伯努利事件模型,即對于該GO特征是否存在進(jìn)行二進(jìn)制編碼,常常導(dǎo)致極高維的特征空間。隨著GO數(shù)據(jù)庫的定期擴(kuò)展和更新,維度將隨著我們關(guān)于蛋白質(zhì)的知識拓展而不斷增加。高維特征向量增加了機(jī)器學(xué)習(xí)過程的復(fù)雜性,并且我們還考慮到注釋數(shù)據(jù)庫中的潛在噪聲的影響。雖然整個(gè)GO數(shù)據(jù)庫是巨大的,但每個(gè)蛋白質(zhì)實(shí)際上只包含幾個(gè)GO特征。根據(jù)我們的統(tǒng)計(jì),在SWISS-PROT數(shù)據(jù)庫中那些至少具有一個(gè)GO特征的蛋白質(zhì),他們平均擁有6個(gè)GO注釋。也就是說一個(gè)蛋白質(zhì)的GO特征是一個(gè)稀疏特征向量,它有數(shù)千個(gè)維度,但只有大約6個(gè)GO注釋。目前領(lǐng)域內(nèi)已經(jīng)針對這個(gè)問題提出了不同的方法來處理。例如,YLoc僅選擇對于特定亞細(xì)胞位置具有明顯相關(guān)性的GO注釋和PROSITE模式。因此,它減少了不必要的特征,并使得結(jié)果更易于理解,但是這樣也會導(dǎo)致信息丟失。WegoLoc為每個(gè)GO特征分配權(quán)重來突出有用的GO特征。
發(fā)明內(nèi)容
本發(fā)明提供一種人類蛋白質(zhì)亞細(xì)胞位置預(yù)測方法,目的在于通過利用注釋特征之間潛在相關(guān)性信息來提高人類蛋白質(zhì)亞細(xì)胞分類器的預(yù)測精度。
一種人類蛋白質(zhì)亞細(xì)胞位置預(yù)測方法,基于人類蛋白質(zhì)序列預(yù)測蛋白質(zhì)亞細(xì)胞位置,包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710204499.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計(jì)算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計(jì)算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 一種高效免疫活性細(xì)胞群制備及用于抗腫瘤的方法
- 獲得和使用內(nèi)胚層和肝細(xì)胞的組合物和方法
- bumetanide在抑制腫瘤細(xì)胞增殖中的應(yīng)用
- 細(xì)胞陣列計(jì)算系統(tǒng)以及其中細(xì)胞之間的通信方法
- 細(xì)胞陣列計(jì)算系統(tǒng)以及其中細(xì)胞間群發(fā)通信方法
- 獲得和使用內(nèi)胚層和肝細(xì)胞的組合物和方法
- 用于自動生成遺傳修飾的T細(xì)胞的方法
- 細(xì)胞核圖像輪廓捕獲設(shè)備及其方法
- 細(xì)胞結(jié)構(gòu)體及細(xì)胞結(jié)構(gòu)體的制造方法
- 一種懸浮細(xì)胞培養(yǎng)中去除死細(xì)胞的方法





