[發(fā)明專利]一種分析預(yù)測(cè)癌癥突變影響LIR模體功能的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810378036.1 | 申請(qǐng)日: | 2018-04-25 |
| 公開(公告)號(hào): | CN108763872B | 公開(公告)日: | 2019-12-06 |
| 發(fā)明(設(shè)計(jì))人: | 薛宇;鄧萬(wàn)錕;賈大 | 申請(qǐng)(專利權(quán))人: | 華中科技大學(xué) |
| 主分類號(hào): | G16B15/20 | 分類號(hào): | G16B15/20;G16B35/00;G16B40/00 |
| 代理公司: | 42201 華中科技大學(xué)專利中心 | 代理人: | 許恒恒;李智<國(guó)際申請(qǐng)>=<國(guó)際公布>= |
| 地址: | 430074 湖北*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 突變 癌癥 模體 肽段 候選肽 概率 影響方式 貝葉斯 可選 預(yù)測(cè) 數(shù)據(jù)訓(xùn)練 預(yù)測(cè)模型 分析 研究 | ||
1.一種分析預(yù)測(cè)癌癥突變影響LIR模體功能的方法,其特征在于,包括以下步驟:
(1)利用LIR模體數(shù)據(jù)訓(xùn)練預(yù)測(cè)模型;該模型用于以LIR模體數(shù)據(jù)作為參照物評(píng)價(jià)某一肽段數(shù)據(jù)與這些參照物之間的相似度分?jǐn)?shù);
(2)利用所述步驟(1)得到的預(yù)測(cè)模型,基于生物的正常蛋白質(zhì)序列和該生物的癌癥突變的肽段數(shù)據(jù),對(duì)突變前后的肽段數(shù)據(jù)與所述LIR模體數(shù)據(jù)之間的相似度分別打分;
(3)利用所述步驟(1)得到的預(yù)測(cè)模型對(duì)候選肽段的肽段數(shù)據(jù)進(jìn)行打分,并計(jì)算得出打分結(jié)果與該候選肽段對(duì)應(yīng)的肽段數(shù)據(jù)其屬于真實(shí)LIR模體或非真實(shí)LIR模體的貝葉斯概率之間的關(guān)系;接著,將癌癥突變前后對(duì)應(yīng)的肽段分別作為候選肽段,并將所述步驟(2)得到的對(duì)應(yīng)打分結(jié)果代入所述關(guān)系,從而得到所述癌癥突變前后對(duì)應(yīng)的肽段數(shù)據(jù)的貝葉斯概率;
(4)接著,利用所述步驟(3)得出的所述癌癥突變前后對(duì)應(yīng)的肽段數(shù)據(jù)的貝葉斯概率進(jìn)一步計(jì)算該癌癥突變對(duì)于LIR功能的若干種可選影響方式的概率,進(jìn)而判斷得出該癌癥突變對(duì)于LIR功能的最終影響方式;
并且,所述步驟(3)是先以LIR模體數(shù)據(jù)作為陽(yáng)性數(shù)據(jù),以與所述陽(yáng)性數(shù)據(jù)中任意一個(gè)LIR模體數(shù)據(jù)出現(xiàn)在同一條蛋白上且符合[W/Y/F]XX[L/I/V]序列模式但未被所述陽(yáng)性數(shù)據(jù)涵蓋的肽段數(shù)據(jù)作為陰性數(shù)據(jù),通過對(duì)陽(yáng)性數(shù)據(jù)打分所得分值、以及陰性數(shù)據(jù)打分所得分值分別進(jìn)行擬合正態(tài)分布,從而分別得到陽(yáng)性數(shù)據(jù)和陰性數(shù)據(jù)分值分布的概率密度函數(shù)pdf_p和pdf_n,從而進(jìn)一步在所述步驟(3)中基于陽(yáng)性數(shù)據(jù)分值分布的概率密度函數(shù)pdf_p和陰性數(shù)據(jù)分值分布的概率密度函數(shù)pdf_n得出候選肽段的打分結(jié)果與該候選肽段對(duì)應(yīng)的肽段數(shù)據(jù)其屬于真實(shí)LIR模體或非真實(shí)LIR模體的貝葉斯概率之間的關(guān)系;
所述步驟(3)中,記所述候選肽段為pep,所述預(yù)測(cè)模型對(duì)該候選肽段的肽段數(shù)據(jù)進(jìn)行打分給出的分值為Spep,則該候選肽段其預(yù)測(cè)結(jié)果為真實(shí)LIR模體的概率p(True|Spep)滿足:
該候選肽段其預(yù)測(cè)結(jié)果為非真實(shí)LIR模體的概率p(False|Spep)滿足:
其中,pdf_p(Spep)、pdf_n(Spep)為將Spep分別代入所述概率密度函數(shù)pdf_p和所述概率密度函數(shù)pdf_n對(duì)應(yīng)得到的值,p(True)和p(False)均為預(yù)先設(shè)定的值;
所述步驟(4)中,所述LIR功能的若干種可選影響方式包括突變前屬于真實(shí)LIR模體而突變后屬于非真實(shí)LIR模體、以及突變前屬于非真實(shí)LIR模體而突變后屬于真實(shí)LIR模體兩種情況;所述最終影響方式對(duì)應(yīng)為所述若干種可選影響方式中的概率最大值者。
2.如權(quán)利要求1所述分析預(yù)測(cè)癌癥突變影響LIR模體功能的方法,其特征在于,所述步驟(1)中,所述LIR模體數(shù)據(jù)為多個(gè)LIR模體數(shù)據(jù),任意一個(gè)LIR模體數(shù)據(jù)包括14個(gè)氨基酸,這14個(gè)氨基酸由核心LIR模體的4個(gè)氨基酸、以及該核心LIR模體左側(cè)的6個(gè)氨基酸和右側(cè)的4個(gè)氨基酸構(gòu)成。
3.如權(quán)利要求1所述分析預(yù)測(cè)癌癥突變影響LIR模體功能的方法,其特征在于,所述步驟(2)中,所述生物的正常蛋白質(zhì)序列為人類全蛋白質(zhì)序列,所述生物的癌癥突變的肽段數(shù)據(jù)為人類癌癥突變的肽段數(shù)據(jù)。
4.如權(quán)利要求1所述分析預(yù)測(cè)癌癥突變影響LIR模體功能的方法,其特征在于,所述p(True)為所述步驟(1)得到的預(yù)測(cè)模型利用留一法檢測(cè)得到的ROC曲線的曲線下面積,所述p(False)為1。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810378036.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





