[發明專利]預測蛋白質RNA結合物熱點的方法、系統及存儲介質在審
| 申請號: | 201810299939.0 | 申請日: | 2018-04-04 |
| 公開(公告)號: | CN108563922A | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 鄧磊;潘玉亮 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22 |
| 代理公司: | 長沙朕揚知識產權代理事務所(普通合伙) 43213 | 代理人: | 何湘玲 |
| 地址: | 410000 *** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽 預測 結合能 存儲介質 結合物 算法 蛋白質 樣本 半監督學習算法 神經網絡算法 生物信息技術 構造分類器 隨機數算法 有效數據集 加權平均 熱點數據 生物實驗 特征集合 投票結果 預測結果 負樣本 訓練集 正樣本 分類 投票 傳播 | ||
1.一種預測蛋白質RNA結合物熱點的方法,其特征在于,包括:
步驟S1、構建蛋白質RNA復合物的初始數據集;
步驟S2、對所述初始數據集進行過濾,篩選出蛋白質RNA結合面上的殘基,并過濾掉蛋白質內部的殘基、以及蛋白質表面殘基;所述蛋白質RNA結合面上的殘基的篩選條件包括:
條件1、單個蛋白質鏈中的殘基溶劑可及性值減去復合物中相對應鏈中的目標殘基的溶劑可及性值的差值大于
條件2、單個蛋白質鏈的各個殘基的溶劑可及性值除以相應殘基最大的溶劑可及性值的比例大于5%;
步驟S3、對所篩選出的蛋白質RNA結合面上的殘基所對應的復合物進行去同源處理,得到用于分類的有效數據集,所述有效數據集包括已明確標簽的一類數據和待明確標簽的二類數據,在所述一類數據中,將結合能大于等于1.0的數據作為正樣本的熱點數據,結合能小于1.0的作為負樣本數據;
步驟S4、根據所述一類數據,采用半監督學習算法中的標簽傳播算法對所述二類數據進行標簽值預測,并將預測后的數據歸入訓練集,所述訓練集還包括部分所述一類數據;同時,從所述一類數據中抽取部分數據構建成測試集;所述訓練集和測試集不存在交集且都含有正樣本和負樣本;
步驟S5、以序列特征、結構特征、殘基相互作用網絡特征和溶劑暴露特征作為特征集,將同一樣本的各個特征值整合到一條特征序列中組合構造成樣本的特征集合;
步驟S6、基于各樣本的特征集合,以極度梯度提升算法、神經網絡算法和極性隨機數算法分別構造分類器以對每個樣本的分類進行投票,然后對各分類器的投票結果進行加權平均得到蛋白質RNA結合面上殘基是否為熱點的預測結果。
2.根據權利要求1所述的預測蛋白質RNA結合物熱點的方法,其特征在于,各所述分類器的投票結果都為0到1之間的概率值,若三個概率值加權平均的最終結果大于或等于0.5,則判定為正樣本,即熱點,反之為非熱點。
3.一種預測蛋白質RNA結合物熱點的系統,包括存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現上述權利要求1或2所述方法的步驟。
4.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現上述權利要求1或2所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810299939.0/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





