[發明專利]基于Xgboost的全基因組RNA二級結構預測方法在審
| 申請號: | 201811314747.9 | 申請日: | 2018-11-06 |
| 公開(公告)號: | CN109215740A | 公開(公告)日: | 2019-01-15 |
| 發明(設計)人: | 肖儂;柯耀斌;饒家華;楊躍東;陳志廣;盧宇彤 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00 |
| 代理公司: | 廣州潤禾知識產權代理事務所(普通合伙) 44446 | 代理人: | 凌衍芬 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 堿基 配對 機器學習模型 二級結構 概率分數 堿基位點 全基因組 序列片段 測試集 訓練集 預測 測試 判斷依據 樣本數據 正負樣本 負樣本 正樣本 加載 算法 | ||
1.基于Xgboost的全基因組RNA二級結構預測方法,其特征在于,包括步驟:
獲取RNA序列和所述RNA序列中堿基位點配對的可能性值;
配對的可能性值高的堿基及其上下游一定長度的堿基結合形成的序列片段作為正樣本;配對的可能性值低的堿基及其上下游一定長度的堿基結合形成的序列片段作為負樣本,所述正樣本、負樣本組合成樣本數據集;
將樣本數據集劃分為訓練集和測試集,將所述訓練集和測試集加載至基于Xgboost算法建立的機器學習模型,對機器學習模型進行訓練與測試;
利用訓練與測試后的機器學習模型進行RNA二級結構的預測。
2.根據權利要求1所述的基于Xgboost的全基因組RNA二級結構預測方法,其特征在于,配對的可能性值高的堿基及其上下游一定長度的堿基結合形成的序列片段作為正樣本;配對的可能性值低的堿基及其上下游一定長度的堿基結合形成的序列片段作為負樣本的步驟包括:
通過獨熱編碼的方式對RNA序列編碼;
編碼后的所述RNA序列中堿基位點配對的可能性值從高到低排序,篩選出前a個堿基作為配對的可能性值高的堿基,篩選出后b個堿基作為配對的可能性值低的堿基;
可能性值高的堿基與其上游的長度為c的堿基序列、下游的長度為c的堿基序列組成序列片段,序列片段作為正樣本并賦予標簽“1”;
可能性值低的堿基與其上游的長度為d的堿基序列、上游的長度為d的堿基序列組成序列片段,序列片段作為負樣本并賦予標簽“0”。
3.根據權利要求2所述的基于Xgboost的全基因組RNA二級結構預測方法,其特征在于,所述a=b。
4.根據權利要求2所述的基于Xgboost的全基因組RNA二級結構預測方法,其特征在于,通過獨熱編碼的方式對RNA序列編碼的步驟包括:
RNA序列由腺嘌呤A、尿嘧啶U、鳥嘌呤G、胞嘧啶C四種堿基構成;
對四種堿基進行編碼,具體為:RNA序列中的腺嘌呤A=(1,0,0,0),尿嘧啶U=(0,1,0,0),胞嘧啶C=(0,0,1,0),鳥嘌呤G=(0,0,0,1),RNA序列的開頭與結尾缺少堿基的部分以(0,0,0,0)作為補長。
5.根據權利要求1所述的基于Xgboost的全基因組RNA二級結構預測方法,其特征在于,將所述訓練集和測試集加載至基于Xgboost算法建立的機器學習模型,對機器學習模型進行訓練與測試的步驟包括:利用訓練集對機器學習模型進行訓練;利用測試集對機器學習模型測試其預測的RNA序列上每一個堿基位點會形成配對的概率分數;
所述概率分數的預測模型為:
其中,K為樹的總個數,fk為第k棵決策樹的評估函數,為樣本數據xi的預測結果;
預測模型的目標函數為:
其中,y=(y0,y1,…,yi,yn)是作為訓練集的RNA序列中每一個序列片段的特征向量x=(x0,x1,…,xn)所對應的真實類別,yi=0代表未配對的堿基位點,yi=1代表配對的堿基位點,為樣本數據xi的訓練誤差,為損失函數,Ω(fk)表示第k棵樹的正則項。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811314747.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:阿爾茨海默癥相關基因的預測方法
- 下一篇:生物信息可視化裝置及方法





