[發明專利]一種基于評分機制與LightGBM的CircRNA功能預測方法在審
| 申請號: | 201910246871.4 | 申請日: | 2019-09-17 |
| 公開(公告)號: | CN112530520A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 鄧怡云;王高平;戴憲華 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G16B20/30 | 分類號: | G16B20/30;G16B30/00;G16B40/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 評分 機制 lightgbm circrna 功能 預測 方法 | ||
為克服現有技術的不足,本發明的目的在于利用評分機制結合LightGBM方法對circRNA的功能進行預測。本發明為解決其問題所采用的技術方案主要步驟是:(1)將大數據樣本的circRNA以(.bed)文件形式輸入。(2)將circRNA(.bed)文件映射到全人類基因組(hg19版本)上,得到circRNA序列信息(.fasta)文件。(3)提出了一種特征融合算法,對CircRNA特征進行融合。(4)將特征輸入至A類判決系統,將編碼蛋白型circRNA區分出來。(5)其它CircRNA分別經過三個模型,依照順序判別CircRNA各項功能,得到預測概率值。(6)根據評分機制,將上述所得到的三個預測概率值,通過B類判決系統,得到最終的circRNA功能分類預測結果。
技術領域
本發明涉及生物信息學技術領域,特別是涉及CircRNA功能預測的領域。
背景技術
CircRNA在生物學中具有多種功能,如富含miRNA結合位點,在細胞中起到了海綿體的作用;通過與蛋白質結合來調控蛋白質的活性;有些CircRNA甚至可以被翻譯成蛋白質。因此它也成為了近年來比較重要的潛在生物標記物,而對于其功能的識別是一件繁瑣的事情,傳統方法常利用實驗法根據CircRNA已存在的多種功能對新CircRNA的功能進行一一檢驗,這種方法費時費力,并且對于大批量的CircRNA功能識別十分困難。目前暫未有任何一種方法來提前預測CircRNA的功能,從而針對性地檢驗其某種功能,進而分析它在臨床醫學中的具體作用。
發明內容
為克服現有技術的不足,本發明的目的在于利用評分機制結合LightGBM方法對CircRNA的功能進行預測。它充分利用已發現的CircRNA各種功能的大數據信息,從機器學習的方法訓練出模型,利用模型,可實現只需要簡便輸入需要進行功能預測的DNA或RNA 相關序列,就可以預測出CircRNA具有哪一種具體的功能,經實驗驗證準確率高達85%以上,極大地省去了對新發現的CircRNA的所有功能—檢驗所浪費的實驗時間和器材損耗的經濟成本,能對實驗項目的進行起到事半功倍的效果。
本發明為解決其問題所采用的技術方案主要步驟是:
S1.將大數據樣本的CircRNA以(.bed)文件形式輸入,其中包含染色體號、序列起始位點、正負鏈標記。
S2.將CircRNA(.bed)文件根據起始位點等相關信息映射到全人類基因組(hg19版本)上。得到具體的CircRNA序列信息(.fasta)文件。
S3.提出了一種特征融合算法,用于根據CircRNA所表達的具體功能作為特征標簽,并且提取相應功能的表達過程中相關的所有特征作為特征向量,進行融合處理。如miRNA結合位點、甲基化、連接數等特征。
S4.將相關的特征輸入至判斷“編碼蛋白型”CircRNA的A類判決系統,并根據A類判決系統的流程將“編碼蛋白型”CircRNA區分出來。
S5.在S4中判定為“非編碼蛋白型”的CircRNA,將繼續進入下一步的判決,分別經過三個由LightGBM二分類算法所構建的模型,依照順序判別CircRNA各項功能。經過三個系統分別得到一個預測概率值。
S6.根據評分機制,將上述所得到的三個預測概率值,通過我們提出的B類判決系統中的“可信值計算”得到相應的分數,再通過評分機制輸出最終的CircRNA功能分類預測結果。
S7.在整個過程中,對于三個LightGBM算法所構建的二分類模型,我們通過調整樹的最大深度max_depth、葉子可能具有的最小記錄數min_data_in_leaf、每次迭代時用的數據比例bagging_fraction等參數,以獲取模型最佳參數。
與現有技術相比,本發明的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910246871.4/2.html,轉載請聲明來源鉆瓜專利網。





