[發(fā)明專利]一種基于支持向量機預測非編碼DNA的方法及應用平臺在審
| 申請?zhí)枺?/td> | 201811052055.1 | 申請日: | 2018-09-10 |
| 公開(公告)號: | CN109308935A | 公開(公告)日: | 2019-02-05 |
| 發(fā)明(設計)人: | 鄒權;何文穎;郭菲;唐繼軍;魏樂義 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00 |
| 代理公司: | 天津市三利專利商標代理有限公司 12107 | 代理人: | 張義 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 支持向量機 非編碼DNA 應用平臺 預測 開發(fā)應用 快速識別 模型訓練 數(shù)據(jù)收集 特征提取 數(shù)據(jù)處理 準確率 省力 省時 費力 緩解 評估 | ||
本發(fā)明公開了一種基于支持向量機預測非編碼DNA的方法及應用平臺,方法主要包括:數(shù)據(jù)收集;數(shù)據(jù)處理;特征提取;基于支持向量機的模型訓練與評估。這種方法能夠緩解實驗方法費事費力的壓力。利用上述方法開發(fā)應用平臺,可以快速識別出cDNA和ncDNA,省時省力,提高識別的準確率,使得ncDNA的預測更好的推廣應用。
技術領域
本發(fā)明涉及基于高通量測序技術發(fā)展的背景,為挖掘編碼DNA(cDNA)和非編碼DNA(ncDNA)的信息與知識建立的理論分析和預測的新算法,具體涉及一種基于支持向量機預測非編碼DNA的方法及應用平臺。
背景技術
基因是生物體攜帶和傳遞遺傳信息的基本單位。它的遺傳表現(xiàn)不僅體現(xiàn)在編碼區(qū)序列中,還隱藏在非編碼區(qū)序列中。基因組研究表明,細菌中非編碼區(qū)占到整個基因組序列的10%-20%,高等生物基因組中非編碼區(qū)占到絕大部分。以往的研究大多數(shù)放在編碼區(qū)的功能研究上,對非編碼區(qū)的研究主要是對調控元件的研究。隨著測序技術的發(fā)展,大量研究表明,生物的復雜性與非編碼區(qū)域的長度相關,這些ncDNA在生理與疾病狀態(tài)下特異性轉錄。大部份ncDNA的功能尚不可知,但一些研究表明,絕大多數(shù)癌癥相關基因突變位于非編碼區(qū),但是它們具體如何影響腫瘤的生成還是一個亟待解決的問題。除此之外,基因組中的非編碼序列在DNA修復、免疫作用和基因組的進化過程起著重要的作用。所以,ncDNA從之前被人們忽視的“垃圾”DNA逐漸成為功能組學的研究熱點。
cDNA和ncDNA的識別主要依靠實驗方法,然而傳統(tǒng)的實驗方法費事費力,并且基因組數(shù)據(jù)量龐大,序列類型復雜。在這種背景下,迫切需要建立準確和高效的預測方法,挖掘cDNA和ncDNA的信息和知識。
發(fā)明內容
本發(fā)明的目的是針對現(xiàn)有預測方法不足,提供了一種基于支持向量機預測非編碼DNA的方法及應用平臺。
為實現(xiàn)本發(fā)明的目的,本發(fā)明的技術方案是:
一種基于支持向量機預測非編碼DNA的方法,包括如下步驟:
步驟1:數(shù)據(jù)的收集和數(shù)據(jù)集的建立
從Ensembl project
收集的酵母菌的注釋數(shù)據(jù),根據(jù)注釋信息提取正樣本集(ncDNA)和負樣本集(cDNA),分別去除序列相似性高的DNA序列,得到非冗余數(shù)據(jù)集;
步驟2:特征提取
提取正負樣本集的序列信息構造多維特征編碼;
步驟3:模型構建
以支持向量機(SVM)為機器學習算法,整合不同的特征子集進行10-折交叉驗證,并對預測模型進行評估,選擇最優(yōu)預測模型。
所述步驟1中的注釋數(shù)據(jù)來源于Ensembl project,物種是酵母菌,數(shù)據(jù)是酵母菌的編碼DNA和非編碼DNA序列。負樣本是從此數(shù)據(jù)庫中收集注釋的實驗驗證的cDNA,正樣本是相同DNA序列中,截去cDNA后的序列片段。步驟1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75%的數(shù)據(jù)集。
所述步驟2中的特征編碼為:4種堿基出現(xiàn)的頻率、16種堿基對出現(xiàn)的頻率、64組三聯(lián)體密碼子出現(xiàn)的頻率和K-空格堿基對;DNA序列共有A,C,G,T四種堿基,所述堿基出現(xiàn)的頻率是根據(jù)4種堿基在序列片段中出現(xiàn)的頻率進行編碼;所述堿基對出現(xiàn)的頻率是根據(jù)16種堿基對在序列中出現(xiàn)的頻率進行編碼;所述三聯(lián)體密碼子出現(xiàn)的頻率是根據(jù)64組三聯(lián)體的出現(xiàn)的頻率進行編碼;任意兩個堿基之間被k個任意堿基隔開之后出現(xiàn)的頻率,也就是K-空格編碼。對于每一個不同的k值,都可以獲得16維的特征編碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811052055.1/2.html,轉載請聲明來源鉆瓜專利網。





