[發(fā)明專利]一種基于支持向量機預測非編碼DNA的方法及應用平臺在審

申請?zhí)枺?/td>	201811052055.1	申請日：	2018-09-10
公開（公告）號：	CN109308935A	公開（公告）日：	2019-02-05
發(fā)明（設計）人：	鄒權;何文穎;郭菲;唐繼軍;魏樂義	申請（專利權）人：	天津大學
主分類號：	G16B30/00	分類號：	G16B30/00;G16B40/00
代理公司：	天津市三利專利商標代理有限公司 12107	代理人：	張義
地址：	300072***	國省代碼：	天津;12
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	支持向量機非編碼DNA 應用平臺預測開發(fā)應用快速識別模型訓練數(shù)據(jù)收集特征提取數(shù)據(jù)處理準確率省力省時費力緩解評估
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種基于支持向量機預測非編碼DNA的方法及應用平臺，方法主要包括：數(shù)據(jù)收集；數(shù)據(jù)處理；特征提取；基于支持向量機的模型訓練與評估。這種方法能夠緩解實驗方法費事費力的壓力。利用上述方法開發(fā)應用平臺，可以快速識別出cDNA和ncDNA，省時省力，提高識別的準確率，使得ncDNA的預測更好的推廣應用。

技術領域

本發(fā)明涉及基于高通量測序技術發(fā)展的背景，為挖掘編碼DNA(cDNA)和非編碼DNA(ncDNA)的信息與知識建立的理論分析和預測的新算法，具體涉及一種基于支持向量機預測非編碼DNA的方法及應用平臺。

背景技術

基因是生物體攜帶和傳遞遺傳信息的基本單位。它的遺傳表現(xiàn)不僅體現(xiàn)在編碼區(qū)序列中，還隱藏在非編碼區(qū)序列中。基因組研究表明，細菌中非編碼區(qū)占到整個基因組序列的10％-20％，高等生物基因組中非編碼區(qū)占到絕大部分。以往的研究大多數(shù)放在編碼區(qū)的功能研究上，對非編碼區(qū)的研究主要是對調控元件的研究。隨著測序技術的發(fā)展，大量研究表明，生物的復雜性與非編碼區(qū)域的長度相關，這些ncDNA在生理與疾病狀態(tài)下特異性轉錄。大部份ncDNA的功能尚不可知，但一些研究表明，絕大多數(shù)癌癥相關基因突變位于非編碼區(qū)，但是它們具體如何影響腫瘤的生成還是一個亟待解決的問題。除此之外，基因組中的非編碼序列在DNA修復、免疫作用和基因組的進化過程起著重要的作用。所以，ncDNA從之前被人們忽視的“垃圾”DNA逐漸成為功能組學的研究熱點。

cDNA和ncDNA的識別主要依靠實驗方法，然而傳統(tǒng)的實驗方法費事費力，并且基因組數(shù)據(jù)量龐大，序列類型復雜。在這種背景下，迫切需要建立準確和高效的預測方法，挖掘cDNA和ncDNA的信息和知識。

發(fā)明內容

本發(fā)明的目的是針對現(xiàn)有預測方法不足，提供了一種基于支持向量機預測非編碼DNA的方法及應用平臺。

為實現(xiàn)本發(fā)明的目的，本發(fā)明的技術方案是：

一種基于支持向量機預測非編碼DNA的方法，包括如下步驟：

步驟1：數(shù)據(jù)的收集和數(shù)據(jù)集的建立

從Ensembl project

收集的酵母菌的注釋數(shù)據(jù)，根據(jù)注釋信息提取正樣本集(ncDNA)和負樣本集(cDNA)，分別去除序列相似性高的DNA序列，得到非冗余數(shù)據(jù)集；

步驟2：特征提取

提取正負樣本集的序列信息構造多維特征編碼；

步驟3：模型構建

以支持向量機(SVM)為機器學習算法，整合不同的特征子集進行10-折交叉驗證，并對預測模型進行評估，選擇最優(yōu)預測模型。

所述步驟1中的注釋數(shù)據(jù)來源于Ensembl project，物種是酵母菌，數(shù)據(jù)是酵母菌的編碼DNA和非編碼DNA序列。負樣本是從此數(shù)據(jù)庫中收集注釋的實驗驗證的cDNA,正樣本是相同DNA序列中，截去cDNA后的序列片段。步驟1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75％的數(shù)據(jù)集。

所述步驟2中的特征編碼為：4種堿基出現(xiàn)的頻率、16種堿基對出現(xiàn)的頻率、64組三聯(lián)體密碼子出現(xiàn)的頻率和K-空格堿基對；DNA序列共有A,C,G,T四種堿基，所述堿基出現(xiàn)的頻率是根據(jù)4種堿基在序列片段中出現(xiàn)的頻率進行編碼；所述堿基對出現(xiàn)的頻率是根據(jù)16種堿基對在序列中出現(xiàn)的頻率進行編碼；所述三聯(lián)體密碼子出現(xiàn)的頻率是根據(jù)64組三聯(lián)體的出現(xiàn)的頻率進行編碼；任意兩個堿基之間被k個任意堿基隔開之后出現(xiàn)的頻率，也就是K-空格編碼。對于每一個不同的k值，都可以獲得16維的特征編碼。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于天津大學，未經天津大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811052055.1/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】