[發明專利]一種基于支持向量機預測非編碼DNA的方法及應用平臺在審
| 申請號: | 201811052055.1 | 申請日: | 2018-09-10 |
| 公開(公告)號: | CN109308935A | 公開(公告)日: | 2019-02-05 |
| 發明(設計)人: | 鄒權;何文穎;郭菲;唐繼軍;魏樂義 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00 |
| 代理公司: | 天津市三利專利商標代理有限公司 12107 | 代理人: | 張義 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 支持向量機 非編碼DNA 應用平臺 預測 開發應用 快速識別 模型訓練 數據收集 特征提取 數據處理 準確率 省力 省時 費力 緩解 評估 | ||
1.一種基于支持向量機預測非編碼DNA的方法,其特征在于,所述方法依次含有以下步驟:
步驟1:數據的收集和數據集的建立
收集酵母菌的注釋數據,根據注釋信息提取正樣本集(ncDNA)和負樣本集(cDNA),分別去除序列相似性高的DNA序列,得到非冗余數據集;
步驟2:特征提取
提取正負樣本集的序列信息構造多維特征編碼;
步驟3:模型構建
以支持向量機(SVM)為機器學習算法,整合不同的特征子集進行10-折交叉驗證,并對預測模型進行評估,選擇最優預測模型。
2.根據權利要求1所述的基于支持向量機非預測編碼DNA的方法,其特征在于,所述步驟1中的數據來源于Ensembl project,物種是酵母菌,數據是酵母菌的編碼DNA和非編碼DNA序列;負樣本是從此數據庫中收集注釋的實驗驗證的cDNA,正樣本是相同DNA序列中,截去cDNA后的序列片段。
3.根據權利要求1所述的基于支持向量機非預測編碼DNA的方法,其特征在于,所述步驟1中去除相似性高的序列是采用CD-HIT程序去除高相似性得到相似性小于75%的數據集。
4.根據權利要求1所述的基于支持向量機預測非編碼DNA的方法,其特征在于,所述步驟2中的特征編碼為:4種堿基出現的頻率、16種堿基對出現的頻率、64組三聯體密碼子出現的頻率和K-空格堿基對;DNA序列共有A,C,G,T四種堿基,所述堿基出現的頻率是根據4種堿基在序列片段中出現的頻率進行編碼;所述堿基對出現的頻率是根據16種堿基對在序列中出現的頻率進行編碼;所述三聯體密碼子出現的頻率是根據64組三聯體的出現的頻率進行編碼;任意兩個堿基之間被k個任意堿基隔開之后出現的頻率,也就是K-空格編碼,對于每一個不同的k值,都可以獲得16維的特征編碼。
5.根據權利要求1所述的基于支持向量機預測非編碼DNA的方法,其特征在于,所述步驟3中的以SVM作為機器學習算法進行10-折交叉訓練,10-折交叉驗證方法將樣本集分成10份,每次選擇其中一份來測試模型的性能,剩下的9份用來訓練模型,并以靈敏度(Sn)、特異性(Sp)、準確率(Acc)和馬氏相關系數(MCC)為模型性能的評價指標。
6.一種基于支持向量機預測非編碼DNA的應用平臺,其特征在于,所述應用平臺基于如權利要求1所述的最優預測模型開發,方便用戶使用的識別ncDNA。
7.根據權利要求6所述的一種基于支持向量機預測非編碼DNA的應用平臺,其特征在于,所述應用平臺采用MATLAB軟件和JavaScript編程語言開發的預測平臺ncDNAPred,在使用時,通過用戶在ncDNAPred提交的至少一條FASTA格式的DNA序列,能夠快速預測此序列的編碼類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811052055.1/1.html,轉載請聲明來源鉆瓜專利網。





