[發(fā)明專利]一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法及系統(tǒng)在審

申請(qǐng)?zhí)枺?/td>	202010832292.0	申請(qǐng)日：	2020-08-18
公開（公告）號(hào)：	CN111951889A	公開（公告）日：	2020-11-17
發(fā)明（設(shè)計(jì)）人：	祝小雷;周巍巍;王紅;劉宇峰;陳瀟	申請(qǐng)（專利權(quán)）人：	安徽農(nóng)業(yè)大學(xué)
主分類號(hào)：	G16B20/30	分類號(hào)：	G16B20/30;G06N20/10;G06K9/62;G06Q10/04
代理公司：	合肥昊晟德專利代理事務(wù)所(普通合伙) 34153	代理人：	王林
地址：	230000 ***	國省代碼：	安徽;34
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種 rna 序列 m5c 識(shí)別預(yù)測(cè) 方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法，其特征在于，包括以下步驟：

S1：構(gòu)建基準(zhǔn)數(shù)據(jù)集

建立基準(zhǔn)數(shù)據(jù)集，將基準(zhǔn)數(shù)據(jù)集劃分為兩個(gè)派生數(shù)據(jù)集，分別為訓(xùn)練集與測(cè)試集；

S2：利用特征表示RNA片段

利用KNF、KSNPF和pseDNC三個(gè)特征將基準(zhǔn)數(shù)據(jù)集的RNA片段編碼為特征向量；

S3：對(duì)特征進(jìn)行優(yōu)化選擇

利用NSGAII方法對(duì)步驟S2中的特征向量進(jìn)行優(yōu)化選擇；

S4：構(gòu)建預(yù)測(cè)模型

利用SVM作為學(xué)習(xí)器基于特征向量進(jìn)行訓(xùn)練，建立預(yù)測(cè)模型；

S5：利用模型進(jìn)行預(yù)測(cè)

利用步驟S4中的預(yù)測(cè)模型對(duì)基準(zhǔn)數(shù)據(jù)集中的RNA片段樣本上M5C位點(diǎn)進(jìn)行預(yù)測(cè)。

2.根據(jù)權(quán)利要求1所述的一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法，其特征在于：在所述步驟S1中，基準(zhǔn)數(shù)據(jù)集的生成過程如下：

S11：通過GEO數(shù)據(jù)庫中ID為GSE90963的記錄獲取高閾值的M5C位點(diǎn)信息；

S12：根據(jù)步驟S11中高閾值M5C位點(diǎn)在基因組中的位置信息，截取人類基因轉(zhuǎn)錄組中位于其兩側(cè)各20個(gè)堿基的RNA片段構(gòu)成正樣本，所有的正樣本構(gòu)成的數(shù)據(jù)集被命名為P1；

S13：排除GSE90963中記錄的所有可能的M5C位點(diǎn),根據(jù)基因轉(zhuǎn)錄組中其余的C位點(diǎn)及兩側(cè)各20個(gè)堿基的RNA片段構(gòu)成負(fù)樣本，將該組片段被命名為N1；

S14：使用CD-HIT去除P1中的冗余序列,即生成含有186例陽性樣本的P2；使用CD-HIT去除N1中的冗余序列并從中隨機(jī)選擇186例陰性樣本得到N2；

S15：將各含有186例樣本的P2和N2合并得到基準(zhǔn)數(shù)據(jù)集。

3.根據(jù)權(quán)利要求2所述的一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法，其特征在于：在所述步驟S14中，利用CD-HIT去除P1和N1中的冗余序列，截?cái)嘀捣謩e為0.7。

4.根據(jù)權(quán)利要求1所述的一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法，其特征在于：在所述步驟S1中，訓(xùn)練集包括基準(zhǔn)數(shù)據(jù)集的正樣本和負(fù)樣本中按比例各選取的149個(gè)RNA片段,樣本剩余部分作為測(cè)試集。

5.根據(jù)權(quán)利要求1所述的一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法，其特征在于：在所述步驟S1中，所有數(shù)據(jù)集中RNA片段的長(zhǎng)度均為41個(gè)堿基,將每個(gè)中心堿基處有一個(gè)潛在M5C位點(diǎn)的RNA片段表達(dá)如下：

R_ξ(C)＝N_-ξN_-(ξ-1)…N_-1CN₁…N_+(ξ-1)N_ξ

其中，N_-ξ代表中心胞嘧啶上游的第ξ個(gè)核苷酸,而N_+ξ代表中心胞嘧啶下游第ξ個(gè)核苷酸；

將上式簡(jiǎn)化如下：

R₂₀(C)＝N₁N₂…N₂₀CN₂₂…N₄₀N₄₁

其中，N_i(i＝1,2,…20,21…41)表示RNA片段的第i位的核苷酸,為RNA中4個(gè)核苷酸堿基中的任意一個(gè),即：

N_i∈{A,C,G,U}

其中，A表示腺嘌呤；C表示胞嘧啶；G表示鳥嘌呤；U表示尿嘧啶。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽農(nóng)業(yè)大學(xué)，未經(jīng)安徽農(nóng)業(yè)大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010832292.0/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】