[發(fā)明專利]一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202010832292.0 | 申請(qǐng)日: | 2020-08-18 |
| 公開(公告)號(hào): | CN111951889A | 公開(公告)日: | 2020-11-17 |
| 發(fā)明(設(shè)計(jì))人: | 祝小雷;周巍巍;王紅;劉宇峰;陳瀟 | 申請(qǐng)(專利權(quán))人: | 安徽農(nóng)業(yè)大學(xué) |
| 主分類號(hào): | G16B20/30 | 分類號(hào): | G16B20/30;G06N20/10;G06K9/62;G06Q10/04 |
| 代理公司: | 合肥昊晟德專利代理事務(wù)所(普通合伙) 34153 | 代理人: | 王林 |
| 地址: | 230000 *** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 rna 序列 m5c 識(shí)別 預(yù)測(cè) 方法 系統(tǒng) | ||
1.一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法,其特征在于,包括以下步驟:
S1:構(gòu)建基準(zhǔn)數(shù)據(jù)集
建立基準(zhǔn)數(shù)據(jù)集,將基準(zhǔn)數(shù)據(jù)集劃分為兩個(gè)派生數(shù)據(jù)集,分別為訓(xùn)練集與測(cè)試集;
S2:利用特征表示RNA片段
利用KNF、KSNPF和pseDNC三個(gè)特征將基準(zhǔn)數(shù)據(jù)集的RNA片段編碼為特征向量;
S3:對(duì)特征進(jìn)行優(yōu)化選擇
利用NSGAII方法對(duì)步驟S2中的特征向量進(jìn)行優(yōu)化選擇;
S4:構(gòu)建預(yù)測(cè)模型
利用SVM作為學(xué)習(xí)器基于特征向量進(jìn)行訓(xùn)練,建立預(yù)測(cè)模型;
S5:利用模型進(jìn)行預(yù)測(cè)
利用步驟S4中的預(yù)測(cè)模型對(duì)基準(zhǔn)數(shù)據(jù)集中的RNA片段樣本上M5C位點(diǎn)進(jìn)行預(yù)測(cè)。
2.根據(jù)權(quán)利要求1所述的一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法,其特征在于:在所述步驟S1中,基準(zhǔn)數(shù)據(jù)集的生成過程如下:
S11:通過GEO數(shù)據(jù)庫中ID為GSE90963的記錄獲取高閾值的M5C位點(diǎn)信息;
S12:根據(jù)步驟S11中高閾值M5C位點(diǎn)在基因組中的位置信息,截取人類基因轉(zhuǎn)錄組中位于其兩側(cè)各20個(gè)堿基的RNA片段構(gòu)成正樣本,所有的正樣本構(gòu)成的數(shù)據(jù)集被命名為P1;
S13:排除GSE90963中記錄的所有可能的M5C位點(diǎn),根據(jù)基因轉(zhuǎn)錄組中其余的C位點(diǎn)及兩側(cè)各20個(gè)堿基的RNA片段構(gòu)成負(fù)樣本,將該組片段被命名為N1;
S14:使用CD-HIT去除P1中的冗余序列,即生成含有186例陽性樣本的P2;使用CD-HIT去除N1中的冗余序列并從中隨機(jī)選擇186例陰性樣本得到N2;
S15:將各含有186例樣本的P2和N2合并得到基準(zhǔn)數(shù)據(jù)集。
3.根據(jù)權(quán)利要求2所述的一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法,其特征在于:在所述步驟S14中,利用CD-HIT去除P1和N1中的冗余序列,截?cái)嘀捣謩e為0.7。
4.根據(jù)權(quán)利要求1所述的一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法,其特征在于:在所述步驟S1中,訓(xùn)練集包括基準(zhǔn)數(shù)據(jù)集的正樣本和負(fù)樣本中按比例各選取的149個(gè)RNA片段,樣本剩余部分作為測(cè)試集。
5.根據(jù)權(quán)利要求1所述的一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法,其特征在于:在所述步驟S1中,所有數(shù)據(jù)集中RNA片段的長(zhǎng)度均為41個(gè)堿基,將每個(gè)中心堿基處有一個(gè)潛在M5C位點(diǎn)的RNA片段表達(dá)如下:
Rξ(C)=N-ξN-(ξ-1)…N-1CN1…N+(ξ-1)Nξ
其中,N-ξ代表中心胞嘧啶上游的第ξ個(gè)核苷酸,而N+ξ代表中心胞嘧啶下游第ξ個(gè)核苷酸;
將上式簡(jiǎn)化如下:
R20(C)=N1N2…N20CN22…N40N41
其中,Ni(i=1,2,…20,21…41)表示RNA片段的第i位的核苷酸,為RNA中4個(gè)核苷酸堿基中的任意一個(gè),即:
Ni∈{A,C,G,U}
其中,A表示腺嘌呤;C表示胞嘧啶;G表示鳥嘌呤;U表示尿嘧啶。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽農(nóng)業(yè)大學(xué),未經(jīng)安徽農(nóng)業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010832292.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 用于治療RNA依賴性RNA病毒感染的核苷氨基磷酸芳基酯
- 人黑色素瘤細(xì)胞相關(guān)的長(zhǎng)非編碼RNA的RNA干擾靶點(diǎn)RNA及用途
- 無DNA殘留的RNA提取試劑盒及RNA提取方法
- 一種用于非疾病診斷目的的定量檢測(cè)內(nèi)源環(huán)狀RNA的方法
- 一種監(jiān)控總RNA中線狀RNA消除的方法
- 一種利用常規(guī)試劑提取RNA的方法
- 基于雙分子熒光互補(bǔ)的新型信使RNA和環(huán)狀RNA標(biāo)記方法
- 一種通用快速DNA產(chǎn)品中RNA殘留定量方法
- 一種去除高豐度RNA的測(cè)序文庫及其構(gòu)建方法
- 一種G4型歐亞類禽H1N1豬流感病毒滅活疫苗的制備
- 一種植物RNA m5C甲基化修飾的系統(tǒng)及方法
- 渦輪增壓器(M5C)
- m5C甲基化相關(guān)調(diào)節(jié)基因在肝癌預(yù)后預(yù)測(cè)中的應(yīng)用
- 用以對(duì)頭頸癌進(jìn)行監(jiān)測(cè)、療效評(píng)估的生物標(biāo)記物
- 一種RNA序列中M5C位點(diǎn)的識(shí)別預(yù)測(cè)方法及系統(tǒng)
- 一種用于胰腺癌預(yù)后診斷的基因標(biāo)記物
- 茶幾(5M253c)
- m5c修飾調(diào)節(jié)基因組在制備腫瘤預(yù)后評(píng)估試劑或試劑盒中的應(yīng)用
- 一種RNA中m5C和m6A分析的光電化學(xué)傳感裝置及方法
- 煙機(jī)(M5C)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





