[發明專利]雙向三核苷酸位置特異性偏好和點聯合互信息DNA/RNA序列編碼方法有效
| 申請號: | 202011236108.2 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112365924B | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 王明釗;謝娟英;許升全 | 申請(專利權)人: | 陜西師范大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/20;G16B20/30 |
| 代理公司: | 西安永生專利代理有限責任公司 61201 | 代理人: | 申忠才 |
| 地址: | 710062 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 雙向 核苷酸 位置 特異性 偏好 聯合 互信 dna rna 序列 編碼 方法 | ||
一種雙向三核苷酸位置特異性偏好和點聯合互信息DNA/RNA序列編碼方法,由建立DNA/RNA序列核苷酸位置特異性偏好矩陣、建立DNA/RNA序列雙向二核苷酸位置特異性偏好矩陣、建立DNA/RNA序列雙向三核苷酸位置特異性偏好矩陣、確定DNA/RNA序列核苷酸的點聯合互信息值、特征組合、DNA/RNA序列樣本編碼步驟組成。為了從DNA/RNA序列數據中提取更多三核苷酸的位置信息,引入參數β表示當前核苷酸與其前向或后向連續二核苷酸之間的距離,將β不同取值的數值特征向量組合為全局高維數值特征向量,在用于DNA的4mC甲基化位點和RNA的m6A甲基化位點識別中具有非常好的性能。本發明得到的DNA/RNA數值特征數據具有分類信息多、特征間冗余度低、訓練的模型識別準確率高等優點,可用于DNA/RNA序列的編碼。
技術領域
本發明屬于序列數據分析技術領域,具體涉及到DNA/RNA序列編碼方法。
背景技術
DNA/RNA序列編碼方法是一種將DNA/RNA序列數據轉換為數值數據的數據處理方法,在利用機器學習技術解決生物學表觀遺傳位點,如DNA甲基化和RNA甲基化位點識別預測問題過程中發揮著重要的作用。DNA/RNA序列編碼方法能否有效從DNA/RNA序列樣本中提取到包含更多分類識別信息的數值特征直接決定了后續構建的識別預測模型性能的優劣。
已有的DNA/RNA序列編碼方法無法從DNA/RNA序列數據中提取到有效識別表觀遺傳位點的關鍵特征信息,因此基于已有DNA/RNA序列編碼方法建立的預測識別模型性能較差。將多種DNA/RNA序列編碼方法得到的數值特征組合成包含豐富識別信息的高維數值特征,可以解決利用單一DNA/RNA序列編碼方法建立預測識別模型的不足,但會導致組合后高維數值特征的高度冗余和計算資源的浪費,且對模型性能的提升有限。因此,如何將DNA/RNA序列數據編碼為包含有效識別表觀遺傳位點關鍵信息的數值特征,且特征間冗余度較低,是解決生物學表觀遺傳位點識別預測的關鍵,也是目前該領域研究的熱點。
發明內容
本發明所要解決的技術問題在于克服上述已有技術的缺點,提供了一種分類識別信息多、特征間冗余度低、所建立模型識別準確率高的雙向三核苷酸位置特異性偏好和點聯合互信息DNA/RNA序列編碼方法。
解決上述技術問題所采用的技術方案是由以下步驟組成:
(1)建立DNA/RNA序列核苷酸位置特異性偏好矩陣
給定DNA/RNA序列數據集D,該數據集由正類數據集和負類數據集組成。
按下式確定正類數據集的核苷酸位置特異性偏好矩陣
其中,A、C、G、X是DNA/RNA的4種核苷酸,其中,X在DNA中表示核苷酸T,在RNA中表示核苷酸U,i為核苷酸的位置,1≤i≤l,i的取值為有限的正整數,l為DNA/RNA序列樣本的核苷酸長度,l的取值為奇數,分別是正類數據集所有序列樣本第i個位置上核苷酸A、C、G、X的出現頻率。
按下式確定負類數據集的核苷酸位置特異性偏好矩陣
其中,分別是負類數據集所有序列樣本第i個位置上核苷酸A、C、G、X的出現頻率。
(2)建立DNA/RNA序列雙向二核苷酸位置特異性偏好矩陣
按下式確定正類數據集的前向二核苷酸位置特異性偏好矩陣
其中,AA、AC、…、XX為DNA/RNA的4種核苷酸A、C、G、X構成的16種二核苷酸,j為二核苷酸的位置,2≤j≤l-1,j的取值為有限的正整數,分別是正類數據集所有序列樣本第j個位置、第j+1個位置上二核苷酸AA、AC、…、XX的出現頻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于陜西師范大學,未經陜西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011236108.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可調式多功能的組合接頭結構
- 下一篇:一種增加舊地連墻深度的墻體結構施工方法





