[發明專利]一種RNA結構比對方法在審
| 申請號: | 201810039783.2 | 申請日: | 2018-01-16 |
| 公開(公告)號: | CN108334748A | 公開(公告)日: | 2018-07-27 |
| 發明(設計)人: | 劉士勇;鄭進芳 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F19/18 | 分類號: | G06F19/18;G06F19/22 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 許恒恒;李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 比對 比對結果 核苷酸 矩陣 相似性分數 空間距離 三級結構 序列比對 方差 疊加 收斂 引入 統一 | ||
本發明公開了一種RNA比對方法。該方法包括獲得RNA初始比對結果;根據RMscore進行打分;計算比對上的核苷酸的空間距離,直到小于的核苷酸對不再變化為止;獲取收斂矩陣,直到獲得穩定的RNA三級結構比對結果。本發明的RNA結構比對方法能獲得疊加好的結構和序列比對結果。該方法RMalign不依賴于RNA長度,通過引入RMscore,相比于現有技術的方法使得RNA比對更加的精確;本發明將描述RNA之間的相似性統一到(0,1)這個區間中,減少了描述RNA相似性分數的方差。
技術領域
本發明屬于結構比對領域,具體的,涉及到一種RNA結構比對程序。
背景技術
為了揭示RNA之間結構與功能的關系,就需比較RNA結構之間的相似,還得有一個量來描述這些RNA結構上的相似性。在目前的RNA采用的各種不同的方法來比對RNA的結構。第一種方法是將RNA看成一個是歸一化的向量,然后再疊合這些向量。第二種方法是將RNA看成是三維空間中的一條曲線,結合RNA的序列信息變成一個四位的空間,然后使用測地線距離來描述RNA結構的相似性。第三種方法是將三維的RNA結構離散成一維的結構。然后使用傳統的序列比對的方法來比對這些結構上的相似性。但是這些RNA結構比對的存在著如下問題:缺乏一個歸一化的且不依賴RNA長度的分數來描述RNA結構間的相似度;缺乏一個方便使用的方法來比對RNA結構。
在蛋白質領域,已經存在著一個這樣的一個比對方法TMalign,由于蛋白質和RNA在物化上存在著差異,完全使用蛋白質領域中的方法會得到一個錯誤的比對結果。因此我們針對現有技術的缺陷,基于TMalign,開發了一個RNA結構比對的方法RMalign。相對于TMalign,我們更新由于表示蛋白質和RNA物化上差異的參數。從而得到了一個描述RNA結構之間相似性的特異性分數RMscore,基于RMscore,我們得到用一個專門比對RNA結構的方法RMalign。
發明內容
針對現有技術的缺陷,本發明提供了一種RNA結構比對的方法RMalign,RMalign依靠RMscore分數來描述RNA結構之間的相似度。其目的在于解決當前RNA結構比對方法中依賴RNA長度的分數來描述RNA結構間的相似度問題。
本發明提供了一種RNA結構比對方法,包括以下步驟:
(1)將比對RNA和被比對RNA進行序列比對,得到初始序列比對結果,使用疊加算法計算所述初始序列比對結果,得到平移向量和旋轉矩陣R;
(2)將步驟(1)得到的平移向量和旋轉矩陣R根據作用到被比對RNA原始結構上后,與比對RNA進行疊加形成疊加好的結構A1;所述指的是被比對RNA的空間坐標;
(3)將步驟(2)得到的疊加好的結構A1根據公式得到距離矩陣S(i,j);其中dij是比對RNA核苷酸序列的第i個堿基和被比對RNA核苷酸序列的第j個堿基的距離;其中d0由公式計算得到,LN指的是比對RNA和被比對RNA片段的平均核苷酸個數,A、B、C、D、E和F是任意正數;
(4)將步驟(3)得到的距離矩陣作為打分矩陣,并將比對RNA和被比對RNA進行序列比對,得到第一序列比對結果;
(5)將步驟(4)中得到的第一序列比對結果使用RMscore打分過程進行打分,得到最大的RMscore分數以及對應的旋轉矩陣R1;所述RMscore打分過程包括以下步驟:
(S1)選取步驟(4)中所述第一序列比對結果中比對上的核苷酸對片段,所述片段至少含有3對連續的比對上的核苷酸對,將所述片段的核苷酸對質心均移動到原點,將疊加算法運用到質心移動到原點的片段上,得到旋轉矩陣R2;
(S2)根據的方式作用到被比對RNA原始結構上后,與比對RNA形成疊加好的結構A2;所述是被比對的RNA空間坐標;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810039783.2/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建?;蚍抡妫纾焊怕誓P突騽討B模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





