[發明專利]一種DNA數據存儲混合錯誤糾正與數據恢復方法有效
| 申請號: | 201910596136.6 | 申請日: | 2019-07-03 |
| 公開(公告)號: | CN110442472B | 公開(公告)日: | 2021-08-13 |
| 發明(設計)人: | 陳為剛;黃剛;韓昌彩;楊晉生 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F11/10 | 分類號: | G06F11/10;G06F16/28 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 dna 數據 存儲 混合 錯誤 糾正 恢復 方法 | ||
本發明公開了一種DNA數據存儲混合錯誤糾正與數據恢復方法,包括:根據雙端讀段重疊部分的編輯距離、標號部分的校驗信息是否正確兩個標準對測序讀段進行篩選;根據已恢復的標號和文件號將讀段進行分簇,將簇內讀段分割為中間重合部分和不重合部分兩部分;若中間重合部分或不重合部分的副本數量大于設定的門限值,采用聚類的方法確定中心序列,否則通過多序列合并確定;將每個讀段對應數據部分的堿基分成若干個預設長度片段,每一個片段根據列序號的奇偶與前后對應的片段進行聯合糾錯;糾錯采用多序列合并最終得到重復碼長度為預設長度片段的可靠恢復。本發明主要解決測序讀段中存在的插入/刪節錯誤,以及采用低測序覆蓋讀段的合并。
技術領域
本發明涉及利用脫氧核糖核酸(DNA)的數據存儲領域,尤其涉及一種DNA數據存儲混合錯誤糾正與數據恢復方法。
背景技術
脫氧核糖核酸(DNA)是一種由脫氧核糖和四種含氮堿基(包括腺嘌呤A、胸腺嘧啶T、胞嘧啶C、鳥嘌呤G)組成的雙鏈結構,是所有生命的遺傳信息載體,控制著生命的發育、延續以及生命機能運作,是自然界天然的、最重要的信息存儲載體。隨著生物技術的發展,尤其是DNA合成與測序技術的發展,利用DNA序列作為數字化數據信息存儲載體,已經具有技術可行性。DNA數字信息存儲指的是把數字化信息存儲于DNA的堿基序列之中,用不同的堿基或堿基組合表示數據。該技術利用寡核苷酸合成儀或高通量的芯片合成技術合成完全人工設計的包含數字信息的DNA序列來存儲數據,利用DNA測序儀來讀取所存儲的信息。
DNA作為存儲介質,與現有的磁帶、硬盤、光盤以及固態Flash等存儲媒介相比具有體積小、密度大,信息保持時間持久等特點。在密度方面,根據有關研究機構的分析,認為DNA存儲的密度與磁盤、磁帶以及固態存儲等相對都有7個數量級的提升;在保持時間方面,如果采用合適的強化存放方法,DNA分子可以存儲上百年,甚至上萬年。DNA存儲的缺點是:合成和讀取DNA所存儲的數字化信息成本較高,但DNA分子的日常存儲成本相對便宜。值得期待的是,目前DNA合成與測序技術發展迅速,其發展速度甚至超過了半導體領域的摩爾定律,因此未來合成和讀取用于存儲的DNA序列的成本有望大幅度降低,成為未來重要的顛覆性存儲方法。
2013年1月,歐洲分子生物學實驗室的生物信息學研究所(EMBL-BMI)的NickGoldman教授團隊在Nature發表的論文中將英文語言文本、擴展ASCII碼對照表的文本、一篇pdf格式論文、JPEG圖片和MP3格式的音頻文件成功的存儲并讀取。在保證可靠性方面,該方案中采用了較為簡單的重復編碼方案。Goldman教授建議的讀取方法的基本流程為:首先,根據同一雙端測序數據中兩條讀段的中間重合部分的91個堿基之間的漢明距離和奇偶校驗信息對測序讀段進行篩選;然后,根據標號和文件號對測序讀段進行分簇,并通過大數合并的方法得到各簇的中心序列;進一步,通過大數合并的方法得到多重覆蓋區域的中心序列;最后,將所有片段進行拼接,并將拼接后的序列進行解碼得到計算機多媒體文件。
該方法已經在中國申請專利,發明人為尼克·高曼,約翰·伯尼,名稱為“DNA中數字信息的高容量存儲”,申請時間為2013年5月31日,申請號為201380028511,本發明主要針對該項專利發明的采用重復碼的DNA數據存儲方法,提供一種優化的讀取數據處理與糾錯恢復方法。
DNA擴增過程中隨機錯誤除替代錯誤外,還包括插入(Insertion)和刪節(Deletion)錯誤。尼克·高曼等提出的讀取方法在數據篩選時使用漢明距離作為篩選條件,可能會將僅發生少量插入或者刪節錯誤的讀段舍棄,減少了用于數據恢復的樣本數量,浪費了合成與測序資源。另一方面,在數據量較少時,直接使用大數合并的方法恢復數據,會造成數據恢復的可靠性降低;如果考慮讀段中的插入或者刪節錯誤,該合并方法無法有效工作。該方案采用了四重重復碼方法,重復碼的合并也存在類似問題。本發明在數據篩選時以編輯距離作為篩選條件,提高了數據的利用率;同時,在數據恢復時,使用聚類或多序列合并的方法,對編輯錯誤進行了糾正,保證了數據恢復的可靠性。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910596136.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





