[發明專利]可包含人造堿基的DNA存儲分層表示與交織編碼方法有效
| 申請號: | 201810573636.3 | 申請日: | 2018-06-06 |
| 公開(公告)號: | CN110569974B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 陳為剛;韓昌彩 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06N3/12 | 分類號: | G06N3/12;H03M13/27 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 包含 人造 堿基 dna 存儲 分層 表示 交織 編碼 方法 | ||
1.可包含人造堿基的DNA存儲分層表示與交織編碼方法,其特征在于,所述編碼方法包含下述步驟:
(1)將用戶二進制比特數據先進行擾碼,然后進行糾錯編碼,得到一系列固定長度的分組糾錯碼;
(2)將每一分組糾錯碼包含的N比特平均分成n個子分組,每個子分組包含的比特數目為N/n,其中n為正整數,是N的因子,N/n也為整數;
(3)根據采用的管核苷酸合成、測序與擴增所用的生化技術方法,確定可用的寡核苷酸的堿基集合,集合大小用正整數b表示;
(4)選擇N/n個堿基組成一個分組,將每個堿基映射為k個比特{b1,b2,…,bk},依次取N/n個堿基的第i個比特組成序列得到第i個長度為N/n的比特序列,i在[1,k]之間取值;
(5)將B個長度為N的分組碼作為一個整體,共包括Bn個子分組,B為正整數;分組碼的編碼碼字對應M個寡核苷酸的分子;分組碼與寡核苷酸分子之間的連接關系采用一個規則二部圖G(V1,V2,E)表示,根據該二部圖的連接關系E,將來自k個長度為N/n的比特序列組成一組寡核苷酸分子序列片段,分子序列片段的長度為N/n;
(6)將組合后的每個分子序列片段增加表示不同分子標號的序列,用于識別不同的序列,序列長度為L個堿基,并增加兩端的引物,引物長度分別為P個堿基,構成完整的寡核苷酸分子,長度為N/n+L+2P;
(7)采用生物化學方法合成寡核苷酸分子,采用單鏈或雙鏈,將寡核苷酸分子的單鏈或雙鏈作為數據存儲介質;
(8)數據讀取時,取一定數量的寡核苷酸分子進行擴增,然后對測序數據進行預處理;
(9)根據預處理后的測序數據,將寡核苷酸分子對應數據部分重新映射為k個比特序列;
其中,所述二部圖G(V1,V2,E)為:
二部圖的一類節點集合V1表示B個分組碼,每個節點的度為n;二部圖的另一類節點集合V2表示M個寡核苷酸分子,根據采用堿基的集合的不同,其節點的度為k;使用符合節點的度的任何二部圖,有Bn=Mk;
二部圖的每一條邊,一端關聯分組碼的一個子塊,另一端關聯一個分子的一層比特序列,完成了分組碼數據到寡核苷酸分子片段的映射;連接到同一個校驗節點的邊關聯到同一個分組碼的不同子塊,連接到同一個變量節點的邊關聯到同一個分子的不同層。
2.根據權利要求1所述的可包含人造堿基的DNA存儲分層表示與交織編碼方法,其特征在于,
所述分子標號采用二進制表示,采用單獨的分組糾錯碼,分組碼的長度為Lk比特,然后將其映射為L個堿基;L和P均為正整數,根據同一DNA池的分子數量以及采用的糾錯碼確定L;P根據分子擴增的需求確定。
3.根據權利要求1所述的可包含人造堿基的DNA存儲分層表示與交織編碼方法,其特征在于,所述根據預處理后的測序數據,將寡核苷酸分子對應數據部分重新映射為k個比特序列具體為:
若某個寡核苷酸分子由于數量較少或標號片段錯誤而丟失,則根據二部圖連接關系將該分組對應的k個分組碼的子塊標記為刪除,分組碼糾錯時采用刪除糾錯方法,提高糾錯性能;
若某片段未丟失,直接根據二部圖連接關系映射到確定位置,以此對分組碼進行糾正刪除與錯誤的譯碼,得到譯碼結果,并進行去擾碼操作,得到原始的二進制數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810573636.3/1.html,轉載請聲明來源鉆瓜專利網。





