[發明專利]一種基于混合模型的DNA存儲編解碼方法有效

申請號：	201910909449.2	申請日：	2019-09-25
公開（公告）號：	CN110708076B	公開（公告）日：	2022-12-20
發明（設計）人：	畢昆;陸祖宏	申請（專利權）人：	東南大學
主分類號：	H03M7/40	分類號：	H03M7/40;H03M13/15;G06N3/12
代理公司：	南京眾聯專利代理有限公司 32206	代理人：	呂書桁
地址：	210096 ***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于混合模型 dna 存儲解碼方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于混合模型的DNA存儲編解碼方法，其特征在于：所述方法包括如下步驟：

1）輸入原始數據，進行二進制轉換；

2）對轉換后的二進制序列進行霍夫曼編碼壓縮；將壓縮后的二進制文件按每175個二進制數一列，分為若干列；每列按每7個二進制數一組，分為25組，每組前6個二進制數兩兩一組，最后一個二進制數單列；

3）每一列列首添加地址碼，包括文件碼、編號碼和模型碼，其中模型碼初值設為“00000000”，每兩個二進制數構成一個兩位二進制數，共13個；

4）對所有的兩位二進制數進行DNA四進制模型編碼，單個二進制數進行DNA模型二進制編碼；根據編碼結果，將DNA存儲四進制模型和二進制模型混合編碼，構建144種混合模型；

5）根據確定的混合模型編號，修改對應序列的模型碼；采用RS糾錯編碼對模型碼添加長度為10堿基的糾錯碼，插入模型碼之后；

6）對步驟5得到的DNA序列進行RS編碼糾錯，添加長度為4堿基的糾錯碼，置于序列尾部，得到含有127堿基的DNA序列；

7）重復步驟3）至6），直至所有序列均完成編碼與糾錯；

8）將完成編碼的所有序列按文件碼和編號碼排序，每123列組成一個127行*123列的矩陣，其中123列表示123列已完成編碼的連續編號DNA序列，127行表示DNA序列的127個堿基；然后，從模型碼開始，逐行進行RS編碼糾錯，糾錯碼長度為4個堿基，生成127*127的矩陣，即每123列DNA序列后，添加4列糾錯序列；糾錯序列前9列添加獨立索引，按混合模型1編碼；

9）解碼過程為編碼的反向過程，將測序得到的堿基序列按文件碼和編號碼排序，糾錯序列按順序插入其中，重新構建127*127矩陣，首先進行RS編碼的行解碼，根據4列糾錯序列進行錯誤堿基糾正；然后對123列數據存儲序列，每一列進行RS解碼；最后對每一列的模型碼進行RS解碼；

10）對每一列堿基按照模型碼編號，選擇對應的混合模型，解碼轉換為對應二進制序列；

11）全部解碼完成后將二進制序列按照文件碼和編號碼拼接，刪除地址碼和糾錯碼，得到存儲信息的二進制文件；

12）對二進制文件進行霍夫曼解碼，得到初始二進制序列，將初始二進制序列重新生成為輸入文件。

2.基于權利要求1所述的基于混合模型的DNA存儲編解碼方法，其特征在于，所述原始數據為任何可以轉換為二進制的數據。

3.基于權利要求1所述的基于混合模型的DNA存儲編解碼方法，其特征在于，所述二進制文件的劃分中，每一條數據長度需要是7的整數倍，每列按每7個二進制數一組，分為25組，每組前6個二進制數兩兩一組，最后一個二進制數單列。

4.基于權利要求1所述的基于混合模型的DNA存儲編解碼方法，其特征在于，所述地址碼包括文件碼、編號碼、模型碼。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于東南大學，未經東南大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910909449.2/1.html，轉載請聲明來源鉆瓜專利網。