[發明專利]一種基于混合模型的DNA存儲編解碼方法有效

申請號：	201910909449.2	申請日：	2019-09-25
公開（公告）號：	CN110708076B	公開（公告）日：	2022-12-20
發明（設計）人：	畢昆;陸祖宏	申請（專利權）人：	東南大學
主分類號：	H03M7/40	分類號：	H03M7/40;H03M13/15;G06N3/12
代理公司：	南京眾聯專利代理有限公司 32206	代理人：	呂書桁
地址：	210096 ***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于混合模型 dna 存儲解碼方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于混合模型的DNA存儲編解碼方法，包括如下步驟：輸入原始數據進行二進制轉換,并進行霍夫曼編碼壓縮；將文件分為若干列，列首添加地址碼；將DNA存儲四進制和二進制模型混合編碼，并修改初始模型碼；采用RS編碼對模型碼添加糾錯碼，然后對DNA序列進行RS編碼糾錯；重復上述步驟，直至所有序列均完成編碼與糾錯；將所有序列按文件碼和編號碼排序，利用RS編碼對每123列添加4列糾錯序列。本發明方法將傳統的DNA存儲四進制模型與二進制模型混合編碼，編碼潛力達到1.75；相較于四進制模型，能夠更好地控制GC百分比，而與二進制模型相比，存儲能力大大提高。

技術領域

本發明屬于數據存儲技術領域，具體為一種基于混合模型的DNA存儲編解碼方法。

背景技術

全球數據信息總量將由2018年的30ZB增長至2025年的163ZB,該趨勢將很快超過現有硬盤等存儲介質的承受能力。DNA數據存儲技術開辟了一種新的存儲模式,其發展對于節省存儲能源及推進大數據存儲發展有著重要作用。DNA數據存儲近年來逐漸成為全球研究的熱點。包括哈佛大學、哥倫比亞大學、微軟研究院、華盛頓大學和劍橋大學等國內外多家研究機構均展開對DNA存儲的研究。

單位質量的DNA約有1021個堿基,可存儲455EB信息,此信息量為全球一年信息總量的1/4；單位體積的DNA可存儲的信息為整個互聯網的33倍。DNA單位體積的存儲密度是硬盤和存儲器的106倍,是閃存的103倍。DNA存儲時長至少為硬盤、閃存的10倍。同時,它還可以通過聚合酶鏈反應較容易地實現擴增以獲取所需數量的拷貝副本。DNA作為最穩定的儲存設備之一,對于外部環境,如高溫、震蕩等具有極強的抗干擾能力。

DNA存儲編碼模型的研究面臨的困難是存儲效率與合成難度、成本之間的矛盾。存儲效率越高，合成難度越大，成本越高，甚至難以合成。目前相關研究均處于初級階段，數據量較小，對數據編碼多采用單一DNA模型，如二進制、三進制或四進制模型，單一模型適應性較差，存在不同的缺陷。二進制模型存儲效率較低，四進制模型理論存儲效率最高，但存在均聚物過多、GC含量異常等問題，合成困難，三進制模型介于兩者之間，存儲效率有一定提升，合成難度部分下降，但不能解決這兩個問題。

針對以上問題，我們嘗試集合四進制高存儲效率和二進制降低合成難度的優點，進行混合模型編碼，并融合數據壓縮算法和糾錯編碼，在有效解決存儲錯誤，降低合成難度的同時，保持高效的存儲效率。

發明內容

技術問題：針對現有DNA存儲模型存儲效率不高、合成難度較大的問題，通過一種混合模型編碼方案，在有效解決存儲錯誤，通過減少均聚物、控制GC含量等降低合成難度的同時，保持高效的存儲效率。

技術方案：為解決上述問題，本發明公開了一種基于混合模型的DNA存儲編解碼方法，所述方法包括如下步驟：

編碼過程：

輸入原始數據(所有可轉換為二進制的數據均可)。

1.通過二進制轉換，將原始數據轉換為二進制序列。

2.對二進制序列進行霍夫曼編碼壓縮。

3.將壓縮后的二進制文件按每175個二進制數一列，分為若干列。

4.對于每列，按每7個二進制數一組，分為25組，每組前6個二進制數兩兩一組，最后一個二進制數單列。共得到每列150個兩位二進制數和25個單獨的“0”或“1”。

5.每一列列首添加地址碼，包括文件碼(2個二進制數)、編號碼(16個二進制數)和模型碼(8個二進制數)，其中模型碼初值設為“00000000”，每兩個二進制數構成一個兩位二進制數，共13個。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。