[發明專利]一種基于信息熵的基因序列數字化實現方法及系統在審
| 申請號: | 201910133090.4 | 申請日: | 2019-02-22 |
| 公開(公告)號: | CN109903812A | 公開(公告)日: | 2019-06-18 |
| 發明(設計)人: | 李君一;張麗;平原;李輝年;許清哲;王榮杰;劉博;王亞東 | 申請(專利權)人: | 哈爾濱工業大學(深圳) |
| 主分類號: | G16B25/10 | 分類號: | G16B25/10;G16B40/10 |
| 代理公司: | 深圳市道勤知酷知識產權代理事務所(普通合伙) 44439 | 代理人: | 何兵;饒盛添 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 滑動窗口 脫氧核糖核酸DNA 基因序列 堿基 信息熵 拓撲 數字化 外顯子區域 堿基位置 數字序列 重復計算 子串 輸出 預測 | ||
1.一種基于信息熵的基因序列數字化實現方法,其特征在于,包括:
輸入脫氧核糖核酸DNA序列,設定滑動窗口的長度1及子串長度n;
根據所述設定的滑動窗口的長度1,從所述輸入的脫氧核糖核酸DNA序列的第一個堿基開始,步長為1;
計算所述設定的滑動窗口內的給定子串長度下的拓撲熵大小,賦值給所述設定的滑動窗口內的堿基;
重復計算所述設定的滑動窗口內的給定子串長度下的拓撲熵大小,賦值給所述設定的滑動窗口內的堿基,直到到達所述輸入的脫氧核糖核酸DNA序列的最后一個堿基位置;
輸出得到同所述輸入的脫氧核糖核酸DNA序列長度的數字序列。
2.如權利要求1所述的基于信息熵的基因序列數字化實現方法,其特征在于,所述計算所述設定的滑動窗口內的給定子串長度下的拓撲熵大小,包括:
根據原始脫氧核糖核酸DNA序列ω剪切長度為nω的脫氧核糖核酸DNA序列;
遍歷ω序列,i從n-k+1循環到k,并同時保存子串長度為i的不同子串數目;
如果子串長度為i的子串數目小于則不保存所述子串數目;
計算對應子串長度為i的拓撲熵
根據所述計算得到的對應子串長度為i的拓撲熵求得廣義拓撲熵HGT(ω)。
3.如權利要求2所述的基于信息熵的基因序列數字化實現方法,其特征在于,所述根據所述計算得到的對應子串長度為i的拓撲熵求得廣義拓撲熵HGT(ω),包括:
根據所述計算得到的對應子串長度為i的拓撲熵假設脫氧核糖核酸DNA序列ω是一個由A、C、G、T四個字符組成的無限長序列,求得廣義拓撲熵HGT(ω)為:
其中,i為子串長度,Pω(i)為序列ω中長度為i的不同子序列子串的個數,αik表示當子串長度為i時的廣義拓撲熵權重,k為給定的權重計算個數,也是子串長度變化數量:
且
其中,需滿足對任意的ε>0及任意I,存在K使得所有k≤K,滿足
4.如權利要求2所述的基于信息熵的基因序列數字化實現方法,其特征在于,所述根據所述計算得到的對應子串長度為i的拓撲熵求得廣義拓撲熵HGT(ω),包括:
根據所述計算得到的對應子串長度為i的拓撲熵假設脫氧核糖核酸DNA序列ω是長度為|ω|的有限序列,令nω為所述序列的最長子串長度且滿足k為指定的子串長度變化數量并且k≤n,通過截取序列ω的前個字符,求得廣義拓撲熵HGT(ω)為:
其中,i為子串長度,Pω(i)為序列ω中長度為i的不同子序列子串的個數,αik表示當子串長度為i時的廣義拓撲熵權重,k為給定的權重計算個數。
5.如權利要求2所述的基于信息熵的基因序列數字化實現方法,其特征在于,所述根據所述計算得到的對應子串長度為i的拓撲熵求得廣義拓撲熵HGT(ω),包括:
根據所述計算得到的對應子串長度為i的拓撲熵假設同對DNA序列ω,求得廣義拓撲熵HGT(ω)為::
其中,i為子串長度,Pω(i)為序列ω中長度為i的不同子序列子串的個數,αik表示當子串長度為i時的廣義拓撲熵權重,k為給定的權重計算個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳),未經哈爾濱工業大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910133090.4/1.html,轉載請聲明來源鉆瓜專利網。





