[發明專利]一種SNP位點序列特征提取方法在審
| 申請號: | 202110234830.0 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN112992268A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 宋曉宇;馮小蓓;邱澤陽;馮蘭慶;吳鴻陽 | 申請(專利權)人: | 蘭州藍鯨信息技術有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20 |
| 代理公司: | 蘭州錦知源專利代理事務所(普通合伙) 62204 | 代理人: | 勾昌羽 |
| 地址: | 730030 甘肅省蘭州市*** | 國省代碼: | 甘肅;62 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 snp 序列 特征 提取 方法 | ||
1.一種SNP位點序列特征提取方法,包括:
(1)、獲取一段由A、G、C、T組成的長度為L的長串序列S——SNP位點序列;
(2)、將長串序列S任意分解為連續的、長度為k={1,2,3}的子序列,計算每一個子序列的出現頻率,并對應記錄為與k相關的特征向量x;
(3)、通過變分自編碼器的encoder對特征向量x的特征進行學習,將特征向量x編碼成分布,再從分布中進行采樣,得到特征向量x的隱變量向量z;
(4)、解碼隱變量向量z并構造損失函數,通過Adma的隨機梯度下降算法來實現參數優化;
(5)、將隱變量向量z輸入到變分自編碼器的解碼器decoder中進行重構,生成新的特征向量達到降維。
2.如權利要求1所述的方法,其特征在于,
步驟(2)包括:
①、從長串序列的第一個堿基出發,通過一個長度為k,步長為1的滑動窗格將序列分解成多個長度為k的堿基序列;
②、考慮序列由字母表=[A,G,C,T]生成長度為k的序列片段,計算這些片段在SNP位點序列中的出現頻率;
③、由這些頻率值構造特征向量:
當k=l時,即計算字母表中4個字母在SNP序列中的出現頻率,生成一個包含A,G,C,T的4個分量的特征向量;
當k=2時,即計算集合Z=(AA,AG,AC,GG,GA,GC,GT,CC,CG,CA,CT,TG,TA,TC,TT}中的16個雙核苷酸堿基序列在SNP位點序列中的出現頻率,由此構成一個有16個分量的特征向量;
當k=3時,即計算集合Z=(AAT,AGT,...ACT,TCG,TTG}中的64個三核苷酸堿基序列在SNP位點序列中的出現頻率,由此構成一個有64個分量的特征向量。
3.如權利要求1所述的方法,其特征在于,
步驟(3)中,通過變分自編碼器對特征向量x的特征進行學習,獲得特征向量x的均值向量和方差向量,將特征向量x的均值向量和方差向量按照正態分布進行采樣,得到隱變量向量z。
4.如權利要求1所述的方法,其特征在于,
步驟(4)中,構造損失函數可以表示為:
其中,的第一項為正則化項,用于衡量兩個分布的近似程度;第二項為重構誤差,以讓生成數據和原始數據盡可能相近;pθ(z|x)表示的是后驗分布,pθ(z)表示的是先驗分布,pθ(x|z)表示的是固定概率分布;
通過Adma的隨機梯度下降算法來實現在訓練中優化參數,假設有一組函數pθ(x|z)用于由z產生x,每個函數由θ唯一確定,變分自編碼器的目標就是通過優化θ,使得在采樣前提下,最大化x最后產生的概率p(x);根據貝葉斯公式,p(x)可表示為:
p(x)=∫pθ(x|z)pθ(z)dz
其中,pθ(z)表示的是先驗分布,p(x)、pθ(x|z)表示的是固定概率分布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘭州藍鯨信息技術有限公司,未經蘭州藍鯨信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110234830.0/1.html,轉載請聲明來源鉆瓜專利網。





