[發明專利]基因向量模型訓練方法、分析基因數據的方法及各自裝置在審
| 申請號: | 202010906477.1 | 申請日: | 2020-09-01 |
| 公開(公告)號: | CN112151119A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 蔡元哲 | 申請(專利權)人: | 阿里云計算有限公司 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 趙杰 |
| 地址: | 310024 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基因 向量 模型 訓練 方法 分析 數據 各自 裝置 | ||
本說明書實施例提供基因向量模型訓練方法、分析基因數據的方法及各自裝置,由于所述基因向量模型訓練方法從基因序列數據樣本中提取出基因片段數據,從所述基因片段數據中提取出若干個k?mer,將所述基因片段數據作為所述k?mer的上下文語境以及所述k?mer作為詞輸入詞向量空間模型進行訓練,從而可以得到針對k?mer輸出向量的基因向量模型。
技術領域
本說明書實施例涉及基因分析技術領域,特別涉及基因向量模型訓練方法、分析基因數據的方法。本說明書實施例同時涉及基因向量模型訓練裝置、分析基因數據的裝置,計算設備,以及計算機可讀存儲介質。
背景技術
基因序列數據,例如可以是DNA的堿基對序列,可以是RNA的堿基序列,可以是蛋白質的序列。
以RNA序列為例,RNA序列可以表達一串核酸序列(又叫堿基序列)。RNA序列一共存在四種核苷酸,用A,C,G和T來表示,分別代表腺嘌呤,胞嘧啶,鳥嘌呤,胸腺嘧啶。每個字母代表一種堿基,他們無間隔的排列在一起。每一個物種的RNA序列是不一樣的且有規律的。
通過對物種的基因序列數據進行分析,能夠實現基因序列數據的匹配、檢索、功能區域劃分等目的。但是由于基因序列數據較為復雜,如何能夠高效地分析基因序列數據成為困擾人們的難題。
發明內容
有鑒于此,本說明書施例提供了基因向量模型訓練方法、分析基因數據的方法。本說明書實施例同時涉及基因向量模型訓練裝置、分析基因數據的裝置,計算設備,以及計算機可讀存儲介質,以解決現有技術中存在的技術缺陷。
根據本說明書實施例的第一方面,提供了一種基因向量模型訓練方法,包括:從基因序列數據樣本中提取出基因片段數據;從所述基因片段數據中提取出若干個k-mer;將所述基因片段數據作為所述k-mer的上下文語境以及所述k-mer作為詞輸入詞向量空間模型進行訓練,得到針對k-mer輸出向量的基因向量模型。
可選地,所述從基因序列數據樣本中提取出基因片段數據包括:以預設長度的窗口,且按預設步長移動所述窗口地從基因序列數據樣本中提取出若干個基因片段數據,其中,所述預設步長的長度小于所述預設長度,以使提取的相鄰基因片段數據具有部分重疊區域。
根據本說明書實施例的第二方面,提供了一種基因向量模型訓練裝置,包括:樣本片段提取模塊,被配置為從基因序列數據樣本中提取出基因片段數據;樣本堿基提取模塊,被配置為從所述基因片段數據中提取出若干個k-mer;訓練模塊,被配置為將所述基因片段數據作為所述k-mer的上下文語境以及所述k-mer作為詞輸入詞向量空間模型進行訓練,得到針對k-mer輸出向量的基因向量模型。
根據本說明書實施例的第三方面,提供了一種分析基因數據的方法,包括:從待分析基因序列數據中提取出基因片段數據;從所述基因片段數據中提取出若干個k-mer;通過將所述基因片段數據作為所述k-mer的上下文語境以及所述k-mer作為詞輸入如本說明書任一實施例所述的基因向量模型訓練方法訓練得到的基因向量模型,提取出所述若干個k-mer各自的向量。
可選地,所述方法還包括:將屬于同一基因片段數據的k-mer的向量進行歸一化處理,得到所述基因片段數據的向量。
可選地,所述從待分析基因序列數據中提取出基因片段數據包括:以預設長度的窗口,且按預設步長移動所述窗口地從待分析基因序列數據中提取出若干個基因片段數據,其中,所述預設步長的長度小于所述預設長度,以使提取的相鄰基因片段數據具有部分重疊區域。
可選地,所述方法還包括:基于Doc2vec算法以及所述待分析基因序列數據的若干個k-mer各自的向量,計算出所述待分析基因序列數據的文檔向量。
可選地,所述方法還包括:將所述待分析基因序列數據的向量表達與預設的基因向量庫中的已知基因向量表達進行比較,得到檢索結果集;其中,所述待分析基因序列數據的向量表達是根據所述k-mer的向量確定的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里云計算有限公司,未經阿里云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010906477.1/2.html,轉載請聲明來源鉆瓜專利網。





