[發(fā)明專利]用于識別陽性重排的方法、計算設備和計算機存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202210073465.4 | 申請日: | 2022-01-21 |
| 公開(公告)號: | CN114496073B | 公開(公告)日: | 2022-11-08 |
| 發(fā)明(設計)人: | 王凱;陳惠 | 申請(專利權(quán))人: | 至本醫(yī)療科技(上海)有限公司;上海至本醫(yī)學檢驗所有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/30;G16B40/20 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 張平 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 識別 陽性 重排 方法 計算 設備 計算機 存儲 介質(zhì) | ||
1.一種用于識別陽性重排的方法,包括:
獲取關(guān)于待測樣本的比對結(jié)果數(shù)據(jù),所述比對結(jié)果數(shù)據(jù)包括關(guān)于待測樣本的全基因組比對信息;
在所獲取的比對結(jié)果數(shù)據(jù)中,提取支持多種重排的跨斷點的多個支持讀長;
針對多種重排中的每種重排,記錄支持讀長的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內(nèi)的每個基因組位置上關(guān)于多種堿基的堿基類型數(shù)據(jù),以便生成關(guān)于支持讀長的對應斷點的第一堿基類型數(shù)據(jù);以及
針對多種重排中的每種重排,記錄參考基因組的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內(nèi)的每個基因組位置上關(guān)于多種堿基的堿基類型數(shù)據(jù),以便生成關(guān)于參考基因組的對應斷點的第二堿基類型數(shù)據(jù);
基于針對多種重排的支持讀長的對應斷點第一堿基類型數(shù)據(jù)和參考基因組的對應斷點的第二堿基類型數(shù)據(jù),生成輸入特征;以及
經(jīng)由重排預測模型,提取所生成的輸入特征的特征,以便生成關(guān)于陽性重排的預測結(jié)果,所述重排預測模型是基于深度學習模型所構(gòu)建的,并且所述重排預測模型是經(jīng)由多樣本訓練的,
其中生成關(guān)于支持讀長的對應斷點的第一堿基類型數(shù)據(jù)包括:
針對多種重排中的每種重排的第一基因區(qū)段的斷點,記錄支持讀長的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內(nèi)的各個基因組位置上關(guān)于多種堿基類型的出現(xiàn)頻數(shù),以便形成第一頻數(shù)特征向量;以及
針對多種重排中的每種重排的第二基因區(qū)段的斷點,記錄支持讀長的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內(nèi)的各個基因組位置上關(guān)于多種堿基類型的出現(xiàn)頻數(shù),以便形成第二頻數(shù)特征向量,所述第一堿基類型數(shù)據(jù)包括第一頻數(shù)特征向量和第二頻數(shù)特征向量,
其中生成關(guān)于參考基因組的對應斷點的第二堿基類型數(shù)據(jù)包括:
針對多種重排中的每種重排的第一基因區(qū)段的斷點,記錄參考基因組的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內(nèi)的各個基因組位置上關(guān)于多種堿基類型的出現(xiàn)頻數(shù),以便形成第三頻數(shù)特征向量;
針對多種重排中的每種重排的第二基因區(qū)段的斷點,記錄參考基因組的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內(nèi)的各個基因組位置上關(guān)于多種堿基類型的出現(xiàn)頻數(shù),以便形成第四頻數(shù)特征向量,所述第二堿基類型數(shù)據(jù)包括第三頻數(shù)特征向量和第四頻數(shù)特征向量。
2.根據(jù)權(quán)利要求1所述的方法,其中所述預定長度大于或者等于300bp,所述多種堿基包括A堿基、T堿基、C堿基、G堿基和未知堿基。
3.根據(jù)權(quán)利要求1所述的方法,其中預定長度為400bp,所述多種堿基包括A堿基、T堿基、C堿基、G堿基。
4.根據(jù)權(quán)利要求1所述的方法,其中生成關(guān)于支持讀長的對應斷點的第一堿基類型數(shù)據(jù)還包括:
確定支持讀長的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內(nèi)的當前基因組位置上是否出現(xiàn)多種堿基類型中的任一種堿基類型;
響應于確定所述當前基因組位置上出現(xiàn)多種堿基類型中的任一種堿基類型,基于所出現(xiàn)的堿基類型,使得與當前基因組位置所關(guān)聯(lián)的多個特征值中的對應特征值為第一預定值;以及
響應于確定所述當前基因組位置上未出現(xiàn)多種堿基類型中的任一種堿基類型,使得與當前基因組位置所關(guān)聯(lián)的多個特征值均為第二預定值。
5.根據(jù)權(quán)利要求1所述的方法,其中記錄參考基因組的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內(nèi)的各個基因組位置上關(guān)于多種堿基類型的頻數(shù)包括:
確定參考基因組的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內(nèi)的當前基因組位置上是否出現(xiàn)多種堿基類型中的任一種堿基類型;
響應于確定所述當前基因組位置上出現(xiàn)多種堿基類型中的任一種堿基類型,基于所出現(xiàn)的堿基類型,使得與當前基因組位置所關(guān)聯(lián)的多個特征值中的對應特征值為第一預定值;以及
響應于確定所述當前基因組位置上未出現(xiàn)多種堿基類型中的任一種堿基類型,使得與當前基因組位置所關(guān)聯(lián)的多個特征值均為第二預定值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于至本醫(yī)療科技(上海)有限公司;上海至本醫(yī)學檢驗所有限公司,未經(jīng)至本醫(yī)療科技(上海)有限公司;上海至本醫(yī)學檢驗所有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210073465.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





