[發明專利]用于識別陽性重排的方法、計算設備和計算機存儲介質有效
| 申請號: | 202210073465.4 | 申請日: | 2022-01-21 |
| 公開(公告)號: | CN114496073B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 王凱;陳惠 | 申請(專利權)人: | 至本醫療科技(上海)有限公司;上海至本醫學檢驗所有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/30;G16B40/20 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 張平 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 識別 陽性 重排 方法 計算 設備 計算機 存儲 介質 | ||
本公開涉及一種用于識別陽性重排的方法、計算設備和計算機存儲介質。該方法包括:獲取關于待測樣本的比對結果數據;提取支持多種重排的跨斷點的多個支持讀長;針對多種重排中的每種重排,記錄支持讀長的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內的每個基因組位置上關于多種堿基的堿基類型數據,以便生成關于支持讀長的對應斷點的第一堿基類型數據;以及生成關于參考基因組的對應斷點的第二堿基類型數據;基于第一堿基類型數據和第二堿基類型數據,生成輸入特征;以及經由重排預測模型生成關于陽性重排的預測結果。本公開能夠自動、高通量地并且高準確性地識別陽性重排。
技術領域
本公開總體上涉及生物信息處理,并且具體地,涉及用于識別陽性重排的方法、計算設備和計算機存儲介質。
背景技術
融合基因(或者簡稱“重排”)是指兩個或者多個基因聯合起來,一起轉錄形成一個轉錄本。準確檢測陽性融合基因可以作為某些疾病的特異分子標記。例如,BCR/ABL融合基因存在于95%以上的慢性粒細胞白血病患者中,因此,BCR/ABL融合基因可以用于慢性粒細胞白血病的特異分子標記。再例如,AML1/ETO融合基因主要存在于急性粒細胞白血病部分分化型患者中,因此AML1/ETO融合基因可以用于協助急性粒細胞白血病部分分化型的輔助診斷。還例如,針對NTRK融合靶點的LOXO-101的靶向藥物對泛癌種具有廣泛的藥效,有數據表明,其可以達到整體70-80%的癌癥控制率。因此,準確識別陽性重排具有重要的臨床應用意義。
傳統的識別陽性重排的方案例如包括:利用重排calling軟件識別重排/融合變異結果,但是上述重排/融合變異結果通常包含一定的假陽性,不適于對于假陽性需要嚴格控制的臨床應用。為了嚴格控制上述經由重排calling軟件所識別的重排/融合的假陽性,通常會利用IGV可視化方式、經由人工檢查來確認重排/融合的真假。
傳統的識別陽性重排的方案針對在有限時間內識別大批量樣本陽性重排的情形,需要耗費巨大的人力,在有限人力的情況下會明顯推延獲得識別結果的時間,進而延誤臨床應用的寶貴時機。
綜上,傳統的識別陽性重排的方案存在的不足之處在于,難以自動、高通量地并且高準確性地識別陽性重排。
發明內容
本公開提供一種用于識別陽性重排的方法、計算設備和計算機存儲介質,能夠自動、高通量地并且高準確性地識別陽性重排。
根據本公開的第一方面,提供了一種用于識別陽性重排的方法。該方法包括:獲取關于待測樣本的比對結果數據,比對結果數據包括關于待測樣本的全基因組比對信息;在所獲取的比對結果數據中,提取支持多種重排的跨斷點的多個支持讀長;針對多種重排中的每種重排,記錄支持讀長的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內的每個基因組位置上關于多種堿基的堿基類型數據,以便生成關于支持讀長的對應斷點的第一堿基類型數據;以及針對多種重排中的每種重排,記錄參考基因組的對應斷點之前預定長度和對應斷點之后的預定長度范圍之內的每個基因組位置上關于多種堿基的堿基類型數據,以便生成關于參考基因組的對應斷點的第二堿基類型數據;基于針對多種重排的支持讀長的對應斷點第一堿基類型數據和參考基因組的對應斷點的第二堿基類型數據,生成輸入特征;以及經由重排預測模型,提取所生成的輸入特征的特征,以便生成關于陽性重排的預測結果,重排預測模型是基于深度學習模型所構建的,并且重排預測模型是經由多樣本訓練的。
根據本發明的第二方面,還提供了一種計算設備,該設備包括:存儲器,被配置為存儲一個或多個計算機程序;以及處理器,耦合至存儲器并且被配置為執行一個或多個程序使裝置執行本公開的第一方面的方法。
根據本公開的第三方面,還提供了一種非瞬態計算機可讀存儲介質。該非瞬態計算機可讀存儲介質上存儲有機器可執行指令,該機器可執行指令在被執行時使機器執行本公開的第一方面的方法。
在一些實施例中,預定長度大于或者等于300bp。多種堿基包括A堿基、T堿基、C堿基、G堿基和未知堿基。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于至本醫療科技(上海)有限公司;上海至本醫學檢驗所有限公司,未經至本醫療科技(上海)有限公司;上海至本醫學檢驗所有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210073465.4/2.html,轉載請聲明來源鉆瓜專利網。





