[發明專利]一種基于多連體特征的T細胞受體對應表位預測方法有效
| 申請號: | 202010198109.6 | 申請日: | 2020-03-19 |
| 公開(公告)號: | CN111429965B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 王嘉寅;童瑤;楊玲;鄭田;劉濤;李敏;張選平 | 申請(專利權)人: | 西安交通大學;北京吉因加科技有限公司 |
| 主分類號: | G16B15/30 | 分類號: | G16B15/30;G16B30/10;G16B40/00 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 高博 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 連體 特征 細胞 受體 對應 預測 方法 | ||
1.一種基于多連體特征的T細胞受體對應表位預測方法,其特征在于,包括以下步驟:
S1、將CDR3β鏈以及對應的表位解析為長度3的堿基,統計每種三聯體的頻次作為初始特征;
S2、根據步驟S1得到的初始特征建立初始特征矩陣,使用主成分分析法對初始特征矩陣進行降維,進行特征提取,具體為:
S201、將初始特征矩陣記為:X={x1,x2,...,xn},對每一列特征進行中心化,n為樣本數目;
S202、令樣本點xi在新空間中超平面上的投影為WTxi,若所有的樣本點都分開,使投影后樣本點的方差最大化,確定優化目標;
S203、使用拉格朗日乘數法對優化目標件求解,對協方差矩陣XXT進行特征分解,將求得的特征值排序;再取前k個特征值對應的特征向量構成投影矩陣W,最終得到的特征矩陣WTX為一個k行n列的矩陣;
S3、對于n個訓練樣本,輸入預測數據x后,訓練得到梯度提升決策樹模型,通過梯度提升決策樹模型將各個決策樹的決策結果線性組合起來做出預測,具體為:
S301、初始化迭代次數m=0,初始化模型f0(x);
S302、每一次模型迭代在當前模型的基礎上添加一顆決策樹,使用殘差L(y,fm-1(x))估計參數Θm;
S303、令m=m+1,若m小于最大迭代次數,則返回步驟S302;否則,停止訓練,返回以上訓練的所有決策樹,完成表位預測模型訓練;
S4、將步驟S2的特征數據輸入步驟S3訓練好的模型中進行預測,根據不同的預測目的選擇不同的預測指標。
2.根據權利要求1所述的基于多連體特征的T細胞受體對應表位預測方法,其特征在于,步驟S201中,m維列向量xi為:
其中,n是訓練樣本個數,m是特征維數。
3.根據權利要求1所述的基于多連體特征的T細胞受體對應表位預測方法,其特征在于,步驟S202中,優化目標為:
其中,W是投影矩陣,WT是投影矩陣的轉置矩陣,X是初始特征矩陣,XT是初始特征矩陣的轉置。
4.根據權利要求1所述的基于多連體特征的T細胞受體對應表位預測方法,其特征在于,步驟S203中,對優化目標件求解,得到
XXTW=λW
投影矩陣W為:
W=(w1,w2,...,wk)
其中,λ是特征值,wi是投影矩陣的列向量,1≤i≤k,特征值的排序為:λ1≥λ2≥...≥λn。
5.根據權利要求1所述的基于多連體特征的T細胞受體對應表位預測方法,其特征在于,步驟S301中,初始化模型f0(x)為:
其中,N是樣本數量,c是初始模型擬合的常數,L是對數似然損失函數,定義為:
其中,Y為輸出變量,X為輸入變量,L為損失函數,M為表位類別個數,yij是一個二值指標,若類別j是否是輸入示例xi的真實類別,則yij=1;否則yij=0,pij為模型預測輸入實例xi屬于類別j的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學;北京吉因加科技有限公司,未經西安交通大學;北京吉因加科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010198109.6/1.html,轉載請聲明來源鉆瓜專利網。





