[發明專利]一種基于特征選擇的結直腸癌蛋白標志物選擇系統有效
| 申請號: | 202110059973.2 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112885409B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 李玲;楊泰;王霽;梁楫坤;黃玉蘭;張海蓉 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G16B30/00 | 分類號: | G16B30/00;G16B40/00 |
| 代理公司: | 長春吉大專利代理有限責任公司 22201 | 代理人: | 郭佳寧 |
| 地址: | 130012 吉林省長春市*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 選擇 直腸癌 蛋白 標志 系統 | ||
1.一種基于特征選擇的結直腸癌蛋白標志物選擇系統,其特征在于包括數據處理模塊、特征排序模塊和特征選擇模塊,其中數據處理模塊用于采集m個樣本的大腸癌蛋白文本數據,m個樣本分為兩個類別,其中一半樣本為非大腸癌病人樣本,另外一半為大腸癌病人樣本,并對數據進行處理,將每個樣本中非大腸癌表達蛋白的其他蛋白數據刪除,然后從每個樣本中留下的多種大腸癌表達蛋白中挑選出具有代表性的N種大腸癌表達蛋白,隨后分別對m個樣本中的這N種大腸癌表達蛋白的含量進行log2數據轉化得到待用數據,若待用數據中某種大腸癌表達蛋白的含量缺失,則將該缺失的大腸癌表達蛋白的含量記為對應樣本中含量最低蛋白的含量值的5%,得到m個樣本的待排序蛋白特征文本數據;
特征排序模塊用于采集數據處理模塊輸出的m個樣本的待排序蛋白特征文本數據,并計算每個樣本中每種蛋白質的權重,再分別將m個樣本中相同種類蛋白質的權重累計加和,得到每種大腸癌表達蛋白的權重;
特征選擇模塊計算每個樣本中每種蛋白質的特征重要性,并將獲得的特征重要性歸一化,再分別將m個樣本中相同種類蛋白質的特征重要性累計加和,得到每種大腸癌表達蛋白的特征重要性,最后分別將每種蛋白質的特征重要性與該種蛋白質的權重相乘,獲得每種蛋白質的重要性評分,對每種蛋白質的重要性評分歸一化處理得到每種蛋白質的最終重要性評分,將蛋白質的最終重要性評分從大到小進行排序,選擇排名前30的蛋白質作為輸出;
所述特征排序模塊使用ReliefF法計算每種蛋白質的權重,首先按照下式計算m個樣本中每個樣本分別與其他樣本之間的曼哈頓距離:
得到曼哈頓距離矩陣:
其中:dij表示第i個樣本和第j個樣本之間的曼哈頓距離;k為蛋白質的種類,N為樣本中蛋白質的種類數,xik為蛋白質k在第i個樣本中的含量,xjk為蛋白質k在第j個樣本中的含量,m為樣本的數量;
然后按下式計算每個樣本中每種蛋白質的權重:
其中:從m個樣本中隨機選擇一個樣本,然后從和該樣本同類別的其他樣本中尋找c個與其曼哈頓距離最近鄰的樣本,這c個樣本構成NH集;從和該樣本不同類別的樣本中尋找c個與其曼哈頓距離最近鄰的樣本,這c個樣本構成NM集;Wi(Pl)為第i個樣本中第l種蛋白質的權重,St是取自NM集中的一個樣本,dit表示第i個樣本到樣本St之間的曼哈頓距離,NM(Si)為NM集中的第i個樣本,NH(Si)為NH集中的第i個樣本;
將每個樣本中的第l種蛋白質的權重累加得到蛋白質l的最終權重W(Pl):
其中:W(Pl)為蛋白質l在m個樣本中的權重之和,進而得到
所述特征選擇模塊使用Lasso方法按下式計算每個樣本中所有種類蛋白質的特征重要性:
其中:為第n個樣本中所有種類蛋白質特征重要性的集合,Sn為2c+1個樣本中的第n個樣本,yn為Sn的類別,其中Sn的類別為正常細胞時yn為0,Sn的類別為癌癥細胞時yn為1,為Sn中的全部種類蛋白質含量的數據集,λ為固定參數,T代表轉置;
對進行歸一化處理,得到其中:
最后按照下式計算每種蛋白質的重要性評分:
其中:為每種蛋白質的重要性評分集合;
對歸一化處理得到的蛋白質最終重要性評分集合
其中:表示N個蛋白質的重要性評分的累加。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110059973.2/1.html,轉載請聲明來源鉆瓜專利網。





