[發明專利]一種借助支持向量機建立過敏原家族特征肽的過敏原的預測方法有效
| 申請號: | 201110302532.7 | 申請日: | 2011-10-09 |
| 公開(公告)號: | CN102346817A | 公開(公告)日: | 2012-02-08 |
| 發明(設計)人: | 陶愛林;張利達;鄒澤紅;黃于藝 | 申請(專利權)人: | 廣州醫學院第二附屬醫院 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 陳衛 |
| 地址: | 510260 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 借助 支持 向量 建立 過敏原 家族 特征 預測 方法 | ||
1.一種借助支持向量機建立過敏原家族特征肽的過敏原的預測方法,其特征在于:包括以下步驟:
步驟1:數據庫的建立,
從各過敏原數據庫經過篩選得到的過敏原序列和非過敏原序列作為數據庫;
步驟2:?過敏原家族特征肽的提取,
針對過敏原序列進行聚類分析,在形成的每一過敏原家族中,過敏原序列按照每相隔1-10個堿基用滑動窗口分成6-32個堿基長度的肽段,然后用所得肽段和非過敏原序列進行BLAST?(Basic?Local?Alignment?Search?Tool,?序列基本對齊本地搜索工具),剔除那些與非過敏原相同或相似的片段,而那些和非過敏原序列沒配對的肽段,并且采用BLAST所得的E值低于10-7~10-1時,即是過敏原特征肽(Allergen?Featured?Peptides,?AFPs),而落在同一過敏原上且相鄰的過敏原特征肽拼接后形成由2-30個小的特征肽構成的過敏原家族特征肽(Allergen?Family?Featured?Peptides,?AFFPs);
步驟3:?建立支持向量機模型,
對于一個查詢蛋白X建立特征向量FX?=?fx1,?fx2,?…,?fxn?,?n代表過敏原家族特征肽庫的片段數量,fxi為蛋白X和第i個AFFP進行BLAST后E值均一化的值作為矢量,并轉換為徑向基函數(Radial?Basis?Function,?RBF);?
步驟4:支持向量機模型的性能測定,
采用交叉驗證方法進行測定,即將訓練集隨機均分成n個互不相交的子集,利用n-1個訓練子集,對給定的一組參數建立模型,利用剩下一個子集做測試評估參數性能,即為n倍的內在交叉效度。
2.根據權利要求1所述的借助支持向量機建立過敏原家族特征肽的過敏原的預測方法:步驟3所述對BLAST比對所得的E值x進行均一化,均一化的公式如下:
或,其中C為0~20的常數。
3.根據權利要求1所述的借助支持向量機建立過敏原家族特征肽的過敏原的預測方法,其特征在于:步驟3所述支持向量機是基于結構風險最小化原則的統計,其使用核函數將輸進去的矢量投射到高維特征空間,在空間形成一個超平面,使過敏原和非過敏原得以在超平面兩邊分開,支持向量機的核函數首先經過標準化,以使每個向量在特征空間擁有長度單位1,核函數標準化的公式如下:
。
4.根據權利要求3所述的借助支持向量機建立過敏原家族特征肽的過敏原的預測方法,其特征在于:所述核函數y(X,Y)轉換為徑向基函數RBF?(Radial?Basis?Function)以使形成的平面通過原點,由核函數轉換為徑向基函數RBF的公式如下:
其中,σ是特征空間里陽性的訓練矢量到陰性矢量的歐幾里德距離中值。
5.根據權利要求1所述的借助支持向量機建立過敏原家族特征肽的過敏原的預測方法,其特征在于:步驟4所述支持向量機模型的性能測定采用十倍的內在的交叉效度方法進行測定,計算模型的敏感性(SE)、特異性(SP)、精確度(ACC),馬太相關系數(MCC),而這四個參數的計算公式如下:
其中,真陽性TP代表確定的過敏群體中被程序判定為過敏原的數目;真陰性TN代表確定的非過敏群體中被程序判定為非過敏原的數目;假陰性FN代表確定的過敏群體中被程序判定為非過敏原的數目;假陽性FP確定的非過敏群體中被程序判定為過敏原的數目。
6.根據權利要求1所述的借助支持向量機建立過敏原家族特征肽的過敏原的預測方法,其特征在于:步驟1所述數據庫的建立中過敏原序列是從各過敏原數據庫收集過敏原序列,并移除序列同源性達到80-90%的過敏原后得到的;非過敏原序列是以大米,蘋果,胡蘿卜和人類自身蛋白并經過過敏原篩選后得到的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州醫學院第二附屬醫院,未經廣州醫學院第二附屬醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110302532.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種油田回注水殺菌組合物及其制備方法
- 下一篇:一種抗病毒的組合藥物
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





