[發明專利]一種基于基因芯片數據的疾病影響因素的挖掘方法有效
| 申請號: | 201710595987.X | 申請日: | 2017-07-20 |
| 公開(公告)號: | CN107301331B | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 孫艷春;喬子健 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G16B25/10 | 分類號: | G16B25/10;G16B40/00 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 王巖 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 基因芯片 數據 疾病 影響 因素 挖掘 方法 | ||
1.一種基于基因芯片數據的疾病影響因素的挖掘方法,其特征在于,所述挖掘方法包括以下步驟:
1)數據拆分:
按照被測試者中的正常人和患者,將原始數據進行有效拆分,拆分成患者樣本和正常人樣本;
2)初步分析:
初步分析包括數據摘要、標準確定和初步結構:
a)數據摘要:數據摘要包括樣本大小、原始數據維度和各維度的意義;
b)標準確定:在分析前確定以下三個標準:一)探針在單一檢測樣本中為有效表達的評定標準——該探針所對應的探針數據的檢測p值的上限p0,認為當p<p0時,該探針在該單一檢測樣本中的表達被檢測到且探針數據有效;二)探針在正常人樣本或患者樣本中被確定為有效表達的評定標準——該探針在正常人樣本或患者樣本中為有效表達的占比r的下限r0,即認為當r≥r0時,該探針在正常人樣本或患者樣本中為有效表達,且其所對應的探針數據有效;三)探針在正常人樣本或患者樣本中被確定為有效不表達的評定標準——該探針在正常人樣本或患者樣本中為有效表達的占比r的上限r1,即認為當r≤r1時,該探針在正常人樣本或患者樣本中為有效不表達;當一個探針的有效表達占比在r0與r1之間時,認為該探針為不顯著探針,將該探針數據被作為無效數據忽略;
c)初步結果:根據步驟b)的標準,找到在患者樣本中有效表達而在正常人樣本中有效不表達的差異探針集合,以及在正常人樣本中有效表達而在患者樣本中有效不表達的差異探針集合,從而形成初步結果;
3)數據過濾:
經過初步分析后,僅在患者樣本或正常人樣本中有效表達的探針與在兩個樣本中均有效不表達的探針將被過濾,而在兩個樣本中均有效表達的探針,探針數據為有效數據,進入步驟4),分析有效數據的不同表達強度;
4)數據補全:
在兩個樣本中均有效表達的探針中,存在部分探針數據的檢測p值不滿足評定標準p0,這些探針的檢測強度數據將被看作是缺失值,對缺失值進行補全;
5)數據合并:
將完成補全的患者樣本和正常人樣本進行合并,形成完整數據,對完整數據進行標準化處理后,對于患者樣本和正常人樣本貼上不同的標簽,作為步驟6)中核心選擇器的輸入;
6)設計核心選擇器:
將檢測樣本的不同探針看作是樣本的不同特征,從而將問題歸納成“特征選擇”問題,確定基選擇器的輸出、選擇基選擇器和組合基選擇器,從而形成核心選擇器:
a)基選擇器的輸出:基選擇器的輸出設計為其對所有特征的評分,由于各基選擇器的評分根據不同,所以各基選擇器在得到各特征的原始評分后,先將其歸一化到0~1之間再輸出,以此來消除評分標準不同帶來的差異;
b)選擇基選擇器:從過濾式方法的選擇器、包裹式方法的選擇器和嵌入式方法的選擇器中選出多個選擇器作為基選擇器;
c)組合基選擇器:各基選擇器評分的加權求和即為各特征的總評分,第i個基選擇器的權重wi為:其中ei為第i基選擇器的誤差率,計算方法為:其中,Ei為利用基選擇器i得到的評分最高的m個特征來執行二聚類K-means算法后,聚類結果與真實類別標簽所產生的誤差個數,n為樣本總數,acci為基選擇器i在模型訓練中通過交叉驗證得到的最優準確率,m為≥1的自然數;
7)按照步驟6)設計的核心選擇器執行選擇算法;
8)結果輸出:
核心選擇器選出得分最高的前m個探針,之后利用基因芯片平臺數據得到每個探針對應的基因名稱,再通過層次聚類,得到結果。
2.如權利要求1所述的挖掘方法,其特征在于,在步驟2)中,檢測p值的上限p0在0~0.05之間。
3.如權利要求1所述的挖掘方法,其特征在于,在步驟2)中,占比r的下限r0在0.7~1之間。
4.如權利要求1所述的挖掘方法,其特征在于,在步驟2)中,占比r的上限r1在0~0.3之間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710595987.X/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





