[發(fā)明專利]基于小樣本的多組學(xué)數(shù)據(jù)中基因型與表型關(guān)聯(lián)分析方法有效
| 申請?zhí)枺?/td> | 202110288323.5 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN113192556B | 公開(公告)日: | 2022-04-26 |
| 發(fā)明(設(shè)計)人: | 郭新鵬;宋亞飛;劉帥忱;劉樹慧;王藝菲;尚學(xué)群 | 申請(專利權(quán))人: | 西北工業(yè)大學(xué);中國人民解放軍空軍工程大學(xué) |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B40/30;G16B40/20;G16B50/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 樣本 多組學(xué) 數(shù)據(jù) 基因型 表型 關(guān)聯(lián) 分析 方法 | ||
1.基于小樣本的多組學(xué)數(shù)據(jù)中基因型與表型關(guān)聯(lián)分析方法,其特征在于,具體包括下列步驟:
第一步,利用蛋白質(zhì)網(wǎng)絡(luò)和基因表達值生成帶權(quán)無向基因關(guān)聯(lián)圖,并利用SPICi聚類方法對該帶權(quán)無向基因關(guān)聯(lián)圖進行聚類,生成基因簇;
利用蛋白質(zhì)網(wǎng)絡(luò)數(shù)據(jù)及基因表達數(shù)據(jù)生成帶有權(quán)重的基因網(wǎng)絡(luò)圖;采用SPICi聚類方法對生成的基因網(wǎng)絡(luò)圖進行聚類;SPICi方法有三個超參,分別為最小聚類數(shù)值minimumcluster size、最小支持閾值minimum support threshold、最小聚類密度minimumcluster density;三個參數(shù)共同影響著聚類的個數(shù)及每個聚類元素個數(shù);對三個超參的設(shè)定再作進一步分析;
最小聚類數(shù)值(minimum cluster size)的作用是通過與各聚類中所包含基因個數(shù)比較來決定該聚類的去留,即聚類中元素個數(shù)大于最小聚類數(shù)值則保留該聚類,否則舍棄該聚類;若將最小聚類數(shù)值設(shè)定過小,則達不到捕捉基因間關(guān)聯(lián)關(guān)系的目的,但過大又會誤刪聚類簇;根據(jù)對不同數(shù)據(jù)測試,最終將最小聚類數(shù)值設(shè)定為[4,6]這樣的區(qū)間范圍;在基因網(wǎng)絡(luò)圖G=(V,E)中,V代表基因網(wǎng)絡(luò)圖G中所有頂點集合,E代表基因網(wǎng)絡(luò)圖G中所有邊的集合;對于任意頂點u和與u相連的頂點集合定義support:
support(u,S)指與頂點u相連的所有邊權(quán)重之和,wu,v代表頂點u與頂點v之間邊的權(quán)重;用兩個頂點向量的皮爾森相關(guān)系數(shù)代表邊的權(quán)重,對所求解的皮爾森相關(guān)系數(shù)取絕對值,由此wu,v∈(0,1],將最小支持閾值定為[0.4,0.7]的區(qū)間范圍;聚類密度density(S)的定義為邊權(quán)值的總和除以可能的邊個數(shù)的總數(shù),來反映子圖的緊密程度;公式如下:
將最小聚類密度參數(shù)取值范圍設(shè)定為[0.1,0.6];
第二步,利用group Lasso方法對基因簇進行篩選;
由于基因本身基數(shù)大,由第一步所得基因簇數(shù)量相對較多,利用分組最小角回歸算法對基因簇和表型做回歸運算;若基因簇為L組,則由Lasso回歸中對每個特征的選擇推廣為分組最小角回歸算法中對每組特征的選擇,其目標(biāo)函數(shù)如下:
其中λ為正則化參數(shù),控制整體懲罰的力度,X,Y分別為自變量和因變量矩陣,β為系數(shù)向量,而βl為每組系數(shù)向量,是每一組的加權(quán),按需調(diào)節(jié);如果βl=0,則對應(yīng)該基因簇被剔除,反之,若βl≠0,則對應(yīng)該基因簇保留,此操作達到基因簇篩選的目的;
第三步,通過eQTL數(shù)據(jù)得到篩選后的基因簇所對應(yīng)的SNP簇;
通過第二步篩選出系數(shù)不為零的基因簇,而這些基因簇則被認為最有可能對表型產(chǎn)生影響;這些基因簇導(dǎo)致疾病的主要原因是簇中基因上的差異位點影響產(chǎn)生,故需再建立SNP與基因間的關(guān)聯(lián)關(guān)系,這樣便能夠完整的反映基因型與表型通路關(guān)系;GTEx數(shù)據(jù)中的數(shù)量性狀基因表達位點eQTL是反映各個組織中的SNP與基因間關(guān)聯(lián)關(guān)系,在eQTL數(shù)據(jù)中查找與每個簇中基因關(guān)聯(lián)的SNP信息,這樣便得到基因簇所對應(yīng)的SNP簇;
第四步,將每個SNP簇、所對應(yīng)的基因簇及表型構(gòu)建為一個三層網(wǎng)絡(luò)類塊,對每個類塊中SNP與基因關(guān)聯(lián)關(guān)系采用稀疏偏最小二乘方法進行回歸運算,對基因與表型關(guān)聯(lián)關(guān)系采用邏輯回歸進行運算;
將對應(yīng)的SNP簇、基因簇及表型組合為一個三層網(wǎng)絡(luò),將其稱之為類塊block,每個類塊構(gòu)建一個三層網(wǎng)絡(luò);在處理各類塊SNP與基因關(guān)聯(lián)關(guān)系時,同時考慮層內(nèi)及層間關(guān)聯(lián)關(guān)系;解決SNP與基因關(guān)聯(lián)關(guān)系問題的方法是用稀疏偏最小二乘方法SPLS;解決基因與表型關(guān)聯(lián)關(guān)系則采用邏輯回歸的方法完成;
第五步,對各類塊所得預(yù)測結(jié)果求平均,得到最終預(yù)測結(jié)果;
通過第四步構(gòu)建多個類塊進行預(yù)測分析,各類塊間并不存在強依賴關(guān)系,能夠同時進行并行化運算,對各類塊所得預(yù)測結(jié)果求平均,得到最終預(yù)測結(jié)果。
2.如權(quán)利要求1所述的基于小樣本的多組學(xué)數(shù)據(jù)中基因型與表型關(guān)聯(lián)分析方法,其特征在于,在第一步的實驗的過程中,以0.1的遞增度對最小聚類密度參數(shù)進行參數(shù)測試。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北工業(yè)大學(xué);中國人民解放軍空軍工程大學(xué),未經(jīng)西北工業(yè)大學(xué);中國人民解放軍空軍工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110288323.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于多組學(xué)豐度信息的蛋白質(zhì)二級質(zhì)譜鑒定方法
- 基于病例多組學(xué)變異特征的精準(zhǔn)醫(yī)學(xué)知識搜索系統(tǒng)及實現(xiàn)方法
- 一種多組學(xué)數(shù)據(jù)聯(lián)合分析的方法
- 一種從多組學(xué)數(shù)據(jù)中分析關(guān)聯(lián)變化模式的系統(tǒng)和方法
- 多組學(xué)數(shù)據(jù)擾動云
- 基于D-S證據(jù)理論進行多組學(xué)數(shù)據(jù)集成的癌癥亞型分類方法
- 一種非小細胞肺癌患者術(shù)后復(fù)發(fā)相關(guān)性因素研究方法
- 一種基于深度學(xué)習(xí)的多組學(xué)智能診斷系統(tǒng)
- 用于癌癥基因組和臨床數(shù)據(jù)綜合分析的多組學(xué)搜索引擎
- 單組學(xué)及多組學(xué)KEGG PATHWAY map表達熱圖個性化展示的方法及應(yīng)用
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





