[發(fā)明專利]一種跨芯片平臺的基因表達數(shù)據(jù)整合方法有效
| 申請?zhí)枺?/td> | 201410044121.6 | 申請日: | 2014-01-30 |
| 公開(公告)號: | CN103745137B | 公開(公告)日: | 2017-03-15 |
| 發(fā)明(設(shè)計)人: | 杭興宜;陳勝 | 申請(專利權(quán))人: | 思博奧科生物信息科技(北京)有限公司 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 北京匯知杰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11587 | 代理人: | 蔡倫,楊巍 |
| 地址: | 100070 北京市豐臺*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 芯片 平臺 基因 表達 數(shù)據(jù) 整合 方法 | ||
?
技術(shù)領(lǐng)域
本發(fā)明屬于生物信息技術(shù)領(lǐng)域,特別是基因表達數(shù)據(jù)分析領(lǐng)域。
背景技術(shù)
目前,微陣列芯片已經(jīng)發(fā)展成為系統(tǒng)研究生物學(xué)問題的常用高通量實驗技術(shù),并且有不同類型的芯片平臺及其制造廠商。多年來,已經(jīng)積累了大量的芯片數(shù)據(jù)集如美國國立生物技術(shù)信息中心NCBI的GEO芯片數(shù)據(jù)庫和歐洲生物信息研究所EBI的ArrayExpress芯片數(shù)據(jù)庫。其中,NCBI?GEO芯片數(shù)據(jù)已收集了大約1,008,760個樣本共12,090個實驗的數(shù)據(jù),EBI?ArrayExpress芯片數(shù)據(jù)已收集了43,124個實驗共計1,223,250個微陣列芯片數(shù)據(jù)。由于芯片實驗的價格相對昂貴,樣本收集耗費工作量等客觀原因,大多數(shù)科研項目僅會選擇相對少量的樣本進行實驗甚至僅進行一個樣本的檢測,因此未能嚴格滿足科學(xué)實驗設(shè)計的要求,使得結(jié)果的可信度不足。所以,怎樣合理充分的利用現(xiàn)有的數(shù)據(jù)資源,篩選與自己研究目相同相近的芯片數(shù)據(jù)進行整合分析研究成為一個亟需解決的問題。對于來自同一芯片平臺的數(shù)據(jù)可以較直接地進行數(shù)據(jù)整合,但對于不同類型芯片間的數(shù)據(jù)整合目前還沒有一個行之有效的方法。
已有基因表達數(shù)據(jù)整合的研究,其算法的步驟如下:1)?芯片數(shù)據(jù)預(yù)處理進行l(wèi)og2轉(zhuǎn)換;2)?根據(jù)不同芯片平臺間信號的最大值,確定兩款芯片間的基因表達轉(zhuǎn)化的比值;3)?整合兩個芯片間共同存在的基因;4)?消除實驗批次影響。上述算法中存在以下缺點:1)?芯片預(yù)處理方法對后續(xù)的分析至關(guān)重要,僅僅log2轉(zhuǎn)化而忽略了采用了何種背景校正方法;2)?評估基因在兩個平臺間表達的線性關(guān)系時,僅僅考慮了芯片的最大表達值,而未考慮基因在不同區(qū)段間的線性比例不同;3)?沒有對數(shù)據(jù)進行樣本間中值和方差標準化,不利于數(shù)據(jù)間的比較。
鑒于上述原因,本領(lǐng)域中仍然需要克服上述一項或多項缺點的跨芯片平臺的基因表達數(shù)據(jù)整合方法。
發(fā)明內(nèi)容
在第一方面中,本發(fā)明提供一種跨芯片平臺的基因表達數(shù)據(jù)整合方法。包括以下步驟:
步驟1:獲得要整合的兩個或多個基因芯片平臺表達數(shù)據(jù),對于每個基因芯片平臺而言,表達數(shù)據(jù)為一個矩陣,矩陣的每一行表示一個基因,矩陣的每一列表示一個被檢測的樣本。
步驟2:對兩個或多個基因芯片平臺中共同存在基因,生成合并的基因表達矩陣,矩陣的每一行表示一個共同存在基因,矩陣的列由所述不同基因芯片平臺檢測的樣本構(gòu)成,每一列表示一個被檢測的樣本。
步驟3:基于基因在所述合并的基因表達矩陣中的表達模式相似性將基因分割為多個基因子集。
步驟4:對于步驟3得到基因子集,利用基因子集內(nèi)基因在所述每個不同芯片平臺的表達值,得出不同芯片平臺的表達線性關(guān)系,利用所述關(guān)系將所述不同芯片平臺的基因表達值標準化到同一變化范圍,得到標準化后的基因表達矩陣。
在一個具體的實施方案中,本發(fā)明是這樣實現(xiàn)的,主要包括如下流程:
步驟1:獲得要整合的兩個或多個基因芯片平臺表達數(shù)據(jù),對于每個基因芯片平臺而言,表達數(shù)據(jù)為一個矩陣,矩陣的每一行表示一個基因,矩陣的每一列表示一個被檢測的樣本。
步驟2:對兩個或多個基因芯片平臺中共同存在的基因,生成合并的基因表達矩陣,矩陣的每一行表示一個共同存在基因,矩陣的列由所述不同基因芯片平臺檢測的樣本構(gòu)成,每一列表示一個被檢測的樣本。
步驟3:基于基因在所述合并的基因表達矩陣中的表達模式相似性將基因分割為m個基因子集。
步驟4:對于步驟3得到每個基因子集,計算基因子集內(nèi)基因在所述每個不同芯片平臺的表達值均值,利用下式得出不同芯片平臺在該基因子集內(nèi)的表達線性關(guān)系????????????????????????????????????????????????,其中s表示m個基因子集中的一個子集,exps1是由基因子集s內(nèi)基因在芯片平臺1中的表達值均值構(gòu)成的數(shù)組,exps2指基因子集s內(nèi)基因在芯片平臺2中的表達值均值構(gòu)成的數(shù)組,采用最小二乘法估計,,其中h為基因子集s包含的基因數(shù);利用公式將所述不同芯片平臺的基因表達值標準化到同一變化范圍,得到標準化的基因表達矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思博奧科生物信息科技(北京)有限公司,未經(jīng)思博奧科生物信息科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410044121.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建?;蚍抡妫纾焊怕誓P突騽討B(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓撲,用結(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用





