[發明專利]一種識別顯著差異表達基因集合的方法無效
| 申請號: | 200810019862.3 | 申請日: | 2008-03-19 |
| 公開(公告)號: | CN101250584A | 公開(公告)日: | 2008-08-27 |
| 發明(設計)人: | 王進;顧祖光;楊嶸;張辰宇 | 申請(專利權)人: | 南京大學 |
| 主分類號: | C12Q1/68 | 分類號: | C12Q1/68;G06F19/00 |
| 代理公司: | 南京蘇高專利商標事務所 | 代理人: | 柏尚春 |
| 地址: | 210093江蘇省南京市漢口路*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 顯著 差異 表達 基因 集合 方法 | ||
技術領域
本發明涉及高通量生物芯片基因表達檢測方法,特別涉及基因表達譜芯片 檢測中一種識別顯著差異表達基因集合的方法。
背景技術
高通量生物芯片檢測是對生物體各過程、各狀態進行各個層次的快速、并 行、大信息量檢測的先進技術。可以廣泛應用于疾病預警、尋找新的疾病基因、 以及分子生理和分子病理研究等方面。其關鍵技術之一是顯著差異表達基因集 合的識別。目前識別差異表達基因集合的方法是對基因表達值進行t檢驗后按t 值排序,并與隨機重排樣本的統計結果進行比較,從而識別顯著改變的基因集 合。該方法的問題是對大基因集合識別效果不佳,且識別效果受實驗重復性和 檢測次數的影響很大,若檢測次數少則識別效果差。所以現有識別方法難以適 應檢測次數不多的現實狀況,大大降低了基因表達值在實際應用中的價值。
發明內容
發明目的:本發明的主要目的是針對現有技術識別顯著表達基因集合的準 確度低、對檢測次數要求過高的問題,提供一種基于表達值加權分布的識別顯 著差異表達基因集合的方法。
技術方案:本發明公開了一種識別顯著差異表達基因集合的方法,它包括 以下步驟:
(1)設置和輸入芯片數據;
(2)將基因表達譜芯片所含基因歸屬至各個基因集合;
(3)判斷每一個基因集合中基因的個數是否大于設置中定義的個數,如果 判斷結果為否,則拋棄此基因集合;否則,執行下一步;
(4)計算每一個基因集合的表達變化指數,即E’值;
(5)將整張芯片上所有基因作為背景基因,按照步驟4的方法計算背景基 因集合的表達變化指數;對每一個基因集合去除背景,產生真實的基因集合表 達變化指數E值;
(6)檢驗各基因集合E值的顯著性;
(7)根據設定的E值和p值的閾值,判斷是否符合閾值要求,如果判斷結 果為否,則拋棄;如果判斷結果為是,則輸出識別結果;
其中,步驟(7)中所述p值為置信度。
本發明中,步驟(1)中,設置和輸入數據包括將熒光信號圖像掃描獲得的 數據進行預處理(數據轉換、缺失數據擬合、歸一化等常規處理)后,根據檢 測目的所計算的基因表達水平比值,以及判斷閾值,包括基因集合的表達變化 指數E值和p值。
本發明中,步驟(3)中,設置基因集合中所含基因數,比如,大于10,一 般根據本領域中實際應用中常見的情況而定的。
本發明中,步驟(4)中計算基因集合的表達變化指數的方法具體包括以下 步驟:(11)基因表達值的離散化;(12)計算表達分布的一階權重得分;(13) 計算基因集合的表達變化指數。其中,優選地,步驟(12)包括以下步驟:計 算上調區和下調區的差異表達離散分布和權重分布得分;對于有重復實驗的單 樣本芯片數據,計算差異表達權重分布后,將所有重復實驗中的加權表達值疊 加;對于有重復試驗的多樣本芯片數據,將樣本分級并賦予標簽值,組合各種 標簽值的加權表達值。其中所述的賦予標簽值,根據所識別基因集合的要求, 樣本之間正相關取+1,樣本之間負相關取-1。步驟(13)中用上調區和下調 區得分的比值取對數(E’值)來表示在此集合中的基因表達變化指數。
本發明中,步驟(6)檢驗各基因集合E值的顯著性,從背景基因中隨機挑 選與選定基因集合數目相同的基因,按步驟(4)和步驟(5)的做法計算真實 的基因集合表達變化指數E值,重復抽樣(比如1000次),獲得各集合的E值 的顯著性。
本發明中,所述的權重分布計算使用一階權重公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810019862.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高爐的殘鐵的拆除方法
- 下一篇:移動通信設備及其控制方法





