[發(fā)明專利]樣本數(shù)據(jù)的分類有效
| 申請?zhí)枺?/td> | 200980114561.1 | 申請日: | 2009-04-21 |
| 公開(公告)號: | CN102016881A | 公開(公告)日: | 2011-04-13 |
| 發(fā)明(設計)人: | H·M·J·桑特羅普;W·F·J·弗黑格;R·范登哈姆 | 申請(專利權)人: | 皇家飛利浦電子股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F19/24 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 周紅力;劉鵬 |
| 地址: | 荷蘭艾*** | 國省代碼: | 荷蘭;NL |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 數(shù)據(jù) 分類 | ||
技術領域
本發(fā)明涉及分類,特別地涉及對包含噪聲測量數(shù)據(jù)的樣本進行分類。更特別地,本發(fā)明涉及對生物分子數(shù)據(jù)進行分類。
背景技術
在分子診斷學領域中,微陣列數(shù)據(jù)和蛋白質組學數(shù)據(jù)正日益用于發(fā)展對患者進行分類的新的測試。K.Y.Yeung和R.E.Bumgarner在Genome?Biology,2004,4:R83中的“Multiclass?classification?of?microarray?data?with?repeated?measurements:application?to?cancer”中,描述了這種測試的一個實例。
對微陣列數(shù)據(jù)和蛋白質組學數(shù)據(jù)的分類可以涉及例如診斷和患者分層次。找到正確的生物標志物(例如基因或蛋白質的正確集合)以將該分類用作基礎,并且找到將這些生物標志物的測量轉化為分類的正確規(guī)則是最重要的,因為這可以對所述分類的精確性產生巨大影響。給定所述生物標志物和所述分類規(guī)則,新病例可以在臨床裝置中或在普通的專業(yè)人員處被分類。
微陣列通過促進(facilitate)同時測量每個樣本的數(shù)千個基因表達水平的能力而向生物學家提供了重要工具。對微陣列進行分類的主要任務之一是將基因表達測量(所述特征)的集合映射到給定的目標標記(即,患者的類別)。與測量人的體溫或人的身高相比,測量基因表達水平是非常具有挑戰(zhàn)性的、昂貴的和耗時的。它是多步驟的過程,其中必須執(zhí)行許多單獨的工序。這些步驟中的一些包含不可能完全受控并且可能導致所述分類規(guī)則不可靠的情況。
發(fā)明內容
取得對生物分子的改進的分類將是有利的。為了更好地解決這個問題,在本發(fā)明的第一方面,提出了一種分類系統(tǒng),包括:
輸入端,用于接收測量數(shù)據(jù),該測量數(shù)據(jù)包括對待分類的樣本的多個數(shù)值特征和所述多個數(shù)值特征中各個數(shù)值特征的多個相應的誤差估計的測量;
統(tǒng)計模塊,用于將各個概率密度函數(shù)與所述多個數(shù)值特征中各個數(shù)值特征相關聯(lián),其中所述各個概率密度函數(shù)依賴于對所述各個數(shù)值特征中的相應的誤差估計;
復制模塊,用于產生所述樣本的多個擾動的副本,所述擾動的副本包括擾動的特征,其中所述多個數(shù)值特征中各個數(shù)值特征根據(jù)對應的各個概率密度函數(shù)被隨機擾動以獲得所述擾動的特征;
分類器,用于基于擾動的特征并且通過應用預定的分類標準對所述多個擾動的副本中的各個副本進行分類以獲得分類的副本,其中每個分類的副本具有與其相關聯(lián)的類別;
分析器,用于基于對所述分類的副本的統(tǒng)計分析對待分類的樣本進行分類以獲得樣本分類。
因為所述副本的數(shù)值特征被擾動,所以所述分類一般地對應所有副本而言將不總是相同的。而且,由于所述副本的特征根據(jù)歸因于所測量的特征中存在的噪聲的概率分布被擾動,所以被分類為屬于特定類別的副本的數(shù)量與待分類的樣本針對(in?view?of)噪聲屬于該特定類別的概率或可能性有關。因此,所述分析器可以考慮該概率以提供改進的分類和/或提供更多的關于分類可靠性的見識。
優(yōu)選地,所述統(tǒng)計模塊依賴于所述誤差估計改變方差,例如與誤差估計成比例地變化。
例如,所述分析器將具有最高概率或可能性的類別分配給所述樣本。這提高了所述分類的精確性(例如特異性和/或敏感性)。
優(yōu)選地,所述分析器被設置用于計算指示樣本屬于特定類別的可能性的值。這向所述分類系統(tǒng)的用戶給出了他可以用來確定他是否能夠信任(rely?on)所述分類的指示。所述可能性可以例如借助統(tǒng)計假設測試的概率值或p-值指示。
優(yōu)選地,計算多個可能性值,其中每個可能性值指示所述樣本屬于各個特定類別的概率或可能性的值。這允許用戶獲得對所述樣本可能所屬的可能的類別的更好的理解,這可以用于確定是否需要附加的診斷。
為了獲得良好的分類器,可以使用包括每個樣本的多個擾動的副本的訓練(training)數(shù)據(jù)集來訓練所述分類器。
在獨立權利要求中定義了本發(fā)明的其他范圍。從屬權利要求定義了有利的實施例。
附圖說明
將參照附圖進一步闡釋并描述本發(fā)明的這些和其他方面,在附圖中
圖1是分類系統(tǒng)的框圖;
圖2是示出分類系統(tǒng)的處理步驟的流程圖;
圖3是示出訓練分類器并利用訓練過的分類器執(zhí)行分類的流程圖;
圖4是示出選擇合適的特征子集的過程的流程圖;
圖5是示出在特征選擇過程中在單獨的特征中使用測量噪聲的過程的流程圖;
圖6是硬件架構的框圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于皇家飛利浦電子股份有限公司,未經皇家飛利浦電子股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200980114561.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





