[發明專利]通過偏差校正和分類預測生成生物標記簽名的系統和方法有效
| 申請號: | 201380039806.5 | 申請日: | 2013-06-21 |
| 公開(公告)號: | CN104508671B | 公開(公告)日: | 2018-10-19 |
| 發明(設計)人: | 弗洛里安·馬丁;向陽 | 申請(專利權)人: | 菲利普莫里斯生產公司 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 宋巖 |
| 地址: | 瑞士納*** | 國省代碼: | 瑞士;CH |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 通過 集成 偏差 校正 分類 預測 生成 生物 標記 簽名 系統 方法 | ||
本文詳述了用于按集成方式校正數據集并對數據集進行分類的系統和方法。訓練數據集、訓練分類集和測試數據集被接收。對于所述訓練數據集,通過將機器學習技術應用到訓練數據集和訓練分類集來生成第一分類器,并且通過根據第一分類器對測試數據集中的元素進行分類來生成第一測試分類集。對于多次迭代中的每一次,訓練數據集被變換,測試數據集被變換,并且通過將機器學習技術應用到經變換的訓練數據集來生成第二分類器。根據第二分類器來生成第二測試分類集,并且將第一測試分類集與第二測試分類集相比較。
相關申請的交叉引用
本申請根據35 U.S.C§119要求2012年6月21日遞交的、題為“SYSTEMS ANDMETHODS FOR GENERATING BIOMARKER SIGNATURES WITH INTEGRATED BIAS CORRECTIONAND CLASS PREDICTION”的美國臨時專利申請No.61/662,792的優先權,該美國臨時專利申請被完整結合于此。
技術領域
本發明一般地涉及用于通過集成的偏差校正和分類預測生成生物標記簽名的系統和方法。
背景技術
在生物醫學領域,識別表明特定生物狀態的物質即生物標記 (biomarker)很重要。隨著基因組學和蛋白質組學的新技術出現,生物標記對于生物發現、藥品研發和健康護理正變得越來越重要。生物標記不僅對于很多疾病的診斷和預后有用,而且對于理解療法的發展基礎有用。生物標記的成功和有效識別可以加速新藥品研發過程。通過療法與診斷和預后的結合,生物標記識別還將增強當前醫療的質量,因而在藥物遺傳學、藥物基因組學和藥物蛋白質組學的使用中扮演重要角色。
包括高吞吐量篩選在內的基因組學和蛋白質組學分析提供了關于細胞中表達的蛋白質的數量和形式的豐富信息并提供了針對每個細胞識別特定細胞狀態的被表達的蛋白質特性的譜的潛力。在某些情況下,該細胞狀態可能是與疾病相關的異常生理反應的特征。結果,識別患病病人的細胞狀態并與正常病人的相應細胞狀態進行比較可以提供診斷和治療疾病的機會。
這些高吞吐量篩選技術提供了基因表達信息的大數據集。研究人員已嘗試研發用于將這些數據集組織到可再現地診斷不同數量的個體的模式中的方法。一種方法是匯集來自多個源的數據以形成組合的數據集,然后將數據集劃分成發現/訓練集和測試/驗證集。然而,相對于可用數量的樣本,轉錄譜數據和蛋白質表達譜數據二者常常由大量變量來表征。
來自控制或病人群的試樣的表達譜之間的觀察到的差異通常被若干因素掩蓋,包括疾病或控制群體內的未知子表型或生物學差異、由研究方案的差別造成的依位置而定的偏差、試樣處理、由儀器條件 (例如,芯片批次等)的差別造成的偏差以及由測量誤差造成的變化。一些技術嘗試針對數據樣本中的偏差進行校正(所述偏差例如可能源于數據集中表示的一類樣本多于另一類)。
若干基于計算機的方法已被研發以找出最佳地解釋疾病和控制樣本之間的差別的一組特征(標記)。某些早期方法包括諸如LIMMA 之類的統計測試、用于識別與乳腺癌有關的生物標記的FDA批準的 mammaprint技術、諸如支撐向量機(SVM)之類的邏輯回歸技術和機器學習方法。一般地,從機器學習的角度,生物標記的選擇通常是分類任務的特征選擇問題。然而,這些早期方案面臨若干缺點。由這些技術生成的簽名(signature)常常是不能再現的,因為對象的包含與排除可能導致不同的簽名。這些早期方案還生成很多假陽性簽名并且不魯棒,因為它們是在具有小樣本尺寸和高維度的數據集上操作的。
因此,需要用于識別用于臨床診斷和/或預后的生物標記的改進的技術,并且更具體地,需要用于識別能夠用來將數據集中的元素分類到兩個或更多個分類中的數據標記的改進的技術。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于菲利普莫里斯生產公司,未經菲利普莫里斯生產公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380039806.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:以減少的延時派發內容
- 下一篇:觸覺致動器
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





