[發明專利]通過偏差校正和分類預測生成生物標記簽名的系統和方法有效
| 申請號: | 201380039806.5 | 申請日: | 2013-06-21 |
| 公開(公告)號: | CN104508671B | 公開(公告)日: | 2018-10-19 |
| 發明(設計)人: | 弗洛里安·馬丁;向陽 | 申請(專利權)人: | 菲利普莫里斯生產公司 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 宋巖 |
| 地址: | 瑞士納*** | 國省代碼: | 瑞士;CH |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 通過 集成 偏差 校正 分類 預測 生成 生物 標記 簽名 系統 方法 | ||
1.一種由處理器運行的將數據集分類到兩個或更多個分類的計算機實現的方法,包括:
(a)接收訓練數據集和訓練分類集,所述訓練數據集的元素表示患病病人、對疾病有抵抗力的病人或未患病病人的基因表達數據,所述訓練分類集包括已知標簽的集合,各已知標簽標識與所述訓練數據集中的每個元素相關聯的分類;
(b)接收測試數據集;
(c)通過將第一機器學習技術應用到所述訓練數據集和所述訓練分類集來生成用于所述訓練數據集的第一分類器;
(d)通過根據所述第一分類器對所述測試數據集中的元素進行分類來生成第一測試分類集;
(e)通過將所述訓練數據集中的元素移動與訓練分類質心的集合的中心相對應的量來變換所述訓練數據集,其中各訓練分類質心代表所述訓練數據集中的元素的子集的中心;以及
(f)對于多次迭代中的每一次:
(i)通過將所述測試數據集中的元素移動與測試分類質心的集合的中心相對應的量來變換所述測試數據集,其中各測試分類質心代表所述測試數據集中的元素的子集的中心;
(ii)通過根據第二分類器對經變換的測試數據集中的元素進行分類來生成第二測試分類集,其中所述第二分類器是通過將第二機器學習技術應用到經變換的訓練數據集和所述訓練分類集而生成的;
(iii)當所述第一測試分類集與所述第二測試分類集不同時,將所述第二測試分類集存儲為所述第一測試分類集并將所述經變換的測試數據集存儲為所述測試數據集并且返回步驟(i)。
2.根據權利要求1所述的方法,還包括當所述第一測試分類集與所述第二測試分類集并非不同時,輸出所述第二測試分類集。
3.根據權利要求1-2中任一個所述的方法,其中所述訓練數據集是從總數據集中的樣本的隨機子集形成的,所述測試數據集是從所述總數據集中的樣本的剩余子集形成的。
4.根據權利要求1-2中任一個所述的方法,其中步驟(e)處的移動包括對所述訓練數據集應用旋轉、剪切、線性變換或非線性變換來獲得所述經變換的訓練數據集。
5.根據權利要求1-2中任一個所述的方法,其中步驟(i)處的移動包括對所述測試數據集應用旋轉、剪切、線性變換或非線性變換來獲得所述經變換的測試數據集。
6.根據權利要求1-2中任一個所述的方法,其中:
所述測試數據集包括已知標簽的測試集合,各已知標簽標識與所述測試數據集中的每個元素相關聯的分類;
所述第一測試分類集包括用于所述測試數據集的預測標簽的集合;并且
所述第二測試分類集包括用于所述經變換的測試數據集的預測標簽的集合。
7.根據權利要求1-2中任一個所述的方法,還包括對于所述多次迭代中的每一次,將所述第一測試分類集與所述第二測試分類集進行比較。
8.根據權利要求1-2中任一個所述的方法,其中第一機器學習技術和第二機器學習技術是相同的機器學習技術。
9.根據權利要求1-2中任一個所述的方法,其中步驟(e)處的變換是通過應用與步驟(i)的變換相同的變換來執行的。
10.根據權利要求1-2中任一個所述的方法,還包括將所述第二測試分類集提供到顯示設備、打印設備或存儲設備。
11.根據權利要求1-2中任一個所述的方法,其中如果所述第一測試分類集中的任一元素與所述第二測試分類集中的相應元素不同,則所述第一測試分類集和所述第二測試分類集不同。
12.根據權利要求1-2中任一個所述的方法,其中所述第二測試分類集包括用于所述經變換的測試數據集的預測標簽的集合,所述方法還包括:通過計算代表所述第二測試分類集中的正確預測標簽的數目除以預測標簽的總數的性能度量來評價所述第二分類器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于菲利普莫里斯生產公司,未經菲利普莫里斯生產公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380039806.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:以減少的延時派發內容
- 下一篇:觸覺致動器
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





