[發明專利]一種面向真實世界數據的機器學習系統與方法在審
| 申請號: | 202210424439.1 | 申請日: | 2022-04-22 |
| 公開(公告)號: | CN114818906A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 王瑩 | 申請(專利權)人: | 深圳市第二人民醫院(深圳市轉化醫學研究院) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518035 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 真實 世界 數據 機器 學習 系統 方法 | ||
本發明提出一種面向真實世界數據的機器學習系統與方法,包括數據預處理模塊、隨機采樣模塊、實驗數據處理模塊、數據平衡處理模塊、機器學習模塊和評估模塊。按照實驗數據、隨機采樣數據、平衡數據分別導入到機器學習模塊訓練預測模型并對預測結果進行評估的路徑設置組成。通過不同機器學習算法對不同訓練數據和測試數據的交叉驗證,獲得對真實世界數據預測水平最佳的機器學習預測模型和預測結果。本發明結構簡單、邏輯清晰和集成度高,容易實現,系統性的解決面向真實世界數據的機器學習的復雜性和盲目探索性問題。
技術領域
本申請涉及機器學習技術領域,具體為一種面向真實世界數據的機器學習系統與方法。
背景技術
真實世界數據(Real World Data,RWD)是指來源于日常所收集的各種與患者健康狀況、診療及保健有關的數據。可用于支持多種類型的臨床研究。與RWD對應的是隨機對照實驗(RandomizedControlled Trail,RCT)采用的實驗數據。實驗數據具有嚴格的排除納入標準和干預性的缺陷,研究的結果特異性明顯,但外部有效性受到制約。RWD也存在由于納入限制較少、納入人群的異質
性較大、造成潛在偏倚和混雜。尤其是就診人員的多樣性導致真實世界數據不平衡(又可稱為樣本比例失衡或類別不平衡),例如:正負樣本的比例懸殊。如果簡單的基于真實世界數據進行機器學習,訓練出來的預測模型會傾向多數類,導致對少數類的識別率偏低。從而無法實現對少數類的準確識別。目前對真實世界數據不平衡問題尚無通用的解決辦法,通常解決思路為嘗試性的從數據和算法兩個層面逐步改進尋求相對效果較好的方法。
發明內容
基于此,有必要針對上述技術問題,提供一種面向真實世界數據的機器學習系統與方法,實現對真實世界數據的機器學習具有可行的預測能力。
第一方面,本申請提供了一種面向真實世界數據的機器學習系統。所屬系統包括數據預處理模塊、隨機采樣模塊、實驗數據處理模塊、數據平衡處理模塊、機器學習模塊和評估模塊,所述模塊按照實驗數據、隨機采樣數據、平衡數據分別導入到機器學習模塊并對預測結果進行評估的路徑設置組成。
數據預處理模塊,通過數據集成、數據治理和數據開發把真實世界數據轉化為可以供機器學習算法使用的數據。
隨機采樣模塊,按照一定的比例從經過數據預處理模塊處理后的數據中抽取樣本,從而在保持真實世界數據分布特征的前提下降低樣本量。
實驗數據處理模塊,采用干預的方式納入預設規則的各種類別的樣本。
數據平衡處理模塊,通過欠采樣、過采樣或者欠采樣與過采樣相結合的方式對樣本失衡的數據進行平衡。
數據拆分模塊,按照一定的比例把數據拆分為訓練數據和測試數據。
機器學習模塊,通過各種機器學習算法使用訓練數據訓練預測模型,通過預測模型對測試數據進行預測。
評估模塊,評估預測模型的預測結果。
第二方面,本申請提供了一種面向真實世界數據的機器學習方法。所述方法包括:
獲取真實世界數據,并對真實世界數據面向機器學習算法要求進行數據預處理;
按照一定比例對預處理后的真實世界數據做隨機采樣,獲得隨機采樣數據;
采用干預的方式從預處理后的真實世界數據中納入預設規則的各種類別樣本,獲得實驗數據;
對隨機采樣數據的3個副本分別使用欠采樣、過采樣和欠采樣與過采樣相結合的方式獲得欠采樣平衡數據、過采樣平衡數據和欠采樣與過采樣相結合平衡數據;
實驗數據拆分為實驗訓練數據和實驗測試數據;
隨機采樣數據的一個副本拆分為隨機采樣訓練數據和隨機采樣測試數據;
欠采樣平衡數據拆分為欠采樣平衡數據訓練數據和欠采樣平衡數據測試數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市第二人民醫院(深圳市轉化醫學研究院),未經深圳市第二人民醫院(深圳市轉化醫學研究院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210424439.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





