[發明專利]一種面向真實世界數據的機器學習系統與方法在審
| 申請號: | 202210424439.1 | 申請日: | 2022-04-22 |
| 公開(公告)號: | CN114818906A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 王瑩 | 申請(專利權)人: | 深圳市第二人民醫院(深圳市轉化醫學研究院) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518035 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 真實 世界 數據 機器 學習 系統 方法 | ||
1.一種面向真實世界數據的機器學習系統與方法,其特征在于,所述系統包括:
數據預處理模塊,通過數據集成、數據治理和數據開發把真實世界數據轉化為可以供機器學習算法使用的數據;
隨機采樣模塊,按照一定的比例從經過數據預處理模塊處理后的數據中抽取樣本;
實驗數據處理模塊,采用干預的方式納入預設規則的各種類別的樣本;
數據平衡處理模塊,通過欠采樣、過采樣或者兩者相結合的方式把樣本類別不平衡的數據實現平衡;
數據拆分模塊,按照預設的比例把數據拆分為訓練數據和測試數據;
機器學習模塊,基于訓練數據通過機器學習算法訓練生成預測模型,并通過預測模型對測試數據進行預測;
評估模塊,評估預測模型的預測結果。
2.一種面向真實世界數據的機器學習方法,其特征在于,所述方法包括:
獲取真實世界數據,并對真實世界數據面向機器學習算法要求做數據預處理;
按照一定比例對預處理后的真實世界數據做隨機采樣,獲得隨機采樣數據;
采用干預的方式從預處理后的真實世界數據中納入樣本類別,獲得實驗數據;
對隨機采樣數據的副本分別使用欠采樣、過采樣和兩者相結合的方式獲得欠采樣平衡數據、過采樣平衡數據和欠采樣與過采樣相結合平衡數據;
數據拆分為訓練數據和測試數據,使用多種機器學習算法依次計算訓練數據生成相應的預測模型,分別使用預測模型對測試數據進行預測,并評估預測水平和對比預測結果;
根據所述對比結果選擇預測水平最佳的機器學習算法和預測模型。
3.根據權利要求2所述的一種面向真實世界數據的機器學習方法,其特征在于,
在大數據平臺或數據操作平臺對多源異構的真實世界數據進行數據集成,對集成后的數據進行數據治理和數據開發,包括不限于數據結構轉換、數據類型轉換、數據清洗、數據缺失值填充和數據歸一化等環節;真實世界數據經過預處理符合機器學習算法的要求。
4.根據權利要求2所述的一種面向真實世界的機器學習方法,其特征在于,
按照實驗要求獲得實驗數據;
按照一定的比例獲得隨機采樣數據;
隨機采樣數據的3個副本分別使用欠采樣、過采樣和欠采樣與過采樣相結合的方式獲得欠采樣平衡數據、過采樣平衡數據和欠采樣與過采樣相結合平衡數據。
5.根據權利要求2所述的一種面向真實世界數據的機器學習方法,其特征在于,
實驗數據拆分為實驗訓練數據和實驗測試數據;
隨機采樣數據的一個副本拆分為隨機采樣訓練數據和隨機采樣測試數據;
欠采樣平衡數據拆分為欠采樣平衡數據訓練數據和欠采樣平衡數據測試數據;
過采樣平衡數據拆分為過采樣平衡數據訓練數據和過采樣平衡數據測試數據;
欠采樣與過采樣結合平衡數據拆分為欠采樣與過采樣相結合平衡數據訓練數據和欠采樣與過采樣相結合平衡數據測試數據。
6.根據權利要求2所述的一種面向真實世界數據的機器學習方法,其特征在于,
實驗訓練數據、欠采樣平衡數據訓練數據、過采樣平衡數據訓練數據、欠采樣與過采樣相結合平衡數據訓練數據和隨機采樣訓練數據依次導入機器學習訓練模塊生成對應的預測模型,分別使用各個預測模型對實驗測試數據、欠采樣平衡數據測試數據、過采樣平衡數據測試數據、欠采樣與過采樣相結合平衡數據測試和隨機采樣測試數據進行預測,并評估預測結果。
7.根據權利要求5所述的一種面向真實世界數據的機器學習方法,其特征在于,
更換機器學習算法,重新進行機器學習訓練、預測與評估;經過對比評估結果,選擇最佳的機器學習算法、訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市第二人民醫院(深圳市轉化醫學研究院),未經深圳市第二人民醫院(深圳市轉化醫學研究院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210424439.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





