[發明專利]基于監督類機器學習算法的模型實現架構的方法在審
| 申請號: | 201811072255.3 | 申請日: | 2018-09-14 |
| 公開(公告)號: | CN109146080A | 公開(公告)日: | 2019-01-04 |
| 發明(設計)人: | 郭益民;石乾坤 | 申請(專利權)人: | 蘇州正載信息技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 蘇州唯亞智冠知識產權代理有限公司 32289 | 代理人: | 張翠茹 |
| 地址: | 215000 江蘇省蘇州市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器學習算法 測試數據 模型實現 預測結果 算法庫 監督 架構 機器學習模型 模型輸入數據 數據預處理 標簽數據 機器學習 框架整體 模型評估 模型數據 模型訓練 生成模型 輸入矩陣 學習算法 訓練數據 樣本控制 樣本數據 整體架構 差異性 目標項 算法 調用 加工 | ||
1.基于監督類機器學習算法的模型實現架構的方法,其特征在于,包括以下步驟:
步驟1:模型數據框架整體設計,主要針對模型輸入數據的明確定義;
步驟2:數據預處理設計,主要針對生成模型輸入矩陣進行進一步加工處理;
步驟3:樣本控制設計,主要針對監督機器學習中的樣本數據和標簽數據;
步驟4:模型訓練設計,主要建立一算法庫,將步驟2加工完成的訓練數據作為輸入,然后,調用算法庫中的算法,即可生成相應的機器學習模型;
步驟5:模型評估設計,將測試數據輸入訓練好的各個模型中來計算獲得預測結果,比較測試數據中的目標項和預測結果的差異性。
2.根據權利要求1所述的基于監督類機器學習算法的模型實現架構的方法,其特征在于:所述步驟1中模型輸入數據分為目標項和特征項,其中,目標項即為模型需要預測的對象,通過業務需求來確認這樣的對象;特征項則是用于進行模型訓練的一個多維矩陣,特征項中的每一個維度都對預測目標項有著一定的影響。
3.根據權利要求1所述的基于監督類機器學習算法的模型實現架構的方法,其特征在于:所述步驟2中處理方式包括以下步驟:
1、刪除行記錄完全一樣的數據樣本或者任意一列缺失值超過50%的特征列;
2、相關特征列的基本轉換;
3、通過設計相關啞變量離散化一些連續型或者分類文本類型的特征列;
4、異常值的處理,對于整理偏離過大的數據點,進行直接刪除或者重新賦值;
5、以明確的邏輯聯合多個特征列進行計算,生成新的特征列;
6、以一定的規則將數據進行橫向劃分,分別定義為訓練數據和測試數據。
4.根據權利要求3所述的基于監督類機器學習算法的模型實現架構的方法,其特征在于:所述基本轉換包括LOG、EXP、SQRT轉換。
5.根據權利要求1所述的基于監督類機器學習算法的模型實現架構的方法,其特征在于:所述步驟3中樣本數據,需要增加一列名為“weight”或“offset”的修正列,賦值規則為:
標簽為1的樣本,weight賦值為p1/r1;
標簽為0的樣本,weight賦值為(1-p1)/(1-r1);
其中p1為初始全樣本數據中標簽為1的樣本所占的比例,r1為抽樣調整后的樣本數據中標簽為1的樣本所占的比例。
6.根據權利要求1所述的基于監督類機器學習算法的模型實現架構的方法,其特征在于:所述步驟4中的算法庫為R中的算法包,或為Python中的Scipy算法庫,或為Spark中的MLlib算法庫。
7.根據權利要求1所述的基于監督類機器學習算法的模型實現架構的方法,其特征在于:所述步驟5中涉及的目標項和預測結果設有參考量,分別為均方誤差和分類準確率,其中,
MSE稱為均方誤差,計算公式為:
其中,N為測試樣本量,yi為測試數據中的目標項,為模型預測值。
分類準確率,計算公式為:
其中,N為測試樣本量,p為模型預測為1且實際目標項也為1的數量,q為模型預測為0且實際目標項也為0的數量。
8.根據權利要求3所述的基于監督類機器學習算法的模型實現架構的方法,其特征在于:一定的規則的規則為以7:3的比例劃分訓練測試數據,即70%的數據樣本用于訓練模型,30%的數據樣本用來測試。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州正載信息技術有限公司,未經蘇州正載信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811072255.3/1.html,轉載請聲明來源鉆瓜專利網。





