[發明專利]一種基于pyspark的機器學習方法和裝置在審
| 申請號: | 201811437502.5 | 申請日: | 2018-11-28 |
| 公開(公告)號: | CN109784494A | 公開(公告)日: | 2019-05-21 |
| 發明(設計)人: | 趙爭超;盧尋 | 申請(專利權)人: | 同盾控股有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 311121 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器學習 方法和裝置 校驗 訓練集 并行 分區 分布式特征 參數計算 迭代訓練 結果模型 兩兩交叉 目標模型 業務數據 傳入的 算法 工程師 | ||
1.一種基于pyspark的機器學習方法,其特征在于,包括步驟:
對傳入的訓練集進行格式校驗,所述訓練集中樣本的格式為pyspark的dataframe格式;
如果通過所述格式校驗,則將所述訓練集隨機分為多個并行的分區;
利用所述多個并行的分區進行迭代訓練,得到目標模型的結果模型參數,所述目標模型為因子分解機。
2.如權利要求1所述的機器學習方法,其特征在于,所述利用所述多個并行的分區進行迭代訓練,包括:
針對每個所述分區,每一輪迭代完成時,通過廣播變量傳遞的中間模型參數計算損失函數;
對所述損失函數求導,得到求導結果;
利用所述求導結果更新所述中間模型參數;
對所有分區的中間模型參數進行線性平均,得到平均模型參數;
判斷最近兩次迭代計算的過程是否收斂,如是,則將所述平均模型參數輸出為所述結果模型參數,如否則進行下一次迭代計算。
3.如權利要求2所述的機器學習方法,其特征在于,所述對所述損失函數求導,包括:
利用隨機梯度下降算法或者小批量隨機梯度算法對所述損失函數進行求導計算。
4.如權利要求1所述的機器學習方法,其特征在于,還包括:
把所述結果模型參數傳到指定路徑的文件中。
5.如權利要求1所述的機器學習方法,其特征在于,在所述對傳入的訓練集進行格式校驗步驟之前,還包括:
準備所述訓練集,所述訓練集的每個樣本至少包括特征字段和標簽字段。
6.一種基于pyspark的機器學習裝置,其特征在于,包括:
格式校驗模塊,用于對傳入的訓練集進行格式校驗,所述訓練集中樣本的格式為spark的dataframe格式;
數據分割模塊,用于如果通過所述格式校驗,則將所述訓練集隨機分為多個并行的分區;
模型訓練模塊,用于利用所述多個并行的分區進行迭代訓練,得到目標模型的結果模型參數,所述目標模型為因子分解機。
7.如權利要求6所述的機器學習裝置,其特征在于,所述模型訓練模塊包括:
函數計算單元,用于針對每個所述分區,每一輪迭代完成時,通過廣播變量傳遞的中間模型參數計算損失函數;
求導計算模塊,用于對所述損失函數求導,得到求導結果;
參數更新模塊,用于利用所述求導結果更新所述中間模型參數;
平均計算模塊,用于對所有分區的中間模型參數進行線性平均,得到平均模型參數;
收斂輸出模塊,用于判斷最近兩次迭代計算的過程是否收斂,如是,則將所述平均模型參數輸出為所述結果模型參數,如否則進行下一次迭代計算。
8.如權利要求7所述的機器學習裝置,其特征在于,所述求導計算模塊具體用于利用隨機梯度下降算法或者小批量隨機梯度算法對所述損失函數進行求導計算。
9.如權利要求6所述的機器學習裝置,其特征在于,還包括:
文件傳送模塊,用于把所述結果模型參數傳到指定路徑的文件中。
10.如權利要求6所述的機器學習裝置,其特征在于,還包括:
訓練集準備模塊,用于在所述格式校驗模塊對傳入的訓練集進行格式校驗之前,準備所述訓練集,所述訓練集的每個樣本至少包括特征字段和標簽字段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同盾控股有限公司,未經同盾控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811437502.5/1.html,轉載請聲明來源鉆瓜專利網。





