[發明專利]一種面向Spark MLlib機器學習算法優化方法在審
| 申請號: | 202010411521.1 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111612154A | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 陸保國;蔣煒;崔雋;雷斌;柯正祥;后弘毅 | 申請(專利權)人: | 中國電子科技集團公司第二十八研究所 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06Q10/04;G06K9/62;G06F17/18;G06F17/16 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 spark mllib 機器 學習 算法 優化 方法 | ||
1.一種面向Spark MLlib機器學習算法優化方法,其特征在于,包括以下步驟:
步驟1,通過訓練數據集的擴充矩陣運算得到γ矩陣,所述γ矩陣包含訓練數據集的統計信息,所述訓練數據集的統計信息用于求解機器學習算法的參數;
步驟2,通過所述γ矩陣求解機器學習算法的參數。
2.根據權利要求1所述的一種面向Spark MLlib機器學習算法優化方法,其特征在于,所述步驟1包括:定義所述γ矩陣及γ矩陣的屬性,所述γ矩陣的定義如下:
對于所述機器學習算法,所述訓練數據集由相同維度的特征向量以及每個特征向量對應的標簽構成,使用X代表d*n的輸入矩陣,所述輸入矩陣X的每一列都是訓練數據集中一個樣本的特征向量,d為所述特征向量的維數,n為所述訓練數據集大小,Y代表標簽向量,所述標簽向量是一個n維向量,所述標簽向量的每個值與訓練數據集中每個樣本一一對應;
所述γ矩陣的定義中:
n=|X|
其中,n代表輸入矩陣的大小,即訓練數據集的大小,xi代表輸入矩陣X的第i列,即輸入矩陣X的列向量,L代表輸入矩陣X的第i列xi的線性和,Q代表輸入矩陣X所有列向量xi的二次和,即所有列向量xi的外積之和。
3.根據權利要求2所述的一種面向Spark MLlib機器學習算法優化方法,其特征在于,所述步驟1包括:所述γ矩陣通過輸入矩陣X的一個擴充矩陣Z進行運算得到,所述擴充矩陣Z的定義為:
相應的γ矩陣表示為:
通過所述擴充矩陣Z的所有列向量xi的外積之和計算γ矩陣,即
4.根據權利要求3所述的一種面向Spark MLlib機器學習算法優化方法,其特征在于,所述步驟2包括通過γ矩陣求解主成分分析算法的參數,包括:
計算所述輸入矩陣X的協方差矩陣或關系矩陣,所述輸入矩陣X的協方差矩陣表示為V,所述輸入矩陣X的關系矩陣表示為ρ,所述關系矩陣ρ即對協方差矩陣V每個維度進行標準化后得到的矩陣;
根據所述關系矩陣ρ的公式和Γ矩陣的表達式,得出以下公式:
其中,ρab為關系矩陣ρ第a行第b列的元素,n為訓練數據集大小,Qab為xi的二次和矩陣的第a行第b列元素,La為線性和向量的第a個元素,Lb為線性和向量的第b個元素,Qaa為xi的二次和矩陣的第a行第a列元素,Qbb為xi的二次和矩陣的第b行第b列元素;
將所述關系矩陣ρ作為主成分分析算法的關鍵參數,通過對所述關系矩陣ρ進行特征值分解,按照從大到小的順序,取前k個的特征值對應的特征向量構成投影矩陣,將所述投影矩陣與輸入矩陣X相乘即完成降維。
5.根據權利要求3所述的一種面向Spark MLlib機器學習算法優化方法,其特征在于,所述步驟2包括通過γ矩陣求解線性回歸算法的參數,所述參數包括線性乘法的系數β,包括:
按照以下形式表達線性回歸的數值解:
Y=βTX+∈
β=(XXT)-1XYT
=Q-1(XYT)
其中,使用X代表d*n的輸入矩陣,d為特征向量的維數,n為訓練數據集大小,∈代表高斯誤差,Q代表輸入矩陣X所有列向量的二次和。
6.根據權利要求1所述的一種面向Spark MLlib機器學習算法優化方法,其特征在于,所述γ矩陣對于主成分分析算法模型或線性回歸算法模型的訓練數據集滿足nd,即訓練數據集的大小n遠大于特征向量的維數d,此時滿足O(d^2)O(dn),O表示運算復雜度。
7.根據權利要求1所述的一種面向Spark MLlib機器學習算法優化方法,其特征在于,所述γ矩陣具有對稱性,所述γ矩陣為對稱矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第二十八研究所,未經中國電子科技集團公司第二十八研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010411521.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:行為訓練對話控制方法、系統、存儲介質、程序、終端
- 下一篇:電子設備





