[發明專利]一種基于約束條件的隨機森林推薦算法在審
| 申請號: | 201611071464.7 | 申請日: | 2016-11-29 |
| 公開(公告)號: | CN106778836A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 喻梅;安永利;于健;高潔;徐天一;馬雄 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 天津市北洋有限責任專利代理事務所12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 約束條件 隨機 森林 推薦 算法 | ||
1.一種基于約束條件的隨機森林推薦算法,其特征在于,該方法包括以下步驟:
步驟(101)、根據給定初始訓練集中的數據集、在CART算法中利用基尼指數構造二叉決策樹,基尼系數定義如公式(1)所示:
其中,GiniR(S)是集合S以特征R分裂產生的基尼系數,S1和S2分別是用樣本特征R分裂后得到的子集,定義基尼增益如公式(2)所示:
Gini(R)=Gini(S)-GiniR(S) (2)
步驟(201)、從初始訓練集抽取訓練子樣本,每個子樣本特征維度為M,每次樹進行分裂時指定一個常數m<<M作為子樣本特征個數,從m個子樣本特征中選擇最優的子樣本特征去分裂;每棵樹都最大程度的生長,組合成隨機森林;
步驟(301)、分類指的是根據樣本記錄所具有的特征將樣本映射到預先定義好的類標號。通過從精確率、召回率和F值分析訓練模型所用的時間,衡量算法時間效能,其中:
精確率定義如公式(3)所示:
其中,TP表示把正類預測為正類的案例個數,FP表示把負類預測為正類的案例個數;
召回率定義如公式(4)所示:
其中,FN表示把正類預測為負類的案例個數;
F值定義如公式(5)所示:
其中,Precision為精確率,Recall為召回率;
步驟(401)、以同樣的初始訓練集中的數據集,分別構造擁有10棵和100棵決策樹的隨機森林,利用該模型對測試集進行分類,即將各個記錄映射到預先定義的類標號,在訓練集占比例不同情況下研究算法性能,記錄模型訓練時間;
步驟(501)、將隨機森林算法進行改進,具體步驟如下:
假設有S1,S2,…Sn,n個樣本作為隨機森林n棵樹的訓練樣本,用Si樣本建立決策樹模型,Oi為袋外數據,將Oi作為測試集進行預測,計算袋外數據誤差EOi;對于特征Fj,將Oi中Fj的值進行噪聲化,形成新測試集new_Oi;用新測試集new_Oi進行預測,記錄新的袋外數據誤差new_EOi,重要特征Fj重要度importancej如公式(6)所示
按重要性降序排列,確定刪除比例,從當前的特征中剔除相應比例排在最后的不重要特征,每次選出一個重要特征Fj,以新特征作構造隨機森林,遞歸重復上述步驟,直到剩余m個特征;依據通過上述方法所得到的各個新的重要特征構成重要特征集合和袋外數據,計算分類精確度,選取最優的作為最終特征集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611071464.7/1.html,轉載請聲明來源鉆瓜專利網。





