[發(fā)明專利]一種基于改進隨機森林的比特幣地址分類方法有效
| 申請?zhí)枺?/td> | 202010560006.X | 申請日: | 2020-06-18 |
| 公開(公告)號: | CN111754345B | 公開(公告)日: | 2022-03-18 |
| 發(fā)明(設計)人: | 王勁松;陶峰;張洪瑋;趙澤寧;石凱 | 申請(專利權)人: | 天津理工大學 |
| 主分類號: | G06Q40/04 | 分類號: | G06Q40/04;G06Q20/38;G06Q20/06;G06K9/62 |
| 代理公司: | 天津才智專利商標代理有限公司 12108 | 代理人: | 龐學欣 |
| 地址: | 300384 天津市南*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 隨機 森林 比特 地址 分類 方法 | ||
1.一種基于改進隨機森林的比特幣地址分類方法,其特征在于:所述的比特幣地址分類方法包括按順序進行的下列步驟:
S1:從區(qū)塊鏈的歷史交易記錄中提取地址原始特征并添加到現(xiàn)有機器學習分類方法所使用的特征集中,構建一個更大的特征集;
S2:解析原始區(qū)塊數(shù)據(jù)而獲得比特幣地址,并從構建的特征集中提取出與地址相關的統(tǒng)計特征信息而構成數(shù)據(jù)集,所獲得數(shù)據(jù)集的大小與操作者選取的時間段以及在這個時間段交易數(shù)量的多少有關;
S3:利用爬蟲技術,為上述數(shù)據(jù)集打上標簽,從而獲得帶有標簽的樣本集,并根據(jù)需要將地址分為多個不同的類別;
S4:初始化學習器的參數(shù),包括隨機森林參數(shù)基分類器數(shù)量L、利用特征分裂節(jié)點時候選特征子集的數(shù)量l,以及算法準確率變化閾值δ;
S5:初始化學習器中的重要特征集不重要特征集特征向量和算法準確率集合其中重要特征集用于保留需要提取的關鍵特征,用于暫存當前未被標記為重要的特征,特征向量表示每個樣本中的屬性集合,算法準確率集合用于記錄每一輪算法的準確率;
S6:用上述帶有標簽的樣本集迭代上述初始化后的學習器,直到算法準確率變化范圍超過算法準確率變化閾值δ;
S7:獲取重要特征集中保留的特征,作為需要提取的關鍵特征;
S8:在實際應用中,對于任一需要分類的地址,只需從比特幣交易記錄中提取出少量的關鍵特征,然后將這些關鍵特征輸入到上述已訓練好的學習器中,學習器的輸出即為比特幣地址的交易類型分類;
在S6中,所述的用上述帶有標簽的樣本集迭代上述初始化后的學習器,直到算法準確率變化范圍超過算法準確率變化閾值δ的具體方法如下:
S601:利用上述帶有標簽的樣本集迭代訓練學習器,并將該輪訓練時學習器的分類準確率加入到算法準確率集合中;
S602:計算在該輪訓練中每一個特征j的全局權重w(j);
S603:將所有特征按照權重大小進行降序排列,并將前個特征加入到重要特征集中,一旦特征出現(xiàn)在重要特征集中,其將永遠不會被刪除直至算法結束,將其余特征加入到不重要特征集合中;
S604:更新重要特征集不重要特征集和特征向量由此完成特征的篩選;
S605:判斷算法準確率集合的極差是否小于算法準確率變化閾值δ,如果成立,則執(zhí)行S606,否則保留重要特征集中的特征并作為篩選出的關鍵特征;
S606:執(zhí)行S601,利用更新后的特征向量繼續(xù)迭代訓練學習器直至收斂;
在S602中,所述的計算在該輪訓練中每一個特征j的全局權重w(j)的具體方法如下:
S60201:每一個基分類器在分裂節(jié)點i的時候,先根據(jù)以下公式計算分裂節(jié)點的信息熵:
其中P(c)表示在分裂節(jié)點地址類別為c的概率;
S60202:根據(jù)上述信息熵計算分裂節(jié)點i的特征候選子集中每一個特征j的分裂評分,計算公式如下:
其中V表示按照特征j分裂節(jié)點后子節(jié)點的數(shù)量,節(jié)點的分裂按分裂評分最高的特征進行分裂;表示分裂節(jié)點i的特征候選子集中每一個特征j的分裂評分;
S60203:利用上述分裂評分計算每個特征j在每一個基分類器ζ中的局部權重:
其中N_node表示基分類器ζ中非葉子節(jié)點的數(shù)量;
S60204:利用袋外數(shù)據(jù)算出每一個基分類器ζ的分類準確率,進而按下式計算出每一個基分類器ζ的權重:
其中accζ表示基分類器ζ的分類準確率;
S60205:基于上述局部權重和基分類器的權重計算出每個特征j在整個隨機森林中的全局權重:
在S604中,所述的更新重要特征集不重要特征集和特征向量由此完成特征的篩選的具體方法如下:
S60401:計算不重要特征集中特征的權重平均數(shù)μ和標準方差σ;
S60402:將不重要特征集中權重小于μ-3σ的特征直接刪除,同時對特征向量進行更新;
S60403:如果不重要特征集中所有權重均大于μ-3σ,則直接刪除權重最小的一個特征,同時對特征向量進行更新;
S60404:將更新后的不重要特征集中權重大于或等于重要特征集中最小權重的特征從不重要特征集中轉移到重要特征集中,由此完成重要特征集和不重要特征集的更新。
2.根據(jù)權利要求1所述的基于改進隨機森林的比特幣地址分類方法,其特征在于:在S1中,所述的從區(qū)塊鏈的歷史交易記錄中提取地址原始特征并添加到現(xiàn)有機器學習分類方法所使用的特征集中,構建一個更大的特征集的具體方法如下:
S101:設定如下用于提取地址原始特征的規(guī)則:地址存活時間單位為天,存活時間不足24小時視為1天,其余情況下存活天數(shù)向下取整;對于存在自找零交易,即給定地址同時出現(xiàn)在交易的輸入和輸出中,將其視為對應于該地址的輸出交易;為了保留原始信息同時降低提取特征的困難,將比特幣交易的數(shù)量單位設定為BTC;
S102:按照上述規(guī)則,從區(qū)塊鏈的歷史交易記錄中提取包括截至目前為止地址存活時間在內的地址原始特征;
S103:對上述地址原始特征進行線性組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津理工大學,未經(jīng)天津理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010560006.X/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q40-00 金融;保險;稅務策略;公司或所得稅的處理
G06Q40-02 .銀行業(yè),例如,利息計算、信貸審批、抵押、家庭銀行或網(wǎng)上銀行
G06Q40-04 .交易,例如,股票、商品、金融衍生工具或貨幣兌換
G06Q40-06 .投資,例如,金融工具、資產(chǎn)組合管理或者基金管理
G06Q40-08 .保險,例如,風險分析或養(yǎng)老金





