[發明專利]基于層疊泛化和代價敏感學習的社交網鏈路異常預測方法有效
| 申請號: | 202010873960.4 | 申請日: | 2020-08-26 |
| 公開(公告)號: | CN112039700B | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 劉小洋;李祥;葉舒;馬敏 | 申請(專利權)人: | 重慶理工大學 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L12/26 |
| 代理公司: | 重慶天成卓越專利代理事務所(普通合伙) 50240 | 代理人: | 王宏松 |
| 地址: | 400054 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 層疊 泛化 代價 敏感 學習 社交 網鏈路 異常 預測 方法 | ||
1.一種基于層疊泛化和代價敏感學習的社交網絡鏈路異常預測方法,其特征在于,包括以下步驟:
S1,獲取社交網絡節點數據,將獲取的社交網絡節點數據中的相似性指標作為基模型學習的特征;其相似性指標包括CN,Sal,Jac,Sor,HPI,HDI,LHN-I,PA,AA,RA,LP,Katz,ACT,Cos以及RWR之一或者任意組合;
S2,確定基模型的超參數;基模型包括Logistic Regression模型和LightGBM模型;在LightGBM模型中包括:
對分割特征j的分割點d定義為:
其中,
I[]表示方差增益;
d表示特征分割點;表示分割點左邊的方差增益,則表示分割點右邊的;
xij表示第xi個樣本的第j個特征;
o表示某個固定節點的訓練集;
gi表示第i次梯度迭代的負梯度方向;
遍歷每個特征的每個分割點,找到并計算最大的信息增益然后,將數據根據特征j*的分割點將數據分到左右子節點;
在基模型訓練完成后,引入Stacking方法集成Logistic Regression模型和LightGBM模型;
S3,對基模型的預測結果進行重新學習;得到最終的預測結果。
2.根據權利要求1所述的基于層疊泛化和代價敏感學習的社交網絡鏈路異常預測方法,其特征在于,在步驟S1中Logistic Regression模型包括:
給定數據集D=(x1,y1),(x2,y2),(x3,y3),……,(xN,yN),其中,yi∈{0,1};當yi=0時,yi表示負類;當yi=1時,yi表示正類;i=1,2,3,…,N;表示樣本特征空間,n表示各個樣本的特征個數;N表示數據集D中樣本的個數;
由于wTx+b取值是連續的,其中w表示列向量,維度為(n,1);T表示轉置;x表示列向量,維度為(n,1);b表示列向量,維度為(1,1);因此它不能擬合離散變量,用它來擬合條件概率P(Y=1|x);對于w≠0,wTx+b取值為實數R,不滿足概率取值為0到1,因此采用廣義線性模型;
由于單位階躍函數不可微,對數幾率函數是一個替代函數:
于是有:
若y為x取正例的概率,則1-y為x取反例的概率;兩者比值稱為幾率odds,指該事件發生與不發生的概率比值,若事件發生的概率為P,則對數幾率:
將y視為類后驗概率估計,重寫公式有:
也就是說,輸出Y=1的對數幾率是由輸入x的線性函數表示的模型,這就是邏輯回歸模型;當wT+b的值越接近正無窮,P(Y=1|x)概率值也就越接近1;因此,先擬合決策邊界,再建立這個邊界與分類的概率聯系,從而得到了二分類情況下的概率;
邏輯回歸模型的數學形式確定后,求解模型中的參數;在統計學中,使用極大似然估計法求解,即找到一組參數,使得在這組參數下,數據的似然度最大;令:
損失函數
p(xi)表示第i個樣本在已知特征為xi的情況下的為正類(Y=1)的概率;
yi就是二分類問題給定數據集D中的,即是yi=y1,y2,y3,…,yn,yi∈{0,1};
為了求解,對等式兩邊同取對數,寫成對數似然函數:
在機器學習中有損失函數的概念,其衡量的是模型預測錯誤的程度;取整個數據集上的平均對數似然損失,可以得到:
其中,N表示數據集D中樣本的個數;
即在邏輯回歸模型中,最大化似然函數和最小化損失函數是等價的;
求解邏輯回歸的方法有非常多,這里使用梯度下降法;優化的目標是找到一個方向,參數朝這個方向移動之后使得損失函數的值能夠減小,這個方向由一階偏導或者二階偏導各種組合求得;邏輯回歸的損失函數是:
梯度下降是通過J(w)對w的一階導數來找下降方向,并且以迭代的方式來更新參數,更新方式為:
表示第i個樣本權重參數的第k次迭代更新后的權重參數;
α表示學習率,表示1次參數迭代更新的快慢;
表示第i個樣本權重參數的第k+1次迭代更新后的權重參數;
wi表示第i個樣本的權重參數。
3.根據權利要求1所述的基于層疊泛化和代價敏感學習的社交網絡鏈路異常預測方法,其特征在于,在步驟S2中,確定基模型中超參數的方法包括交叉驗證、網格搜索、早停法之一或者任意組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶理工大學,未經重慶理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010873960.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種板式分餾塔
- 下一篇:一種聯網洗衣機前面板輸送調節輔助機構





