[發明專利]一種基于復雜網絡特性及神經網絡聚類挖掘用戶興趣的方法有效
| 申請號: | 201610056077.X | 申請日: | 2016-01-27 |
| 公開(公告)號: | CN105740381B | 公開(公告)日: | 2019-05-17 |
| 發明(設計)人: | 張興蘭;劉煬 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 復雜 網絡 特性 神經網絡 挖掘 用戶 興趣 方法 | ||
1.一種基于復雜網絡特性及神經網絡聚類挖掘用戶興趣的方法,本方法將復雜網絡模型應用到用戶軟件興趣的挖掘中,建立用戶使用軟件的復雜網絡,并使用節點的度、聚集系數、節點介數和節點的概率特性指標確定節點的重要性排序,形成用戶興趣集,再利用神經網絡模型挖掘興趣集的聚類,確定用戶最終興趣集,為挖掘用戶興趣模型提供了一種新的方法,并且將用戶軟件興趣的挖掘精確性大幅提高,同時這種方法可以對用戶的多種興趣進行挖掘;
其特征在于:該方法主要從以下三方面進行設計;
1)構建復雜網絡模型;用戶使用軟件的先后順序具有一定的相關性,如用戶先使用Windows照片查看器,然后使用Photoshop,接著使用PowerPoint,這些軟件體現了用戶使用圖片形成文檔的過程,在所有軟件的使用序列中形成小世界效應,所以按照軟件使用的順序,使得共同出現在一個窗口內的軟件形成共現關系,構建復雜網絡拓撲結構;利用PageRank的思想,以節點之間的連接度作為邊的權重;
2)確定節點重要性指標;針對節點重要性排序的指標特性的計算方法,形成用戶興趣社區;其中,節點的度表示該節點的鄰居數,有大量鄰居數的節點具有更大的影響力和號召力;
3)神經網絡聚類;利用CBOW和Skip-gram模型對用戶興趣社區中的軟件依據上下文序列中的關聯形成軟件詞向量,并利用向量的距離進行聚類,合并聚類,確定最終的用戶興趣軟件集;
第一、構建復雜網絡模型
用戶在同一個開關機會話中使用軟件的先后順序具有很強的相關性;換言之,相鄰軟件都是相關聯的,所以采用K近鄰的共現情況構成復雜網絡中的邊集,而研究發現K=2時節點之間的聯系最強,此時具有明顯的小世界特性;復雜網絡G=(V,E)是由|V|=N個節點和|E|=M條邊連接所組成的一個有向網絡,其中,V為復雜網絡G的節點集,由用戶軟件行為日志中的候選軟件組成,且
In(vi)={vj|<vj,vi>∈E},Out(vi)={vj|<vi,vj>∈E}
E為G的邊集,由軟件的共現關系形成且對于vi+1∈V,如果vi,vi+1符合K近鄰的共現情況,則有<vi,vi+1>∈E,邊的權重可寫成
weight(vi,vj)=Ti*strength(vi,vj) (2)
其中,strength(vi,vj)表示節點vi,vj之間的連接強度,|posi-posj|表示節點vi,vj在共現窗口內的距離,weight(vi,vj)表示邊<vi,vj>的權重,Ti表示軟件節點vi的使用時長;i,j為整數且0≤i<N,i≠j;
第二、節點重要性統計特性
在本方法的用戶軟件行為日志中,用戶使用軟件的時長能夠反映軟件的重要性,只需要將復雜網絡中節點的重要性對其進行修正即可;根據傳播動力學的知識衡量網絡中節點的重要性,將網絡中的節點作為傳播源,通過計算目標節點的傳播范圍來衡量節點在傳播過程中的影響力以及號召力;在一個網絡中,節點刪除前后網絡圖聯通性的變化能夠充分說明該節點是否有足夠的能力破壞網絡,體現了節點的重要性;所以綜合考慮復雜網絡特性、實用性以及行為數據本身的特性,選取節點聚集系數、節點介數和節點度數作為評價節點重要性的指標特性;
1)節點聚集系數
節點vi的聚集系數是與該節點相鄰的結點之間的連接數和它們之間所有可能存在的連接數的比值,表示了所有相鄰結點形成一個小團簇的緊密程度;節點的聚集系數寫成
其中,ki表示與節點vi相鄰的節點個數,這些鄰接點之間可能存在ki(ki-1)條邊,|ejk|表示vi鄰接點之間實際存在的邊數且ejk∈E;
2)節點介數
節點Vi的介數是任意兩個節點的最短路徑中經過節點vi的路徑數與最短路徑的總數形成的比值,反映該節點在網絡中的影響力;計算公式寫成
其中,nd(ij)表示vi和vj之間最短路徑的數目,nd(ijk)表示vi和vj經過vk的最短路徑的數目;
3)節點度數
節點的度數表示與該節點相連接的邊的個數,度的大小直接反映了該節點對于復雜網絡中其他節點的影響力,計算公式寫成
gi=clu(vi)+bet(vi)+gre(vi) (8)
其中,gi表示復雜網絡G中節點vi的重要性系數的綜合值,clu(vi)為節點vi的聚集系數,bet(vi)為節點vi的介數,gre(vi)為節點vi的度,Ti表示節點vi的使用時長,β是指標調參,取值0.6;
綜上所述,公式(7)是綜合軟件的時長特性和節點在復雜網絡中的重要性的綜合性指標,是多個判定指標標準化處理后再合并的結果,成為評判軟件重要性的綜合指標;
第三、神經網絡聚類
CBOW和Skip-gram模型是基于問答模式的,一個問題出現某種答案的現象,也能夠表示成一個問題與某種答案形成共現關系的情況;所以本方法使用word2vec工具融合CBOW模型和Skip-gram模型,將軟件看成詞項,基于前期工作中網絡拓撲結構中的共現關系、日志中軟件的使用順序構成的序列上下文形式,計算各個軟件的向量,然后根據向量余弦距離計算軟件相似性,在本方法中取距離最近的軟件形成聚類;其中,余弦距離公式可寫成,
其中,表示節點vi的向量,表示節點vj的向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610056077.X/1.html,轉載請聲明來源鉆瓜專利網。





