[發明專利]一種針對異質信息網絡的表示學習方法在審
| 申請號: | 201911036371.4 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110852437A | 公開(公告)日: | 2020-02-28 |
| 發明(設計)人: | 喻梅;劉瑩;于健;于瑞國;李雪威;徐天一;趙滿坤;劉春鳳 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 信息網絡 表示 學習方法 | ||
本發明公開一種針對異質信息網絡的表示學習方法;不同于傳統的信息網絡,異質信息網絡中包含了更加豐富和語義和結構信息,無疑對充分捕獲上述信息造成困難。本發明利用目前在序列數據處理上表現優異的Bi?RNN作為基準模型。首先在原始信息網絡的數據文件中加入各節點的類型信息;然后,基于預定義的元路徑進行節點間的隨機游走,即信息采樣;其次,通過考慮節點的間接鄰居信息,捕獲間接鄰居節點之間潛在的依賴關系;接著,通過綜合語義分析和大量的實驗,反向確定前后向的權重關系;最后,利用多標簽節點實驗評估衡量本發明所提的針對異質信息網絡的表示學習方法的有效性。
技術領域
本發明屬于數據挖掘、自然語言處理和網絡分析領域,涉及網絡嵌入技術和單詞嵌入技術,尤其是一種針對異質信息網絡的表示學習方法。
背景技術
現實世界中的信息網絡無處不在,如社交和通信網絡(social andcommunication networks)、文獻網絡(citiation networks)和航空公司網絡(airlinenetworks)等等。這些網絡中往往存在著不止一種類型的節點或節點間邊,如文獻網絡中包含作者author、論文發表場所venue和論文paper等類型節點,“發表”、“引用”等類型的節點間邊。這種類型的網絡被稱為異質信息網絡。針對其的分析和研究在最近幾年里越來越多鑒于其能夠保存網絡中豐富的語義和結構信息。現實世界中的信息網絡往往規模很大,無法直接對其進行分析挖掘。網絡嵌入可以通過學習網絡節點的低維稠密的向量表示來保存原始的大規模網絡中的豐富信息,使得對信息網絡的挖掘變得更加高效,學習到的表示同時可以很方便的服務于下游任務,如事件檢測和推薦系統等。
信息網絡嵌入可以很高效的將大規模信息網絡中的信息轉換為低維、稠密的向量表示,同時保留信息網絡中豐富的語義和結構信息。早期的網絡嵌入方法,如DeepWalk、LINE將信息網絡看作同質信息網絡,同時通過將短隨機游走序列看作自然語言中語句、序列中節點看作文本中單詞,利用神經語言模型skip-gram進行了節點嵌入。Skip-gram模型為具有相似上下文的單詞產生相似表示。
傳統方法并沒有考慮到信息網絡中節點的異質性的問題,近幾年來針對異質信息網絡嵌入的研究也越來越多。為利用元路徑在異質信息網絡表示學習中對語義和結構信息的保留能力,metapath2vec方法利用基于元路徑的隨機游走構造一個節點的異質鄰居,同時利用異質skip-gram模型進行節點嵌入,從而得以對異質網絡中的結構和語義關系同時建模。盡管metapath2vec方法的實驗效果很高效,但依然使用傳統的神經語言模型skip-gram進行表示學習。類似的,hin2vec方法提出不同的元路徑可能具有不同的語義,并通過編碼元路徑和整個網絡結構中包含的信息來學習有意義的表示。除對異質信息網絡中元路徑的研究,一些方法則針對特定類型的異質信息網絡進行表示學習,如PTE方法學習預測性的文本嵌入。此外,一些研究通過將節點間不同類型的邊嵌入到不同潛在空間來處理HIN中的異質信息。其中,HEER方法研究異質信息網絡在嵌入學習中的綜合轉錄問題。該方法利用邊表示和異質度量方法來保留網絡中的豐富信息,來解決不同類型邊所帶來的節點間的不兼容問題。PME方法引入獨特的潛在空間建模節點和邊來緩解已有度量學習方法的潛在幾何不靈活性。
發明內容
本發明的目的是為了克服現有技術中的不足,提供一種針對異質信息網絡的表示學習方法,能夠高效利用現實世界的異質信息網絡中存在的異質信息,同時充分捕獲網絡中存在的語義信息和結構信息,從而提高最終的網絡嵌入效果。
本發明的目的是通過以下技術方案實現的:
一種針對異質信息網絡的表示學習方法,包括以下步驟:
步驟一,將社交網絡數據文件預處理,加入各個網絡節點的類型信息;
步驟二,利用預處理后的數據文件,根據各網絡節點的類型與節點間邊的類型信息,在指定的元路徑指導下,進行隨機游走,得到每個網絡節點的定長隨機游走序列,完成對異質信息網絡的信息采樣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911036371.4/2.html,轉載請聲明來源鉆瓜專利網。





