[發明專利]一種基于層次注意力機制的半監督網絡表示學習模型在審
| 申請號: | 201910821415.8 | 申請日: | 2019-09-02 |
| 公開(公告)號: | CN110781271A | 公開(公告)日: | 2020-02-11 |
| 發明(設計)人: | 姚宗強;崇志強;劉杰;徐福華;周作靜;馬世乾;楊曉靜;郭悅;尚學軍;王偉臣;鄧君怡;李國棟;霍現旭;王旭東;黃志剛;呂金炳;張文政;張津沛;蘇立偉 | 申請(專利權)人: | 國網天津市電力公司電力科學研究院;國網天津靜海供電有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/30 |
| 代理公司: | 12209 天津盛理知識產權代理有限公司 | 代理人: | 王來佳 |
| 地址: | 300384 *** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 半監督 向量 注意力機制 節點標簽 文本表示 語義編碼 節點分類 節點結構 網絡表示 網絡節點 引入 鏈接 學習 預測 | ||
本發明涉及一種基于層次注意力機制的半監督網絡表示學習模型,其特征在于:包括如下步驟:步驟1),詞級語義編碼;步驟2),句級語義編碼;步驟3),節點文本表示;步驟4),得到節點結構表示向量及節點的表示向量;步驟5),半監督框架下引入節點標簽。本發明基于層次注意力機制學習網絡節點的文本表示,同時在半監督的框架下引入節點標簽信息,最終得到節點高質量的表示向量。提升了在下游任務(節點分類、鏈接預測)上的性能。
技術領域
本發明屬于計算機應用技術領域,涉及一種半監督網絡表示學習模型,具體涉及一種基于層次注意力機制的半監督網絡表示學習模型。
背景技術
網絡是一種組織現實世界中不同種類信息的有效方式。隨著信息技術的發展,互聯網中積累了大量具備網絡結構的數據。對這些網絡結構數據的分析對各行業的發展具有重要意義。分析網絡結構數據的首要任務就是綜合利用網絡中的特征信息,將網絡節點表示成一個低維、稠密的向量,又稱為網絡表示學習。在得到網絡節點的表示向量后,可將其輸入已有的算法來完成節點分類、聚類、鏈接預測等下游任務。例如對社交網絡中的節點進行聚類分析,可以幫助社交平臺進行社區發現,進而為用戶提供更好的消息推送與好友推薦,提升用戶使用體驗。另外,網絡結構數據往往具有大量外部信息,例如節點的文本信息與節點標簽信息。文本信息的引入可以豐富節點語義,提高表示向量質量;節點標簽信息可以提升表示向量的區分性。然而,由于網絡結構是稀疏的,外部文本信息具有層次結構,大規模網絡中節點標簽是不完全的,因此如何有效地、綜合地考慮網絡數據的結構信息、文本信息與標簽信息,得到高質量的節點表示向量是本發明專利研究的核心任務。
近年來,國內外已有很多工作針對網絡表示學習任務開展了相關研究,并且取得了一定的研究成果。現有的相關研究主要可以分為基于關系矩陣的表示學習,基于網絡結構的表示學習和結合外部信息的網絡表示學習。
關系矩陣一般為網絡的鄰接矩陣或拉普拉斯矩陣,基于關系矩陣的表示往往需要對這些矩陣進行特征向量計算。可以將諸如局部線性表示(Locally Linear Embedding,LLE)、拉普拉斯特征表(Laplace Eigenmap,LE)、有向圖表示(Directed Graph Embedding,DEG)等的網絡表示學習方法視為降維算法,這些方法能夠捕捉網絡的線性結構信息。然而,特征向量計算的非線性性導致這類算法較高的復雜度,限制了其在大規模網絡數據上的應用。
作為基于網絡結構的表示學習算法的代表,DeepWalk第一次將深度學習的技術引入到網絡表示學習。Perozzi等人通過實驗驗證了網絡中隨機游走序列中的節點和文檔中的單詞一樣都遵從指數定律,從而將詞表示學習算法skip-gram應用在隨機游走序列上,學習節點表示。Grover等人提出的Node2Vec對原始的DeepWalk進行改進,通過一個有偏的隨機游走來平衡深度優先與廣度優先。針對大規模的網絡,Tang等人提出的LINE引入一階與二階相似度,從而同時保留了局部與全局的網絡結構信息。同時,LINE使用負采樣方法來優化skip-gram。
真實世界中的網絡節點往往會伴隨著豐富的外部信息。Yang等人提出了文本相關的DeepWalk模型,在矩陣分解的框架下,將節點的文本特征引入網絡表示學習。真實世界中的網絡節點在與其他節點交互時,往往會展現出不同方面的特點。Tu等人基于這一點,利用網絡節點的文本信息來對節點之間的關系進行解釋,為網絡節點根據不同的鄰居學習上下文相關的表示向量。另外,Tu等人提出的MMDW同時學習矩陣分解形式的網絡表示模型和最大間隔分類器,從而增大了表示向量的區分能力。
雖然上述方法考慮到了網絡拓撲結構與節點外部信息,但在編碼文本信息時,并未考慮文本的層次結構。本發明專利認為,層次地編碼文本,即由詞的表示得到句子的表示,再由句子的表示得到篇章的表示,可以提升文本表示的質量,之后用半監督的方法引入節點標簽信息,最終能得到更好的節點表示向量。由此,如何層次地建模節點文本信息,并與網絡結構信息、節點標簽信息結合,是本專利主要解決的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網天津市電力公司電力科學研究院;國網天津靜海供電有限公司,未經國網天津市電力公司電力科學研究院;國網天津靜海供電有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910821415.8/2.html,轉載請聲明來源鉆瓜專利網。





