[發明專利]一種文本增強的網絡表示學習方法有效
| 申請號: | 201810336473.7 | 申請日: | 2018-04-13 |
| 公開(公告)號: | CN108536844B | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 楊博;楊爽 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/901 |
| 代理公司: | 北京君泊知識產權代理有限公司 11496 | 代理人: | 王程遠 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 增強 網絡 表示 學習方法 | ||
本發明公開了一種文本增強的網絡表示學習方法,涉及復雜網絡分析技術,基于非負矩陣分解的框架提出了一個新的由文本信息增強的網絡表示學習方法,對于網絡結構,本文結合了節點之間的一階和二階相似性,然后通過分解相似度矩陣得到網絡表示;對于與節點相關的文本聚類結構,本文將文本?詞項矩陣進行分解得到文本聚類隸屬度矩陣,然后利用該矩陣在網絡表示和文本聚類結構之間建立了一致性關系,從而網絡表示學習由網絡結構和與節點相關的文本聚類結構共同控制,該方法既刻畫了網絡結構又刻畫了與節點相關的文本聚類結構,為網絡表示學習增加了除網絡結構之外的額外信息,從而使學習到的節點表示包含更多的有用信息,具有更高的可辨識性。
技術領域
本發明涉及復雜網絡分析技術領域,尤其涉及一種文本增強的網絡表示學習方法。
背景技術
在現實世界中,網絡無處不在,例如知名社交網絡推特和學術論文引文網絡DBLP等,由于網絡的普遍性和重要性,網絡分析受到了越來越多的關注。多種網絡分析任務被廣泛研究,例如節點分類、連接預測和社區發現。但是,這些任務通常面臨著鄰接矩陣這一傳統網絡表示所帶來的稀疏性問題。為了解決這個問題,近幾年,旨在為網絡中的每個節點學習低維連續的向量表示的網絡表示學習方法引起了廣大學者的研究興趣。網絡表示學習旨在為網絡中的每個節點學習一個低維連續的向量表示,這在許多應用方面都很有用。目前絕大多數的網絡表示學習方法都只關注于網絡結構信息,而通常與網絡結構緊密相關的節點文本信息卻被忽略了。低維連續的節點表示向量可以直接作為網絡分析任務的輸入,因此這些任務能夠在一個連續的向量空間內被執行,從而避免了網絡稀疏性所帶來的問題。
網絡表示學習的一個基本要求是保證所學的節點表示能夠保留并刻畫出原始的網絡結構和其固有屬性。為了滿足這一要求,一些網絡表示方法旨在刻畫節點之間的一階相似性,例如譜聚類通過計算規范化的Laplace矩陣的前d個特征向量來得到d維的節點向量表示;也有提出保留節點之間二階相似性的思想,還有進一步提出刻畫節點之間的k階相似性。
目前絕大多數的網絡表示學習方法都僅僅考慮了網絡的鏈接信息,而在真實世界中,網絡除了具有節點之間的鏈接信息,網絡中的節點自身通常也包含一些信息,比如文本信息或圖像信息。據觀察,節點文本信息通常與網絡結構緊密相關。例如,在引文網絡中,有相似文本內容的論文之間往往存在較強的引用關系;在微博上,用戶之間的關注關系一般取決于他們所發表的微博內容。盡管節點的文本信息與網絡結構是緊密相關的,但在已有的網絡表示學習方法中將節點文本信息納入考慮的相關工作卻很少。
發明內容
針對上述缺陷或不足,本發明的目的在于提供一種文本增強的網絡表示學習方法。
為達到以上目的,本發明的技術方案為:
一種文本增強的網絡表示學習方法,包括:
1)、建立基于網絡拓撲結構的無向圖,所述無向圖包括多個節點的集合、多條邊的集合、以及和節點相關的文本信息集合;
2)、根據網絡拓撲結構的無向圖,對每對節點之間進行多階相似性建模,得到最終的相似度矩陣,對相似度矩陣進行非負矩陣分解,得到第一目標函數,構建網絡結構模型;
3)、根據網絡節點的文本信息,將網絡節點的文本信息表示為文檔-詞項矩陣,基于非負矩陣分解的文本聚類方法,將文本-詞項矩陣分解成兩個非負的矩陣,得到第二目標函數,構建文本信息模型;
4)、根據文本簇的表示矩陣,獲取第三目標函數,并根據第三目標函數將網絡結構模型和文本信息模型統一在完整框架下,得到最終的節點表示矩陣,以使得節點表示包含有用信息。
所述步驟1)包括:
設G=(V,E,T)表示無向圖,其中V表示n個節點的集合,E表示e條邊的集合,T表示和節點相關的文本信息集合。
所述步驟2包括對每對節點之間進行一階和二階相似性建模,具體包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810336473.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種涉黃網站主動舉報系統
- 下一篇:殘缺數據庫文件檢驗方法





