[發明專利]基于網絡鏈接和文檔內容的主題嵌入、文檔表示方法有效
| 申請號: | 201811191449.5 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109299464B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 金弟;黃劍濤 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/247;G06F16/35;G06N7/01 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 鏈接 文檔 內容 主題 嵌入 表示 方法 | ||
本發明公開一種基于網絡鏈接和文檔內容的主題嵌入、文檔表示方法。通過引入文檔網絡中的拓撲鏈接信息,有效地解決主題嵌入模型中存在的受模糊語義詞(如同義詞)影響主題的問題。利用該鏈接信息,用概率圖模型結合數據中的文檔內容和鏈接,通過變分推斷的方法優化模型的參數,基本解決了由模糊語義造成的負面影響,得到更加精準的主題嵌入以及文檔表示。本發明方法結合了文檔網絡中的鏈接關系和內容信息,有效改善了現有的主題嵌入模型因為模糊語義(如一詞多義)導致的主題嵌入效果不佳的問題,通過建立概率圖模型,使得該方法的可解釋性更強,并利用變分期望最大化算法使得參數更新高效,收斂時間短,能應用到大規模網絡。
技術領域
本發明屬于機器學習、復雜網絡、自然語言處理,提出了一種新的主題模型提升主題嵌入(即在低維空間中表示主題)以提升文檔網絡中文檔的低維表示,具體涉及一種基于網絡鏈接和文檔內容的主題嵌入、文檔表示方法。
背景技術
在自然語言處理領域,主題模型具有很多的應用,例如:把文檔映射到低維的主題空間,即用文檔的主題分布來表示文檔。傳統的主題模型忽略了主題之間的相關性,為了表征主題之間的相關性,近幾年來,在主題模型中,主題嵌入的方法被提出,其主要用于表征主題之間的關系。目前,大多數通過主題嵌入以獲取文檔表示的方法利用一個鏈接函數(如余弦相似度函數)來刻畫主題和詞之間的相關性(余弦相似度越大,主題和詞之間關聯性越大),鏈接函數通常是一個距離函數,即描述兩點間距離的一種函數關系(如歐式距離,余弦相似度函數),且詞和主題表示為低維向量形式,即在低維空間中表示的向量形式。在低維的空間中,越相似的主題之間越接近。所以,相對于傳統的主題模型,主題嵌入不僅能夠通過詞嵌入獲取語義規律,而且可以直接衡量主題之間的相關性,該方法可以有效提升文檔表示的效果。然而,目前提出的通過主題嵌入以獲取文檔表示的方法僅僅利用了文檔的內容信息(即文檔中的詞)來獲得所需結果,而文檔內容中存在大量的模糊語義(比如同義詞),受模糊語義的影響,容易導致主題嵌入及文檔表示效果不佳的問題。同時,在現實的文檔數據中,文檔之間是存在鏈接關系的,比如論文之間的引用。
發明內容
本發明的目的在于克服現有技術的不足,提出了一種有效結合文檔內容和鏈接信息的產生式主題嵌入模型,同時通過變分期望最大化算法對參數進行優化,以消除模糊語義影響,從而獲得更加精準的主題嵌入和文檔表示。
為了達到上述目的,本發明采用的技術方案是基于網絡鏈接和文檔內容的主題嵌入、文檔表示方法,包括以下步驟:
1)構建所對應的概率圖模型,包括內容、拓撲和概率轉移矩陣三部分,并詳細刻畫模型中每個變量的含義;
2)根據概率圖模型中各參數服從的概率分布,刻畫模型生成過程,得到完全數據似然函數;
P(D,X,A,V,T,G,Z,H,α|π,n0,ρ,λ,μ)???(1)
其中n0,ρ,λ,μ是模型的超參數,其余字符所對應的含義可參照表1
表1為概率圖模型中所對應的標識的解釋
3)固定主題嵌入和主題嵌入冗余(即T和A)的值,定義相關參數即主題標簽,社團標簽,主題和社團標簽的轉移概率,社團標簽的先驗概率(G,Z,H,α)的變分參數和分布,再結合步驟2)的完全似然函數,得到證據下界(ELBO);
4)為了最大化證據下界(ELBO),提取證據下界中與各個變分參數有關的部分,分別求偏導,并等于0,求得各個變分參數的優化結果;
5)固定步驟4)優化所獲得的變分參數,利用隨機梯度下降的方法獲得主題嵌入(T)的優化;
6)采集并處理數據集,從文檔網絡中抽取所需要的內容和鄰接矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811191449.5/2.html,轉載請聲明來源鉆瓜專利網。





