[發明專利]基于網絡鏈接和文檔內容的主題嵌入、文檔表示方法有效
| 申請號: | 201811191449.5 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109299464B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 金弟;黃劍濤 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/247;G06F16/35;G06N7/01 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 鏈接 文檔 內容 主題 嵌入 表示 方法 | ||
1.基于網絡鏈接和文檔內容的主題嵌入、文檔表示方法,其特征在于,包括以下步驟:
1)構建出所對應的概率圖模型,包括內容、拓撲和概率轉移矩陣三部分,并詳細刻畫出模型中每個變量的含義,所述概率圖模型中的變量及參數包括:
S:詞匯集合,D:文檔集合,X:鄰接矩陣,V:詞嵌入矩陣
tk,T:第k個主題的嵌入表示,二元冗余
μn,μ:嵌入大小懲罰系數,經驗二元概率
rik,ri:主題冗余,gij,Gi:在第i個文檔中第j個詞的主題標簽
zi,Z:第i個文檔所屬的社團標簽,πql,π:在第q個和第l個社團中的一對結點有鏈接的概率,αq,α:文檔屬于第q個社團的先驗概率,ηqk,H:第i個文檔在k個主題下屬于第q個社團的概率;
2)根據概率圖模型中各參數服從的概率分布,刻畫模型生成過程,得到完全數據似然函數;
P(D,X,A,V,T,G,Z,H,α|π,n0,ρ,λ,μ)
其中n0,ρ,λ,μ是模型的超參數
3)固定主題嵌入和主題嵌入冗余,即T和A的值,定義相關參數即主題標簽,社團標簽,主題和社團標簽的轉移概率,社團標簽的先驗概率G,Z,H,α的變分參數和分布,再結合步驟2)的完全似然函數,得到證據下界;
4)為了最大化證據下界,提取證據下界中與各個變分參數有關的部分,分別求偏導,并等于0,求得各個變分參數的優化結果;
5)固定步驟4)優化所獲得的變分參數,利用隨機梯度下降的方法獲得主題嵌入T的優化;
6)采集并處理數據集,從文檔網絡中抽取所需要的內容和鄰接矩陣;
7)隨機初始化參數,利用步驟4)和步驟5)所得的參數更新規則建立模型訓練過程,將處理好的數據集放入模型中訓練,不斷迭代,直至參數更新收斂;
8)將所獲得的參數結果記錄到相關文檔中,且用所得的文檔主題分布表示文檔,將所得文檔表示放入分類器中進行訓練,并將訓練好的主題嵌入進行可視化表示。
2.根據權利要求1所述的基于網絡鏈接和文檔內容的主題嵌入、文檔表示方法,其特征在于,所述步驟5)的具體步驟為:
(1)提取證據下界中與主題嵌入有關的部分,求偏導;
(2)通過步驟(1)中所得證據下界中有關主題嵌入的導數的等式,代入并通過隨機梯度下降的方法獲得主題嵌入的優化規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811191449.5/1.html,轉載請聲明來源鉆瓜專利網。





