[發明專利]基于帶權時序文本網絡的時序社區以及話題的檢測方法有效
| 申請號: | 201710625669.3 | 申請日: | 2017-07-27 |
| 公開(公告)號: | CN107515854B | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 賈雨葶;黃壵瑋;黃穎;汪博;廖一鳴;邱杰霖;林順達;倪濤;林特;顧健喆;傅洛伊;王新兵 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F16/36;G06N5/04;G06Q50/00 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 郭國中 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 權時 序文 網絡 時序 社區 以及 話題 檢測 方法 | ||
1.一種基于帶權時序文本網絡的時序社區以及話題的檢測方法,其特征在于,包括如下步驟:
步驟S1:基于原始數據構建帶權時序文本網絡;
步驟S2:針對帶權時序文本網絡,構建基于主題模型的生成模型;
步驟S3:利用吉布斯采樣方法構建生成模型的推斷過程;
步驟S4:根據模型的推斷過程,對帶權時序文本網絡進行訓練,提取出社區信息、主題信息、社區與主題的對應關系、用戶在社區內影響力與參與度隨時間變化特性;
步驟S5:根據提取出的信息,對用戶行為進行預測;
所述步驟S1包括以下步驟:
步驟S101:根據原始數據中的信息構建節點和邊;
步驟S102:對文章節點添加語義信息和時間標記,對邊添加權重和時間標記;
步驟S103:定義社區和社區特征;
步驟S104:定義主題和主題特征;
所述步驟S2包括以下步驟:
步驟S201:對帶權時序文本網絡中的各個社區,執行如下步驟:
基于狄利克雷超參數α生成第c個社區的主題分布的多項式參數θc;其中,α是θc所服從的狄利克雷分布的參數,c為正整數;
基于伽馬分布超參數λ生成第c個社區和第c′個社區之間產生邊的概率的泊松分布參數ηcc′;其中,λ是ηcc′所服從的狄利克雷分布的參數;c和c′為正整數;
步驟S202:對帶權時序文本網絡中的各個主題,執行如下步驟:
基于狄利克雷超參數β生成第k個主題到詞的分布的多項式參數φk;其中,β是φk所服從的狄利克雷分布的參數,k為正整數;
步驟S203:對帶權時序文本網絡中的各個用戶,執行如下步驟:
基于狄利克雷超參數ρ生成第i個用戶到社區的分布的多項式參數πi;其中,ρ是πi所服從的狄利克雷分布的參數;i為正整數;
步驟S204:對帶權時序文本網絡中的各個用戶的各個文章,執行如下步驟:
基于多項式參數πi,生成第i個用戶的第j篇文章所屬的社區cij;其中i,j,cij為正整數;
基于多項式參數生成第i個用戶的第j篇文章的主題zij;其中i,j,zij為正整數;
基于貝塔參數生成第i個用戶的第j篇文章屬于社區cij和主題zij時的時間tij,其中i,j,cij,zij,tij為正整數;
基于多項式參數生成第i個用戶的第j篇文章的第1個詞wijl;其中i,j,l為正整數;
步驟S205:對帶權時序文本網絡中的每條邊,執行如下步驟:
基于多項式參數πi,生成邊的起點的用戶i的社區gii′;其中i,gii′為正整數;
基于多項式參數πi′,生成邊的終點的用戶i′的社區g′ii′;其中i′,g′ii′為正整數;
基于泊松參數生成邊(i,i′)的權重eii′;
基于貝塔參數生成出邊(i,i′)的入時刻sii′m;
基于貝塔參數生成出邊(i,i′)的出時刻s′ii′m。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710625669.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高效散熱的LED燈具
- 下一篇:應急通道燈外殼





