[發明專利]基于主題演化趨勢的科技大數據流行性及前沿性度量方法在審
| 申請號: | 202210060381.7 | 申請日: | 2022-01-19 |
| 公開(公告)號: | CN114417837A | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 劉業政;王繼成;姜元春;錢洋;孫見山;柴一棟;陳航;袁昆 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/289 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主題 演化 趨勢 科技 數據 流行性 前沿 度量 方法 | ||
1.一種基于主題演化趨勢的科技大數據流行性及前沿性度量方法,其特征是,所述方法是按以下步驟進行:
步驟1、獲取科技數據的標題、摘要、關鍵詞、發表時間信息:
步驟1.1、定義科技數據集的序號集合為D∈{1,2,...,d,...,|D|},其中,d表示任意科技數據的編號,|D|表示科技數據的數量;
步驟1.2、獲取|D|篇科技數據的發表時間,其中,將第d篇科技數據的發表時間為一個時間切片t,則將時間切片t中的第d篇科技數據記為Dd,t,且t∈{1,2,...,T},T表示時間切片總數;
獲取|D|篇科技數據的標題、摘要和關鍵詞信息并利用關鍵詞構造的人工分詞詞典進行分詞處理,再去除標點符號、停用詞及低頻詞,從而構成文本集合其中,第d篇科技數據所對應的文本信息,記為Wdn表示第d篇文本信息中第n個詞,Nd表示第d篇文本信息中詞的總數;
步驟2、基于科技數據的發表時間信息和文本信息,構建動態主題模型DTM:
步驟2.1、利用式(1)所示的線性動態模型采樣時間切片t的演化參數αt:
式(1)中,αt-1表示時間切片t-1內的演化參數,表示正態分布,θ表示變量參數,I是單位矩陣;
步驟2.2、利用式(2)所示的狀態空間模型采樣時間切片t內主題k的自然參數βt,k:
式(2)中,βt,k-1表示時間切片t中主題k-1的自然參數,δ表示變量參數;
步驟2.3、對于時間切片t中的第d篇科技數據Dd,t,利用式(3)從先驗參數(αt,σ2I)的正態分布中采樣文檔-主題分布參數ηd,t:
式(3)中,σ表示變量參數;
利用式(4)從先驗參數(π(ηd,t))的多項分布中采樣單詞對應的主題K:
K~Mult(π(ηd,t)) (4)
式(4)中,π為用于將多項自然參數映射為平均參數的函數;Mult表示多項式分布;
利用式(5)從先驗參數為(π(βt,k))的多項分布中采樣生成文檔Dd,t中的單詞Wd,n,t:
Wd,n,t~Mult(π(βt,k)) (5)
步驟2.4、對于數據集合利用式(6)得到動態主題模型DTM:
式(6)中,α表示演化參數,η表示文檔-主題分布參數,β表示主題自然參數,表示超參數的先驗分布;
步驟2.5、利用所述動態主題模型DTM獲得文檔主題分布p(kt|d),其中,kt表示時間切片t中的任一主題;
步驟3、計算時間切片t下的文檔集合中第j個文檔dtj的文檔主題分布為p(kt|dtj);從而利用式(7)時間切片t下主題kt的主題熱度值TopicHot(kt):
式(7)中,Nt表示時間切片t下的文檔集合中的文檔數量;
步驟4、利用式(8)計算時間切片t下的文檔集合中第j個文檔dtj的流行性Popularity(dtj):
步驟5、計算科技數據的前沿性:
將主題k在每一個時間切片內所對應的主題熱度值中主題熱度最高的時間切片記為tm并將對應的最高主題熱度值記為
利用式(9)得到時間切片t下的文檔集合中第j個文檔dtj在主題k上的前沿性Frontier(dtj,k):
利用式(10)計算時間切片t下的文檔集合中第j個文檔dtj的前沿性Frontier(dtj):
Frontier(dtj)=∑k∈KFrontier(dtj,k) (10)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210060381.7/1.html,轉載請聲明來源鉆瓜專利網。





