[發明專利]微博數據流演化主題建模文檔聚類解析法在審
| 申請號: | 202110456368.9 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN112989799A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 扆亮海;何克慧 | 申請(專利權)人: | 扆亮海 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/289;G06K9/62;G06F16/951;G06F16/955 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 325300 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據流 演化 主題 建模 文檔 解析 | ||
1.微博數據流演化主題建模文檔聚類解析法,其特征在于,基于微博流式數據的文檔發掘任務,提出一種焦點主題模型TfLDA,實現微博文檔數據流中的文檔聚類與演化主題分析,焦點主題模型TfLDA的架構為:第一,基于微博文檔的多屬性特征計分策略,對數據流進行分片篩選,形成優質微博文檔;第二,采用在線驅動LDA的訓練方式提取每片優質文檔的潛在主題;第三,通過聯合訓練的譜聚類及主題推算的方式,實現潛在主題的快速聚合,形成焦點主題;第四,基于提出的焦點主題模型TfLDA,計算焦點主題與優質文檔之間的相似度,并根據相似度將文檔歸屬于對應的焦點主題,實現優質文檔的聚類;第五,再通過追蹤焦點主題在時間序列上的變化情況,實現主題的演化分析;
首先基于微博的多屬性進行計分,完成優質微博文檔的提取,然后采用在線驅動LDA的方式得到文檔集中的潛在主題,并通過聯合訓練的譜聚類及主題推算方法提煉出焦點主題;基于數據流的焦點主題提取模型TfLDA包括,首先,采用EM算法估算每條微博的各個特征的權值,以此對微博進行計分,從中提取優質的微博文檔;其次,從小規模的優質微博文檔集入手,基于在線LDA得到每個時刻下的潛在主題;然后提出合作學習的譜聚類算法以及基于時間窗口的主題推算,完成焦點主題的提取;最后,基于焦點主題,將優質短文檔依據與焦點主題的相似度劃分到對應的文檔聚簇中以實現聚類;再結合焦點主題的各個要素在時間序列上的變化進行演化分析;
微博文檔數據流中的TfLDA:基于在線驅動LDA模型,在基于數據流的TfLDA模型中,將數據片的先驗知識運用到當前數據片的計算中,即r時刻下的數據片的焦點主題由r時刻下的時間窗口中的之前的數據片的焦點主題推算得出;對于r時刻下潛在主題的詞匯分布矩陣Yr,首先基于TfLDA方法估算焦點主題的個數tr,當前數據片與前一數據片之間語義關聯性強,直接在r-1時刻的焦點主題中選取tr個主題作為當前焦點主題矩陣的初始值,進一步考慮以下幾種情況:
第一,r-1時刻下的焦點主題數tr-1小于tr;需要向前回溯一個數據片選取主題,若還不夠則繼續在時間窗口中向前回溯,直至選取的主題數為tr個為止;
第二,r-1時刻下的焦點主題數tr-1等于tr;直接選取r-1下的所有焦點主題SYr-1作為r時刻下焦點主題矩陣的初始值;
第三,r-1時刻下的焦點主題數tr-1大于tr:統計r-1時刻下的這tr-1個焦點主題的強度,即該焦點主題所包含的潛在主題的個數,選取強度最高的前tr個作為r時刻下焦點主題矩陣的初始值;
根據上述三種不同的情況,將r時刻下的焦點主題矩陣初始化,設初始化矩陣為然后,對于r時刻下的所有潛在主題,計算其與該初始化矩陣中的每個初始焦點主題之間的相似度,將每個潛在主題歸到與其最相似的焦點主題,形成聚類,再對每個聚類求聚類中心,得到r時刻下的tr個焦點主題構成的矩陣對潛在主題與初始焦點主題之間的相似度設置一個臨界值f,對于與任意一個初始焦點主題的相似度均小于f的潛在主題,即認為是當前時刻下新出現的潛在主題,對這些新潛在主題直接進行譜聚類得到新焦點主題NSYr,聚類的個數由TfLDA方法估算,若新出現的焦點主題的個數為ntr,則將中的強度最小的ntr個焦點主題剔除,而將ntr個新焦點主題加入,形成r時刻下的tr個焦點主題所構成的矩陣SYr;對于數據流起始階段的一個時間窗口的數據片,采用聯合訓練的譜聚類方式得到焦點主題,而對于之后的每一個數據片,通過其所在的時間窗口中的其余數據片的焦點主題推算得到,平均每p個數據片中有1個需要用聯合訓練的譜聚類方式得到焦點主題,p為1個時間窗口中的數據片個數,其余p-1個數據片的焦點主題通過推算得出,保證任意一個時間窗口中,至少有1個數據片的焦點主題是由聯合訓練譜聚類的方式得到的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于扆亮海,未經扆亮海許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110456368.9/1.html,轉載請聲明來源鉆瓜專利網。





