[發明專利]面向多源信息的混合文本話題發現方法有效
| 申請號: | 201910403543.0 | 申請日: | 2019-05-15 |
| 公開(公告)號: | CN110263153B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 吳旭;頡夏青;王昕喆;許晉;方濱興;陸月明 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/247;G06F40/289 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 劉廣達 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 信息 混合 文本 話題 發現 方法 | ||
本發明涉及話題發現領域,特別涉及一種面向多源信息的混合文本話題發現方法。本發明具體包括以下步驟:步驟一、對原始數據進行特征融合,得到特征均勻的結果集D;步驟二、對步驟一中得到特征均勻的結果集D,基于狄利克雷多項式混合模型的聚類方法進行聚類。本發明能夠將文本向量特征不均勻的多源文本數據均勻化;通過DMM模型,提升對高噪聲、低信息量的短文本數據的話題檢測效果;能自動識別出聚類的類別個數,不需要事先給定簇的個數。
技術領域
本發明涉及話題發現領域,特別涉及一種面向多源信息的混合文本話題發現方法。
背景技術
隨著信息技術的廣泛應用和網絡空間的蓬勃發展,網絡空間安全問題已成為社會熱點。其中,利用話題發現技術掌握民意的走向,對于網絡空間安全的治理起著至關重要的作用。有時輿情監管者需要進行熱門話題檢測的信息源可能來自多種類別,比如一個文本集中既有新聞網站的信息,也有網絡社區和社交媒體的信息。由于文本集混雜著不同信息源的文本,所以文本的長度之間有很大的差異性。對這類文本進行多源文本集合的話題檢測時,由于新聞網站類信息源的信息和其余兩類信息源的信息特點差異較大,就造成了文本向量特征不均勻的現象。面向多源信息的混合文本由于其信息源的多樣性,導致文本特征不均勻。近年來的研究中,對于特征分布均勻的文本進行話題聚類的研究較多,而文本向量特征不均勻的問題一直是聚類算法的一個難題。若使用現有的針對特征均勻文本的話題聚類方法,來對特征分布不均勻的文本進行話題聚類,則聚類結果容易被篇幅較長的某個文本所主導話題,短文本的特征將被長文本的特征所稀釋,最終話題聚類的結果具有很大的不穩定性。所以使用單獨的某個聚類方法來進行文本向量特征不均勻的文本信息話題檢測,準確度會很低。
話題檢測及追蹤(Topic Detection and Tracking,TDT)的概念最早由美國國防高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)提出,目標是能在沒有人工干預的情況下自動判斷新聞數據流的主題。自此之后,該領域進行了多次大規模評測,為信息識別、采集和組織等相關技術提供了新的技術支持。目前,國內外關于文本的話題檢測研究已經取得了一定的進展,這些話題檢測方法主要分為兩類,一類是針對新聞網站信息源信息文本的話題檢測研究,另一類是針對網絡社區和社交媒體信息源中的用戶原創內容(User Generated Content,UGC)的話題檢測研究。
針對新聞網站信息源信息的話題檢測,在國際上,賓夕法尼亞州立大學的三人于2010年提出一種用于尋找更好的初始種子的改進K-Means算法的聚類算法,用于進行新聞信息的話題檢測。基于此算法的新聞信息聚類結果較傳統的K-Means算法而言,具有更高的準確度和穩定性。在國內,李琮,袁方,劉宇等人于2016年提出了一種基于LDA模型的中文新聞話題檢測方法,該方法能快速有效的實現新聞聚類。
針對網絡社區和社交媒體信息源信息的話題檢測,在國際上,南加利福尼亞大學的Vivek Kumar Rangarajan Sridhar于2015年提出了一種基于高斯混合模型(GaussianMixture Model,GMM)的針對短文本的無監督主題模型,并且通過實驗,證明了該模型在進行短文本聚類時要優于LDA模型。在國內,黃健翀、鄧玫玲等人于2017年提出了一種基于LSTM自動編碼機的短文本聚類方法,該方法更著重于匹配整體的文檔結構,得到的聚類結果句子間的結構相似度較高。
上述研究工作對熱門話題檢測都有著巨大的貢獻,但是還存在著很多不足。主要體現在,上述研究工作都是針對文本特征均勻的數據進行熱門話題檢測,但是對于多信息源文本的熱門話題檢測,存在著很大的局限性。主要表現在以下幾個方面:需要預先設定聚類結果簇的數目,并且聚類結果的好壞與預先設定的值有很大的關系;多信息源的文本特征不均勻,聚類效果不理想;處理海量數據時的效率較低。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910403543.0/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





