[發明專利]基于社團發現的主題模型構建方法有效
申請號: | 201710361414.0 | 申請日: | 2017-05-22 |
公開(公告)號: | CN107122494B | 公開(公告)日: | 2020-06-26 |
發明(設計)人: | 張雷;趙鑫;宋岳;李寧 | 申請(專利權)人: | 南京大學 |
主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06Q50/00 |
代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 基于 社團 發現 主題 模型 構建 方法 | ||
本發明公開一種基于社團發現的主題模型構建的方法的技術方案,先后包括如下步驟:基于短文本數據提取蘊含的關系網絡;采用社團發現算法將關系網絡劃分成多個社團;將各社團中提取的短文本進行擴充以得到具有詞共現關系的長文檔,并將得到的多個長文檔構成長文檔集合;針對長文檔集合進行主題挖掘,得到基于社團發現的TMCD主題模型。該方法從數據中內在蘊含的社團關系的角度出發,以社團發現算法為基礎進行短文本的自擴展,解決了數據稀疏性問題。
技術領域
本發明涉及一種基于社團發現的主題模型構建方法,尤其涉及內部蘊含社會網絡的社交型短文本數據主題挖掘的技術。
背景技術
在當前的網絡環境下,隨著各種線上平臺的豐富,大量的社交型數據被產生出來,社交網絡儼然已經成為了一個進行信息挖掘的數據源泉。在此場景下產生的數據,大部分又以短文本的形式呈現。相對于長文本,短文本表達的語義簡練,傳遞信息的速度快,是信息傳播的一個明顯發展趨勢。短文本正在成為當今社會最重要的信息載體之一。
目前在對這些數據的分析方法中,通過主題模型挖掘文本內涵的語義信息是一種很有效的方式。經典的主題模型算法,如PLSA、LDA等主要基于雙模式和詞共現關系對文本進行語義分析。這類算法在對長篇的文檔進行處理時效果是顯著的,而在針對短文本時,因為詞共現關系不足,使算法面臨數據稀疏性問題,會嚴重影響模型質量。
現階段學術界針對這種短文本的主題模型主要有下面五種處理方案:1)采用簡單的拼接,把短文本直接連在一起;2)用引入外界資料庫的方法將短文本聚合成長文本;3)從一種啟發式的方法來實現,如基于推特內容的標簽信息、內容發送的時間流信息或者發送內容的作者等對文本進行擴展;4)對文本的主題采用寬松的假設,假設一個短文本中只包含一個主題;5)對建模對象進行改變。比較有代表性的是Yan等人在2013年提出的BTM模型。
以上方案或強行抹去了文檔的邊界或受到外界資料的干擾等,具有諸多不足之處。
發明內容
本發明提出一種基于社團發現的主題模型(即TMCD模型,Topic Model based onCommunity Detection)構建方法,該方法可針對社交型數據集構建主題模型,即采用社會發現算法為社交型短文本數據的主題挖掘提供解決方案。TMCD模型從數據中內在蘊含的社團關系的角度出發,以社團發現算法為基礎進行短文本的自擴展,解決了數據稀疏性問題。
為解決上述問題,本發明所公開的基于社團發現的主題模型構建的方法的技術方案包括如下步驟:
步驟1、基于短文本數據提取蘊含的關系網絡;
步驟2、采用社團發現算法將關系網絡劃分成多個社團;
步驟3、將各社團中提取的短文本進行擴充以得到具有詞共現關系的長文檔,
并將得到的多個長文檔構成長文檔集合;
步驟4、針對長文檔集合進行主題挖掘,得到基于社團發現的TMCD主題模型。
進一步的,步驟1中關系網絡的提取過程是:采用短文本數據中的主體作為結點,通過主體間交互關系進行關聯并抽象形成邊,將得到的結點和邊共同形成一關系網絡。
進一步的,以主體間交互關系的密切程度作為邊的權重,以關聯的主被動關系作為邊的方向。
進一步的,步驟2中所述的社團發現算法包括凝聚、分裂、標簽傳播和全局探索中的一種或多種。
進一步的,步驟3中是采用自擴展方法對短文本進行擴充。
進一步的,所述短文本數據是內部蘊含著社會網絡的社交型數據,所述關系網絡是社會網絡。
本發明所公開的基于社團發現的主題模型構建方法,為社交型短文本數據的主題挖掘提供了新的解決方案,具有以下有益效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710361414.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:歌曲播放方法和裝置
- 下一篇:適用于專利公開科技數據庫的信息抓取方法