[發明專利]一種基于語義詞網絡的短文本主題挖掘方法有效
| 申請號: | 201910400416.5 | 申請日: | 2019-05-14 |
| 公開(公告)號: | CN110134958B | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 張雷;經偉;蔡洋;陸恒楊;徐鳴;王崇駿 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/30;G06F40/284 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 劉珊珊 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 網絡 文本 主題 挖掘 方法 | ||
本發明公開了一種基于語義詞網絡的短文本主題挖掘方法,包括如下步驟1)模型初始化階段:相關領域外部語料收集、語料預處理、參數設置等;2)主題單元構建階段:構建語義詞網絡、尋找特定詞三角結構、計算模型先驗參數等工作;3)模型訓練階段:使用吉布斯采樣方法對模型變量進行采樣,并判斷模型是否達到收斂條件;4)結果輸出階段:根據模型訓練結束后的各個變量的采樣結果,得到各個詞三角的主題分布,進而推算出原文檔的主題分布。本發明將外部語料庫學習到的語義信息與詞三角主題結構相結合,應用于短文本主題挖掘方面,相對于傳統詞對主題模型,該方法提供了一個在傳統主題模型中融入外部先驗知識的解決方案,并且挖掘主題的質量具有顯著提升。
技術領域
本發明涉及一種短文本主題挖掘方法,尤其是一種基于語義詞網絡的短文本主題挖掘方法,該方法解決了普通主題挖掘方法在短文本特征稀疏情況下主題質量不高的問題。
背景技術
隨著社會發展節奏的不斷加快以及智能移動終端帶來的“短平快”的用戶體驗,人們在網絡上的交流越來越趨于碎片化。因此,短文本數據在如今的網絡信息交互中占據著越來越重要的地位,例如社交網絡狀態、微博文本消息、傳統新聞標題、短視頻標題和問答網站等都是以短文本形式出現。并且隨著微博、知乎、Facebook、Twitter等大體量公司的崛起,短文本數據也是以極大的速度產生并積累著。因此,從海量的短文本數據中挖掘主題信息便具有十分重大的價值,例如輿情分析、信息檢索、個性化推薦、用戶興趣聚類等都是主題挖掘的應用方向。而另一方面,使用傳統的文本挖掘方法來挖掘短文本的主題信息卻存在很大的困難,主要原因是短文本中詞共現信息十分稀疏。
目前,對于短文本特征稀疏的解決方案,一般都是利用詞語共現關系進行。這種解決方案基于一個假設:在同一篇短文本中共現的詞對是具有主題聯系的。例如在短文本挖掘主題領域比較常用的兩個模型詞對主題模型與詞網絡主題模型。前者通過共現單詞組成詞對作為基本主題單元,后者通過共現單詞為每個詞語組成偽文檔協助發掘對應詞語的主題。這些方法都忽視了詞語之間的語義聯系,例如“假期”“假日”是語義十分接近的兩個詞,它們組成的詞對本應比一般共現詞對對主題的貢獻更大,但是卻由于同一篇短文本中鮮有共現而被一般模型所忽略。
詞向量是一種在計算機內部表示詞語的方法,基于該表示可以將詞語直接作為特征輸入模型,為自然語言的處理帶來了很大的便利。而分布式表示的詞向量相對于以往的獨熱表示詞向量一方面是向量維數更低更可控,另一方面其是利用大量外部語料通過神經語言模型訓練,包含的語義信息也更加豐富。本發明利用分布式詞向量表征語義的優勢,提出利用詞向量衡量詞語的語義相似度并作為先驗知識加入到詞三角主題模型中,為短文本主題挖掘方法提供了一種新的解決思路。
發明內容
發明目的:本發明所要解決的技術問題是傳統的主題模型在應對短文本數據特征稀缺性而考慮詞語共現信息時,由于引入的噪音信息與忽略的語義信息而導致挖掘主題質量不夠高的問題。本發明通過引入外部語義信息并融合詞共現信息一起構建語義詞網絡來進行主題挖掘的方法:首先從相關領域收集外部語料通過word2vec模型訓練詞向量;然后遍歷目標語料庫結合詞向量信息生成語義詞網絡,并在其中遴選出特定的詞三角結構;接著利用吉布斯采樣方法采樣參數,并且多次迭代達到收斂;最后通過采樣結果計算詞三角的主題分布,進而推算目標語料庫中文檔的主體分布。
技術方案:為實現上述目的,本發明采用的技術方案為:
一種基于語義詞網絡的短文本主題挖掘方法,包括如下步驟:
步驟1,模型初始化階段:采集相關領域外部語料構建外部語料庫;對外部語料庫與目標語料庫的進行預處理操作,使外部語料庫與目標語料庫中的語料轉化為能夠被word2vec模型接受的格式;將外部語料庫作為輸入,訓練word2vec模型,使word2vec模型輸出指定詞向量;通過訓練好的word2vec模型提取目標語料庫中的詞向量數據;
步驟2,主題單元構建階段:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910400416.5/2.html,轉載請聲明來源鉆瓜專利網。





