[發明專利]一種話題獲取方法、終端、計算機可讀存儲介質有效
| 申請號: | 202010096076.4 | 申請日: | 2020-02-17 |
| 公開(公告)號: | CN111324725B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 余正濤;彭仁杰;高盛祥;陳瑋;毛存禮;朱恩昌 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/33;G06F16/31 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 代轉嫚 |
| 地址: | 650093 云南省昆明*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 話題 獲取 方法 終端 計算機 可讀 存儲 介質 | ||
本發明涉及話題獲取方法、終端、計算機可讀存儲介質,其中方法包括:輸入目標文本;根據預設話題模型得到所述目標文本的第一話題集合,所述第一話題集合包括至少一個話題詞;對所述目標文本進行分析得到所述目標文本的第一事件要素集合,所述第一事件要素集合至少包括一個事件要素,所述事件要素是指所述目標文本對應的事件信息;根據所述第一話題集合和所述第一事件要素集合得到滿足話題相關條件的第二話題集合;計算所述第二話題集合和所述目標文件中的詞語的相關性,并計算所述第一事件要素集合與所述目標文件中詞語的相似度;根據所述相關性和所述相似度對所述第二話題集合進行優化處理,得到目標話題集合。能提高話題與事件之間的相關性。
技術領域
本發明涉及計算機技術,尤其涉及一種話題獲取方法、終端、計算機可讀存儲介質。
背景技術
隨著網絡的發展和積累,內容的產生、傳播、消費已經根深蒂固地融入在人們的生活里,內容分析處理也逐漸走進了人們的視野,利用自然語言處理、機器學習方法等對文本進行分析,可以給用戶提供諸如輿情分析、數據營銷等方面的幫助。其中,話題發現通過對文本數據中存在的話題進行分析與發現,以快速有效的挖掘出人群重點關注的事件內容,已經逐漸成為熱門的研究方向。
話題發現方法中,可以利用文本中整個語料的信息來抽樣話題,從而得到整個語料集上的話題分布,可以較好的解決文本的稀疏性問題,例如基于詞對主題模型(BitremTopic?Model,BTM)來進行話題獲取通常采用上述方法。然而,對整個文本進行話題抽樣,導致得到的話題都較為發散,話題與事件之間的相關性方面存在較大的局限性。
發明內容
本發明實施例所要解決的技術問題在于,提供一種話題獲取方法、終端、計算機可讀存儲介質,可提高話題與事件之間的相關性。
第一方面,本發明實施例提供了一種話題獲取方法,包括:
輸入目標文本;
根據預設話題模型得到所述目標文本的第一話題集合,所述第一話題集合包括至少一個話題詞;
對所述目標文本進行分析得到所述目標文本的第一事件要素集合,所述第一事件要素集合至少包括一個事件要素,所述事件要素是指所述目標文本對應的事件信息;
根據所述第一話題集合和所述第一事件要素集合得到滿足話題相關條件的第二話題集合;
計算所述第二話題集合和所述目標文件中的詞語的相關性,并計算所述第一事件要素集合與所述目標文件中詞語的相似度;
根據所述相關性和所述相似度對所述第二話題集合進行優化處理,得到目標話題集合。
其中,所述根據所述第一話題集合和所述第一事件要素集合得到滿足話題相關條件的第二話題集合,包括:
根據所述第一話題集合和所述第一事件要素集合計算得到語義相似度,根據所述語義相似度過濾得到滿足話題相關條件的第二話題集合。
其中,所述根據所述第一話題集合和所述第一事件要素集合計算得到語義相似度,根據所述語義相似度過濾得到滿足話題相關條件的第二話題集合,包括:
將所述第一話題集合和所述第一事件要素集合嵌入到向量空間中進行語義表征;
通過所述語義表征計算得到所述第一話題集合中各個話題詞語應的語義相似度;
從所述第一話題集合中選取所述語義相似度滿足話題相關條件的話題詞作為第二話題集合。
其中,所述計算所述第二話題集合和所述目標文件中的詞語的相關性,并計算所述第一事件要素集合與所述目標文件中的詞語的相似度,包括:
根據互信息計算得到所述第二話題集合和所述目標文件中的詞語的相關性;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010096076.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于人工智能識別的影像處理系統
- 下一篇:一種分布式身份認證方法





