[發明專利]短文本主題分布的推理方法、系統、計算機設備和存儲介質有效
| 申請號: | 202010927402.1 | 申請日: | 2020-09-07 |
| 公開(公告)號: | CN112183108B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 廖清;郭頤冰;黃裕濤;漆舒漢;劉洋 | 申請(專利權)人: | 哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院) |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/36;G06F16/383 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郭浩輝;麥小嬋 |
| 地址: | 518055 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 主題 分布 推理 方法 系統 計算機 設備 存儲 介質 | ||
本申請涉及一種短文本主題分布的推理方法、系統、計算機設備和存儲介質。該方法包括:抽取單位時間內短文本中出現的共現詞對,整合共現詞對獲取詞組集合;根據語義相似度和歷史共現度對所述詞組集合進行關聯,獲取詞組集合的動態關聯度,并以詞組矩陣形式存儲所述動態關聯度;從詞組集合中進行主題名稱的抽取,并根據所述動態關聯度修正所述主題名稱;統計修正后的所述短文本中主題名稱,獲取所述短文本的主題分布。通過設計的動態關聯度這一指標,賦予了各個共現詞對不同的重要性。此外,該方法中主題名稱的提取具有偏向性的主題模型,從而能夠抽取出更加連續緊湊的各種主題名稱,更加準確的推理出各個短文本的主題分布。
技術領域
本申請涉及大數據領域,特別是涉及一種短文本主題分布的推理方法、系統、計算機設備和存儲介質。
背景技術
主題模型是一類從文本數據中挖掘并抽取主題,為了設計出適用于短文本數據的主題模型,研究人員通常會使用幾種比較有用策略。第一種,限制每一篇短文本的主題數量,,通過Dirichlet Multinomial Mixture Model(DMM)模型進行獲取,其中通過該模型假定每個短文本只包含一個主題。這種策略通過限制目標數據中的主題信息,進一步簡化主題模型,以期能夠更準確的進行主題的挖掘、抽取和分配。第二種,在包含足夠主題信息的單詞模式上建立主題模型。典型的代表是Attentional Segments Topic Model(ASTM),ASTM會抽取出短文本中的segment模式,具體而言是數個語義相似的單詞組成的集合。從segment這樣模式中獲得的主題具有很好的代表性。第三種,從外部的語料中獲得新的信息,并將其補充到目標短文本數據的主題模型中。這種方法是針對目標數據短文本自身的信息稀疏性而設計的。既然目標數據的信息不夠,那么就從外部引入信息來補充目標數據的上下文信息,以此來獲得更好的主題模型。比較典型的代表是Semantic Assisted Non-negative Matrix Factorization(SeaNMF).
但是上述介紹的每一種策略都有各自的缺陷。第一種,雖然限制每個短文本的主題數量能夠有效地簡化主題模型,但是同時也會導致目標短文本數據的主題信息丟失。這種信息丟失很多情況下是不可以接受的,并且實驗證明,基于該策略設計的主題模型在真實數據下表現并不算良好。第二種,這類策略通常涉及到全新的字詞模式設計,在實際的短文本數據上的表現也不錯。但是,設計全新的能夠準確的表現短文本的主題信息并不是一件簡單的事情。并且,這列方法依然沒有克服傳統方法的束縛,整個主題模型能夠獲得的信息都被局限在了目標數據上,并沒有獲得新的信息。因此,單純依賴此類策略設計出來的主題模型的表現并不算優秀。第三種,通過從外部獲得指定的信息,來豐富目標數據的上下文信息。這種策略的問題在于兩點:1.如何合理的利用外部信息來指導主題模型的工作;2.現有的主題模型通常只考慮語義信息來作為外部信息,而忽略了一些其他的重要信息。
發明內容
基于此,有必要針對上述技術問題,提供一種短文本主題分布的推理方法、系統、計算機設備和存儲介質。
第一方面,本發明實施例提供了一種短文本主題分布的推理方法,包括以下步驟:
抽取單位時間內短文本中出現的共現詞對,整合所述共現詞對獲取詞組集合;
根據語義相似度和歷史共現度對所述詞組集合進行關聯,獲取所述詞組集合的動態關聯度,并以詞組矩陣形式存儲所述動態關聯度;
從所述詞組集合中抽取主題名稱,并根據所述動態關聯度修正所述主題名稱;
統計修正后的所述短文本中主題名稱,獲取所述短文本的主題分布。
進一步地,所述抽取單位時間內短文本中出現的共現詞對,整合所述共現詞對獲取詞組集合;包括:
預處理單位時間內的短文本,獲取所述短文本的數據集合信息;
從所述數據集合信息中抽取出現在同一個短文本中的單詞,將所述單詞組合為所述共現詞對;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院),未經哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010927402.1/2.html,轉載請聲明來源鉆瓜專利網。





