[發明專利]一種基于語義、時間和社交關系的中文微博話題檢測方法及系統無效
| 申請號: | 201910631312.5 | 申請日: | 2019-07-12 |
| 公開(公告)號: | CN110489548A | 公開(公告)日: | 2019-11-22 |
| 發明(設計)人: | 杜軍平;薛哲;程鵬超;寇菲菲 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 微博 話題檢測 搜索 文本 采集 上下文語義 社交關系 時間因素 文本聚類 文本語義 語言模型 語義表示 綜合考慮 語義 口語化 向量化 命中率 多義 算法 轉發 中文 話題 | ||
本發明提供一種基于語義、時間和社交關系的中文微博話題檢測方法及系統,用以解決話題檢測中微博數據由于文本短小、口語化和一詞多義等缺點導致的話題檢測效果不佳的問題,該方法包括步驟:采集一定時間間隔上的相關話題的微博數據;使用預訓練語言模型BERT(Bidirectional Encoder Representation from Transformers)在采集的微博數據上進行預訓練;通過預訓練好的BERT模型對微博文本進行向量化表示,得到基于上下文語義的微博語義表示;提出綜合考慮時間因素和微博之間轉發關系的文本聚類算法,從而解決傳統微博話題檢測僅考慮文本語義相似的問題。本發明主要用于微博搜索的任務,利用相關微博的話題檢測結果來提高微博搜索命中率。
技術領域
本發明屬于自然語言處理和信息檢索領域,涉及話題檢測與跟蹤技術,主要是針對中文微博數據的話題檢測。
技術背景
近年來,由于網絡技術的廣泛普及與迅猛發展,網絡上信息的傳播速度與網絡中信息量的規模空前巨大。作為一種新興的社會網絡媒體,微博已逐步成為人們獲取信息的重要來源。由于微博發布的內容很簡短,并且可以在各種終端上發布微博信息,造成了在微博平臺上短時間內會產生大量微博數據。如果僅僅通過人工來處理微博上這些數量巨大且雜亂無章的信息內容,不僅會大大增加工作量,而且很難為用戶提供及時準確而又感興趣的微博信息。微博話題檢測技術就是一項能夠針對微博中的海量信息進行處理、分析的技術,能及時將用戶最感興趣的信息展現給用戶。
話題檢測研究主要集中于基于文本的聚類算法和基于概率的話題模型。傳統聚類算法中文本多采用向量空間模型表示。向量空間模型表示的文本存在稀疏性和高維度缺點,不利于大規模數據的計算;另一個缺點是忽略詞之間的語義關系。LDA模型是基于概率的話題模型的代表,它可以一定程度解決語義丟失問題,但是LDA主題模型對短文本建模具有稀疏的問題。以上方法無法很好地解決微博文本內容雜亂且文本短小等特性造成的維度災難、特征稀疏和一詞多義等問題,并且沒有考慮到微博時序與微博的社交屬性信息。
發明內容
(一)要解決的技術問題
本發明要解決的技術問題在于如何解決由于微博文本內容雜亂且文本短小等造成的維度災難、特征稀疏和一詞多義等問題和話題檢測結果不準的問題。
(二)技術方案
為解決上述技術問題,本發明提供了一種基于語義、時間和社交關系的中文微博話題檢測方法,所述方法包括以下步驟:
S1.微博數據的預處理:去除已有微博數據集文本中的無效信息、無用字符和停用詞等,并構建預訓練語言模型BERT(Bidirectional Encoder Representation fromTransformers)的輸入,即將微博數據預處理成為文本字集;
S2.微博文本的表示學習:本發明提出使用強大的預訓練模型來進行中文微博短文本的語義表示學習。利用預處理好的微博文本字集對BERT模型進行預訓練,通過BERT模型基于MLM(Masked Language Model)訓練的機制,可以得到具有豐富語義信息的微博文本向量表示;
S3.微博話題的檢測:使用提出的綜合考慮時間因素和微博之間轉發關系的文本聚類算法,對微博話題檢測數據集進行話題的自動檢測,從而得到微博數據集中的話題內容。
其中,步驟S1具體包括:
S11.將微博數據集中的微博數據利用工具分成單個字形式并且使用空格分隔開;
S12.對S11中的數據進行無效字符去除和停用詞去除(的、呢,嗯等)。
其中,步驟S2具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910631312.5/2.html,轉載請聲明來源鉆瓜專利網。





