[發明專利]基于社會媒體微博特定話題的摘要方法在審
| 申請號: | 201810039498.0 | 申請日: | 2018-01-16 |
| 公開(公告)號: | CN107992634A | 公開(公告)日: | 2018-05-04 |
| 發明(設計)人: | 賀瑞芳;段興義;張雪菲;李三飛 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 天津才智專利商標代理有限公司12108 | 代理人: | 王顕 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 社會 媒體 特定 話題 摘要 方法 | ||
技術領域
本發明涉及自然語言處理以及社會媒體文本挖掘領域,具體為一種基于社會媒體微博特定話題的摘要方法。
背景技術
隨著社交媒體平臺的快速發展,比如,微博、Twitter等,其快捷、方便的特性使得人們獲取信息的途徑逐漸依賴于這些平臺。與此同時,由于微博用戶數量龐大,當一個事件發生時,會在短時間內涌現大量相關的微博來描述該事件話題的各個方面,充分體現了微博的大規模、實時性、碎片化及短文本的弱規范性。
社會媒體的發展由于人們頻繁的交互和互相影響產生了更強的冗余性,海量的微博,容易把人們淹沒在信息中,使得想要快速捕捉關鍵信息變得很困難。社會媒體微博摘要面向特定話題,旨在從話題相關的社會媒體短文本中提煉簡潔、核心的微博集,以捕捉有效信息,可用于競爭情報分析、電子商務等;同時,也可協助政府監管危機事件,從而降低災難損失、給出有益的反饋,并把控輿情方向。
文本摘要研究的重點是產生的摘要內容需要滿足覆蓋性、重要性及多樣性等。覆蓋性使得摘要盡可能地代表原始的文本數據集;重要性使得摘要內容更關鍵、更核心;多樣性使得摘要內容冗余信息較少、新穎性更強。由于微博的大規模、內容嘈雜、不規范及簡短等特點,使得傳統的摘要方法不能直接遷移到社會媒體情景中。因此,產生滿足上述幾個特性要求的微博摘要方法面臨更為嚴峻的挑戰,急需發展新的摘要技術。
近年來微博摘要的相關研究主要包括:(1)基于文本信息的方法,這類方法主要是把傳統摘要方法遷移到微博環境中,或者稍作改進,比如Hybrid TF-IDF;(2)基于社交媒體靜態信息的方法,其主要引入了社交媒體中的靜態特征,比如轉發數、粉絲數等;(3)基于社交媒體動態信息的方法,這類方法主要引入了用戶網絡結構,比如轉發關系、跟從關系等,基本思想是用戶權威度越高,微博重要性越高。
以上方法主要考察了重要性,對于多樣性則更多地是采用外部方法,例如最大邊緣相關性(Maximal Marginal Relevance,MMR),很少有把覆蓋性、重要性及多樣性整合到統一的優化模型中的方法;除此之外,這些方法沒有利用社交媒體中潛在的微博網絡結構,而該結構可能包含更多的語義線索。
發明內容
為了解決上述技術問題,本發明提供一種基于社會媒體微博特定話題的摘要方法,其基于稀疏重構的基本框架融合了社會媒體內容和社交網絡結構,得到的微博摘要相較于現有模型在ROUGE-1,ROUGE-2和ROUGE-SU4三個評價指標中最趨近于專家互評結果。
該發明的技術方案如下:
(1)微博特定話題的篩選方法及社會學理論的驗證
為了篩選特定微博話題做摘要研究,我們主要從三方面做數據準備:話題初步篩選、數據清洗和社會學理論驗證。
a.話題初步篩選階段,根據標簽(hashtag)和關鍵詞,篩選包含該標簽或關鍵詞的微博,并對一個月內每天包含該話題的微博數做時序分析,發現話題被分為兩大類:熱點話題和突發話題。對于熱點話題,我們篩選該話題發生當天前后共五天內的微博作為該話題數據集;對于突發話題,篩選該話題發生后五天內的微博作為該話題數據集。
b.數據清洗階段,我們對話題集作如下處理:1、去掉重復出現的微博,只保留一次;2、去掉除標簽、關鍵詞、提及(@)、URL、停用詞后微博內容少于三個單詞數的微博;3、去掉孤立用戶及其相應的微博,并不斷重復此步驟直到所有用戶至少與其中一個用戶有關聯(用戶之間通過粉絲、關注關系進行關聯)。
c.社會學理論驗證階段,在社會媒體情景下,我們重新定義了相關的理論為:表達一致性和表達傳染性;并對話題集進行該社會學理論的驗證。由于我們的模型提出使用社會學理論,而只有這兩種理論都存在于數據集中,才會發揮模型效果。
社會學理論指出社會網絡中成員之間通常會展現出相關的行為,情感和話題都會隨著網絡進行傳播。一致性一般認為,同一個人在短時間內表現出的社會行為具有一致性;傳染性一般認為,具有朋友關系的兩個人可以對彼此產生影響。我們主要考查對于每個話題集,社會學理論是否存在,并且給出驗證方法。首先對于我們的任務,重新定義了一致性和傳染性,本發明的話題微博,均以微博為例:
·表達一致性:同一用戶所發的兩個微博在內容上是否比隨機選擇的兩個微博更相似?
·表達傳染性:具有朋友關系的兩個用戶所發的微博在內容上是否比隨機選擇的兩個微博更相似?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810039498.0/2.html,轉載請聲明來源鉆瓜專利網。





