[發明專利]一種基于多故事線的微博事件摘要提取方法有效
| 申請號: | 201610179286.3 | 申請日: | 2016-03-25 |
| 公開(公告)號: | CN105787121B | 公開(公告)日: | 2018-08-14 |
| 發明(設計)人: | 林鴻飛;劉龍飛 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 蓋小靜 |
| 地址: | 116023 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 故事 事件 摘要 提取 方法 | ||
一種基于多故事線的微博事件摘要提取方法,包括:S1、微博語料預處理;S2、微博矢量化;S3、初步提取微博事件故事線;S4、故事線合并;S5、故事線重構;S6、展示摘要結果。本發明利用詞嵌入技術將微博矢量化,通過矢量余弦值獲得微博間的相似度配合改進條件隨機域方法,實現故事線的構建與合并;本發明對某一微博事件可以生成一份包含多條故事線的微博事件摘要,故事線中的節點內容為該時間段內最有代表性微博。通過多條故事線對事件的多個方面進行刻畫,可以讓用戶更加高效、更加全面的了解某個微博事件。為了評估摘要的優劣,在n位置上的精度P@N被選作度量標準。本發明達到的精度基本上維持在0.6以上,明顯優于現有方法。
技術領域
本發明涉及數據挖掘領域和自然語言處理領域,尤其是一種基于多故事線的微博事件摘要提取方法。
背景技術
隨著互聯網的迅猛發展,微博已經成為了流行的社會化網絡中的一個典型應用。微博可以讓用戶在任何時間、任何地點發布短的消息(通常最大長度為140個中或英文字符),這種發布信息的方式降低了信息發布的壁壘,加快了信息傳播的速度,從而使微博幾乎成為了一種實時的發布應用。生活中的某些事件,會引起微博用戶的廣泛討論,產生大量有關該事件的微博,這種事件便被稱為微博事件。微博網站往往會收集這些微博的主題詞,展示在熱門微博列表中。但是這些微博主題詞并不能讓微博用戶對這些微博事件有一個全面的理解,特別對于那些沒有相關背景知識的微博用戶。另外,微博用戶為了弄明白這些微博事件的細節,就必須自己去閱讀與該事件有關的很多微博,即面對大量過載信息,從而導致過高的時間代價。
一般而言,傳統的摘要生成,主要從傳統的文檔數據出發,從文檔中選擇有代表性的句子作為文檔的摘要,或者采用一些自然語言處理的算法對文檔數據進行處理。事件摘要相對而言是一個新鮮的工作。但是對于事件的多文檔摘要而言,這種忽略文檔的時間信息只考慮文檔內容的抽取方式不能很好的刻畫事件的發展演化。
在近期的微博摘要研究中,時間軸成為了一種流行的展示形式。通過引入時間信息,讓事件的發展演化得以更清晰的展示。然而,相對復雜的事件都會包含多個不同的方面,而一條時間軸則將事件的多個方面混為一個方面,不能很好的從多個方面刻畫事件的發展演化。
發明內容
本發明的目的是提供一種對微博事件從多個方面進行摘要,使用戶更高效、全面的了解其感興趣的微博事件的基于多故事線的微博事件摘要提取方法。
本發明解決現有技術問題所采用的技術方案:一種基于多故事線的微博事件摘要提取方法,包括以下步驟:
S1、微博語料預處理:
采集包含所關注的微博事件的微博語料集,對所述微博語料集中的每條微博進行分詞處理并去除標點符號得到每條微博的微博詞語集,統計微博詞語集中的詞語個數,將詞語個數少于第一預設閾值的微博及其微博詞語集刪除;將微博語料集中的剩余微博作為微博事件摘要提取集,提取微博事件摘要提取集中的每條微博的發布時間信息并對所述微博進行編號,將微博內容、微博的發布時間及微博編號存入字典數據庫中;
S2、微博矢量化:
利用詞嵌入技術將微博事件摘要提取集中每條微博所對應的微博詞語集中的詞語表示為詞矢量的形式,得到每條微博所對應的微博詞語矢量集;將每個微博詞語矢量集中的詞語矢量累加即得到每條微博的矢量表示;
S3、初步提取微博事件故事線:
A1、根據步驟S2得到的每條微博的矢量表示,隨機選取其中任一微博的矢量表示作為一條微博事件故事線;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610179286.3/2.html,轉載請聲明來源鉆瓜專利網。





