[發明專利]一種基于多策略的微博信息優先采集方法有效
| 申請號: | 201811633421.2 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109670136B | 公開(公告)日: | 2021-04-27 |
| 發明(設計)人: | 劉磊;陳浩;孫應紅;吳爽;侯良文;李靜 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/35;G06F16/9535 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 策略 信息 優先 采集 方法 | ||
本發明涉及一種基于多策略的微博信息優先采集方法,在采集能力有限的情況下,通過構建多策略的優先采集方法,能夠及時有效的獲取到博主的信息。首先,通過構建分類模型對博主進行篩選,剔除掉垃圾博主,并根據微博數量和粉絲數量將剩余博主分為三大類。其次,針對不同類別,構建不同的采集策略。通過將大V博主的發博時間聚類,提取大V博主的最佳采集時間;通過博主的微博統計量,訓練回歸模型并預測博主的活躍度值,根據活躍度值將博主排序。最后,綜合三大類的采集策略設計出了多策略的微博優先采集方法,并通過定期更新采集隊列保持采集策略的時效性。實驗表明本發明不僅可以及時有效的獲取熱點微博信息,且使得采集數量得到很大的提升。
技術領域
本發明屬于文本信息處理領域,具體是設計一種基于多策略的微博信息優先采集方法。
背景技術
微博已經成為國內最重要的信息交流平臺之一,國內外的日常新聞,明星的活動,生活中的令人感興趣的事件都會成為人們討論的話題,因此每天都會更新大量的與之相關的信息,這些通常被稱為熱點信息。通過分析微博的熱點信息,可以有效的獲取網民的關注熱點。網絡爬蟲可以有效的對微博博主的頁面信息進行采集,從而及時的獲取熱點信息。但隨著微博博主的巨增,而采集能力又有限的情況下,難以做到實時微博信息采集,因此需要設計合理的優先采集次序來對微博進行采集。通常的采集器效率低主要有以下幾個方面的原因:
首先,沒有考慮微博大V博主的發表博文時間段和信息采集時間段的時序關系,導致熱點信息沒有被及時的采集。
其次,部分博主通常發博數量少且內容通常是個人的日常生活信息,不包括熱點信息,沒有影響力。
最后,微博博主中包括大量潛在的僵尸賬號或營銷賬號,所發微博不僅信息量不足,而且微博數量還較多,這些都在采集的過程中浪費大量的時間,導致正常博主的熱點信息不能被及時采集。
發明內容
為解決上述問題,本發明充分利用了博主個人信息、發博時間、發博內容特征,提出并實現了一種基于回歸模型的微博信息優先采集策略。此方法可以在爬蟲采集能力有限情況下,及時有效的獲取博主所發微博。
本發明充分考慮到博主的微博影響力,活躍度,發博時間特征,首先通過對博主進行垃圾博主過濾,其次將博主分為三類,在采集能力有限的情況下,設計了一種基于回歸的微博優先采集方法,完成了對不同類別的微博博主的順序采集。
本發明根據博主的微博影響力,活躍度,發博時間特征將博主分為A、B、C三類,針對不同的博主類型設計不同的采集策略,其中:
A類博主,通常指大V博主(名人微博),粉絲數量很多。雖然這類博主所發微博數量不多,但所發內容經轉發、回復、點贊的人數很多,而且內容通常都是熱點信息,且影響力巨大。采集器需要保證這類博主的采集優先級,及時獲取博主所發微博內容。因此針對A類博主,采集器需要考慮發博時間和采集時間的間隙差,從而進一步的細化大V博主的微博優先采集順序。
B類博主,通常指政務微博、社會組織微博、草根微博。這類博主發博數量很多,粉絲數量較多,所發微博內容也通常是對熱點信息的點評和轉發等。這類博主也是本發明關注的重點,通常較多的熱點信息都來自該類博主,采集器需要盡可能多的采集該類博主所發的微博。
C類博主,通常指個人微博,特點是發博數量較少,粉絲數量少,這類博主的微博內容多為個人日常生活,雖然偶爾會評論熱點事件。但所帶來的轉發和評論數量不多,影響力也一般。因此采集器只需定期采集該類博主即可。
為實現上述目的,本發明采用如下的技術方案:
一種基于多策略的微博信息優先采集方法,包括以下步驟:
步驟(1)垃圾博主檢測
步驟(1.1)構建垃圾微博檢測模型
步驟(1.1.1)構建訓練數據集,具體如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811633421.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無線電子通信設備
- 下一篇:進程行為溯源裝置和方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





