[發明專利]一種采集微博內容的方法及設備有效
| 申請號: | 201310476050.2 | 申請日: | 2013-10-12 |
| 公開(公告)號: | CN103593397B | 公開(公告)日: | 2018-10-09 |
| 發明(設計)人: | 馮青松 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市中倫律師事務所 11410 | 代理人: | 張思悅 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 采集 內容 方法 設備 | ||
1.一種采集微博內容的方法,包括:
采集微博用戶庫中預先選定的微博用戶的微博內容和微博參數;
根據采集到的微博內容和微博參數,提取出與微博熱點話題相關的熱門關鍵詞或熱門關鍵詞組;
根據提取到的所述熱門關鍵詞或熱門關鍵詞組,按照預先設定的采集頻率采集與所述熱門關鍵詞或熱門關鍵詞組相關的微博內容;
其中,所述根據采集到的微博內容和微博參數,提取出與微博熱點話題相關的熱門關鍵詞或熱門關鍵詞組步驟包括:
根據采集到的所述微博內容和微博參數,按照預先設定的微博類別對所述微博內容進行分類處理;
對各個微博類別下的微博內容進行微博熱點話題處理,得到各個微博類別下與微博熱點話題相關的微博內容;
對各個微博類別下的與微博熱點話題相關的微博內容分別進行分詞處理,提取出各個微博類別下的與微博熱點話題相關的熱門關鍵詞或熱門關鍵詞組。
2.根據權利要求1所述的方法,其中,在按照預先設定的采集頻率采集與所述熱門關鍵詞或熱門關鍵詞組相關的微博內容的步驟之后,所述方法還包括:
采集發布和/或轉發與所述熱門關鍵詞或熱門關鍵詞組相關的微博內容的微博用戶;
將采集到的微博用戶更新到微博用戶庫中,并將采集到的微博用戶的選定狀態標識為選定。
3.根據權利要求1或2所述的方法,其中,所述方法還包括:
判斷所述微博用戶庫中預先選定的微博用戶是否符合預定義的條件;
如果所述預先選定的微博用戶不符合預定義的條件,則將所述微博用戶庫中預先選定的微博用戶的選定狀態標識為非選定;
如果所述預先選定的微博用戶符合預定義的條件,則保持所述微博用戶庫中預先選定的微博用戶的選定狀態不變。
4.根據權利要求3所述的方法,其中,所述判斷所述微博用戶庫中預先選定的微博用戶是否符合預定義的條件的步驟包括:
判斷所述微博用戶庫中微博用戶是否為惡意注冊用戶,如果所述預先選定的微博用戶為惡意注冊用戶,則判斷結果為所述預先選定的微博用戶不符合預定義的條件,如果所述預先選定的微博用戶不是惡意注冊用戶,則判斷結果為所述預先選定的微博用戶符合預定義的條件;和/或者
判斷所述微博用戶庫中的預先選定的微博用戶的活躍度是否低于預先設定的活躍度閾值,如果所述微博用戶的活躍度低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶不符合預定義的條件;如果所述微博用戶的活躍度不低于預先設定的活躍度閾值,則判斷結果為所述預先選定的微博用戶符合預定義的條件;
其中,所述活躍度包括:微博用戶發布或轉發微博的頻率、微博用戶的連續登錄時間和微博用戶的當天在線時間中的任意一種或多種組合。
5.根據權利要求4所述的方法,其中,所述判斷所述微博用戶庫中微博用戶是否為惡意注冊用戶的步驟包括:
判斷所述微博用戶的用戶評分值是否低于預先設定的惡意注冊評分值;
如果所述微博用戶的用戶評分值低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶是惡意注冊用戶;
如果所述微博用戶的用戶評分值不低于預先設定的惡意注冊評分值,則判斷結果為所述微博用戶不是惡意注冊用戶。
6.根據權利要求5所述的方法,其中,所述用戶評分值基于微博用戶關注的用戶數、微博用戶的粉絲數和微博用戶發布的微博數計算得到。
7.根據權利要求1或2所述的方法,其中,所述采集預先選定的微博用戶的微博內容和微博參數的步驟為:
通過微博網站的應用程序編程接口采集所述微博用戶庫中預先選定的微博用戶的微博內容和微博參數。
8.根據權利要求1或2所述的方法,其中,所述微博參數包括:微博用戶的屬性信息、微博的總轉發次數、微博的總評論次數、微博認證用戶的轉發次數、和微博認證用戶的評論次數中的任意一種或多種組合。
9.一種采集微博內容的設備,包括:
第一采集模塊,用于采集預先選定的微博用戶的微博內容和微博參數;
提取模塊,用于根據采集到的微博內容和微博參數,提取出與微博熱點話題相關的熱門關鍵詞或熱門關鍵詞組;
第二采集模塊,用于根據提取到的所述熱門關鍵詞或熱門關鍵詞組,按照預先設定的采集頻率采集與所述熱門關鍵詞或熱門關鍵詞組相關的微博內容;
所述提取模塊包括:分類單元,用于根據采集到的所述微博內容和微博參數,按照預先設定的微博類別對所述微博內容進行分類處理;熱點話題處理單元,用于對各個微博類別下的微博內容進行微博熱點話題處理,得到各個微博類別下與微博熱點話題相關的微博內容;提取單元,用于對各個微博類別下的與微博熱點話題相關的微博內容分別進行分詞處理,提取出各個微博類別下的與微博熱點話題相關的熱門關鍵詞或熱門關鍵詞組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310476050.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:實時時鐘模塊測試裝置
- 下一篇:一種萬向調整支承裝置
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





