[發明專利]指定地域微博數據收集與處理方法有效
| 申請號: | 201410254030.5 | 申請日: | 2014-06-09 |
| 公開(公告)號: | CN104133834B | 公開(公告)日: | 2018-05-04 |
| 發明(設計)人: | 任福繼;劉寧;全昌勤;華磊 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 安徽合肥華信知識產權代理有限公司34112 | 代理人: | 余成俊 |
| 地址: | 230009 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 指定 地域 數據 收集 處理 方法 | ||
技術領域
本發明涉及微博數據處理方法領域,具體是一種指定地域微博數據收集與處理方法。
背景技術
隨著微博的興起,這種包含了大量微觀點并帶有情感傾向的短文本迅速富集,微博文本分析成為熱門研究方向。
在微博數據搜集過程中,大量的微博數據搜集策略通常采用爬蟲抓取方法,該方法抓取速度快、效率高,但是抓取的數據噪音大,雖然減少了數據搜集的時間,但是卻成倍的增加了獲得精確數據的預處理時間;且爬蟲不穩定,常常面臨被新浪封禁的危險。少量微博數據一般采用新浪微博第三方API進行調用搜集,該方法搜集的數據噪音少、區域明顯,但是包含了大量的推送廣告,又額外增加了無用數據比例。
無論是爬蟲方法還是傳統的新浪第三方API調用,都無法大量獲得指定域下的微博數據,特別是指定地域下微博數據的處理,爬蟲方法和新浪第三方API調用皆無法適用。
發明內容
本發明的目的是提供一種指定地域微博數據收集與處理方法,以解決現有技術爬蟲方法或第三方API調用無法大量獲取指定地域下微博數據的問題。
為了達到上述目的,本發明所采用的技術方案為:
指定地域微博數據收集與處理方法,其特征在于:包括以下步驟:
(1)、GEO地理信息種子點選取:
設目標種子點數量為N,對指定城市區域使用矩形切割,確定城市邊緣;做矩形區域對角線,以地圖比例尺長度10公里間距做平行線,分割矩形區域;在各條分割平行線上,以地圖比例尺長度5公里為半徑做圓形區域依次覆蓋矩形區域,各圓形區域不重疊;分隔線上不足5公里的區域按實際情況采用合適圓形區域覆蓋;對于各圓形區域結合處,以比例尺半徑為R公里的圓形區域覆蓋該區域,R≤5,要求做到重疊區域不超過3%;覆蓋指定地域的各圓形區域的圓心即為候選GEO地理信息種子點,候選GEO地理信息種子點總數量記為N',根據公式(1)確定最后種子點數量:
公式(1)中,f表示種子點數量,當候選GEO地理信息種子點數量N'小于目標種子點數量N時,取候選GEO地理信息種子點作為最終種子點;當候選GEO地理信息種子點數量N'大于目標種子點數量N時,調整候選GEO地理信息種子點圓形區域的位置及半徑大小,使覆蓋矩形區域的圓形區域數量為N以內的整數,此時選擇調整后的圓形區域的為最終種子點區域;
根據上述獲得的最終種子點,即f所代表的種子點,定位地圖信息,導出經緯度數據,即可得到種子點的GEO地理信息;
(2)、微博數據獲取;
根據步驟(1)獲取的種子點GEO地理信息數據,調用微博第三方API接口,獲取指定區域內的微博數據;微博數據包括微博創建時間、微博信息內容、地理信息字段;獲取的微博數據通過UTF-8格式的TXT文本文件保存在本地,記為DGEO;
(3)、微博數據處理:
將步驟(2)中獲取的微博文本文件DGEO按照微博創建時間及對應的地理信息成對提取出來,并以UTF_8格式的文本文件保存在本地,記為Dt×geo;從微博文本文件DGEO中提取出微博信息內容,并本地以UTF-8格式的文本保存,記為Dcont。
本發明改進了新浪第三方API,采用并行多用戶調用方式增加數據搜集流量;采用多信息點覆蓋搜集微博數據,以彌補微博接口獲得數據精確度的不足,能夠滿足指定地域下微博數據收集與處理的要求。
具體實施方式
指定地域微博數據收集與處理方法,地域為存在微博使用者發布微博的區域,地域邊界以行政邊界劃分;地域微博為出現在指定地域內的微博用戶所發送的所有微博。包括以下步驟:
(1)、GEO地理信息種子點選取:
設目標種子點數量為N,對指定城市區域使用矩形切割,確定城市邊緣;做矩形區域對角線,以地圖比例尺長度10公里間距做平行線,分割矩形區域;在各條分割平行線上,以地圖比例尺長度5公里為半徑做圓形區域依次覆蓋矩形區域,各圓形區域不重疊;分隔線上不足5公里的區域按實際情況采用合適圓形區域覆蓋;對于各圓形區域結合處,以比例尺半徑為R公里的圓形區域覆蓋該區域,R≤5,要求做到重疊區域不超過3%;覆蓋指定地域的各圓形區域的圓心即為候選GEO地理信息種子點,候選GEO地理信息種子點總數量記為N',根據公式(1)確定最后種子點數量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410254030.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種實現變更數據檢測的方法及裝置
- 下一篇:盜版應用的識別方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





