[發(fā)明專利]互聯(lián)網(wǎng)數(shù)據(jù)獲取方法及裝置有效
| 申請?zhí)枺?/td> | 201410163160.8 | 申請日: | 2014-04-22 |
| 公開(公告)號(hào): | CN103957245B | 公開(公告)日: | 2017-11-28 |
| 發(fā)明(設(shè)計(jì))人: | 高立琦;焦揚(yáng) | 申請(專利權(quán))人: | 北京微眾文化傳媒有限公司 |
| 主分類號(hào): | H04L29/08 | 分類號(hào): | H04L29/08;H04L29/06 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司11240 | 代理人: | 吳貴明,張永明 |
| 地址: | 100191 北京市海淀區(qū)五*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 互聯(lián)網(wǎng) 數(shù)據(jù) 獲取 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種互聯(lián)網(wǎng)數(shù)據(jù)獲取方法及裝置。
背景技術(shù)
社交媒體相比傳統(tǒng)的媒體有一個(gè)非常大的區(qū)別,就是人與人之間的社會(huì)關(guān)系被映射到網(wǎng)絡(luò)上,并且可以通過社交平臺(tái)提供的各類應(yīng)用開發(fā)接口獲取到用戶的部分或全部數(shù)據(jù)。基于應(yīng)用開發(fā)接口(API,Application Programming Interface),第三方開發(fā)者們除了開發(fā)各種各樣豐富的社交功能的應(yīng)用程序之外,還可以方便地獲取社交平臺(tái)上的各種數(shù)據(jù),其中,包括社交平臺(tái)用戶的個(gè)人信息、微博內(nèi)容、用戶之間的關(guān)系信息等等,通過這些數(shù)據(jù)對社會(huì)學(xué)、市場營銷、網(wǎng)絡(luò)分析以及計(jì)算語言學(xué)等諸多領(lǐng)域有直接的幫助和影響。比如對社會(huì)學(xué)來說,傳統(tǒng)研究社交網(wǎng)絡(luò)的方法主要是由學(xué)者個(gè)人或團(tuán)隊(duì)來構(gòu)造,耗時(shí)耗力,成本高,通過社交平臺(tái)等社交網(wǎng)絡(luò)和開放接口,就可以很容易構(gòu)造幾百萬、幾千萬甚至上億用戶之間的關(guān)系網(wǎng)絡(luò),基于此網(wǎng)絡(luò)可進(jìn)行更加深入的社會(huì)學(xué)研究。
社交媒體雖然也可以看作是HTTP協(xié)議的網(wǎng)站、是傳統(tǒng)互聯(lián)網(wǎng)的一部分,但是與傳統(tǒng)網(wǎng)站相比又有所區(qū)別。一個(gè)顯著差異在于,社交媒體需要用戶登錄訪問才能看到詳細(xì)的內(nèi)容,特別是社交媒體的API是需要預(yù)先授權(quán)才可以使用的;而傳統(tǒng)網(wǎng)站如新聞、博客等,是不需要用戶預(yù)先登錄就可以訪問的。傳統(tǒng)的爬蟲直接下載頁面即可,若將傳統(tǒng)的網(wǎng)絡(luò)爬蟲的方法應(yīng)用于基于微博API的數(shù)據(jù)獲取上會(huì)出現(xiàn)獲取的數(shù)據(jù)不準(zhǔn)確等若干問題。
在傳統(tǒng)的互聯(lián)網(wǎng)應(yīng)用中,數(shù)據(jù)獲取技術(shù)主要是網(wǎng)絡(luò)爬蟲技術(shù)。網(wǎng)絡(luò)爬蟲是類似的數(shù)據(jù)獲取技術(shù),其基本原理是根據(jù)URL(即統(tǒng)一資源定位符)獲取頁面,訪問網(wǎng)站,下載頁面,從其中解析出新的URL鏈接地址,然后下載新的頁面。參考Modern Information Retrieval、《搜索引擎:信息檢索實(shí)踐》等。
現(xiàn)有的社交平臺(tái)(如新浪微博、騰訊微博)提供的開發(fā)API有如下特點(diǎn):
(1)一次API訪問就是一次HTTP請求。一次API調(diào)用返回頁面的信息最小單位是記錄;API調(diào)用返回的信息由若干條記錄組成,一條記錄可以表示一個(gè)用戶詳細(xì)信息、一條微博、一條評論等。
(2)一次API調(diào)用返回的記錄數(shù)有上限。比如新浪微博規(guī)定獲取微博列表API單次返回記錄不超過200條,也就是單次訪問最多返回200條。雖然有的API提供翻頁的功能,但總頁數(shù)也是有限制的,翻頁可以指定頁碼,最多可獲記錄數(shù)=200條/頁×最大頁碼。
(3)API調(diào)用得到的記錄都是最新的記錄,并且記錄呈數(shù)據(jù)流形式,即一旦錯(cuò)過了獲取的時(shí)機(jī),就很難再次獲取到了。比如獲取搜索關(guān)鍵詞的微博,每次API可獲得最多200條記錄,一共可以翻50頁,總計(jì)可獲取最新的20×50=1000條記錄(微博)。如果當(dāng)時(shí)含有此關(guān)鍵詞的微博超過1000條,則只能得到最新的1000條,余下的微博記錄就獲取不到了。
(4)現(xiàn)有的API調(diào)用的記錄依賴token資源。訪問微博API需要通過“授權(quán)”獲得token(比如新浪微博、騰訊微博是以O(shè)Auth2.0方式授權(quán))。
(5)微博API訪問時(shí)有限制條件。比如每小時(shí)所有接口訪問不能超過4萬次,每個(gè)IP每小時(shí)不能超過4萬次。
(6)訪問API有成本。有的接口還有可能是付費(fèi)的接口,每次訪問都有費(fèi)用產(chǎn)生。
上述的微博API是通過HTTP協(xié)議傳輸數(shù)據(jù)。如果僅用Web爬蟲技術(shù),雖然理論上可行,但是會(huì)遇到若干問題:
(1)URL不包含在Web頁面中,在獲取微博API數(shù)據(jù)的過程中,需要根據(jù)查詢、頁碼及其他信息構(gòu)造新URL;
(2)API返回的是有結(jié)構(gòu)的數(shù)據(jù),通常用XML或JSON格式,如果忽略這些結(jié)構(gòu)信息會(huì)丟失一些有價(jià)值的線索;
(3)如果API訪問時(shí)不加限制的訪問頁面,會(huì)被封禁IP、微博賬號(hào)甚至應(yīng)用賬號(hào);
(4)沒有充分獲取API結(jié)果中信息,以有效地訪問API獲取數(shù)據(jù);
(5)需要token資源才能獲取API的結(jié)果,而token資源有有效期,需要合理管理(賬號(hào)授權(quán)、檢查token是否失效等)。
針對現(xiàn)有技術(shù)中獲取互聯(lián)網(wǎng)社交平臺(tái)數(shù)據(jù)不準(zhǔn)確、不完整的問題,目前尚未有公開的有效解決方案。
發(fā)明內(nèi)容
針對相關(guān)技術(shù)中獲取互聯(lián)網(wǎng)社交平臺(tái)數(shù)據(jù)不準(zhǔn)確、不完整的問題,目前尚未有提出的有效解決方案。為此,本發(fā)明的主要目的在于提供一種互聯(lián)網(wǎng)數(shù)據(jù)獲取方法及裝置,以解決上述問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京微眾文化傳媒有限公司,未經(jīng)北京微眾文化傳媒有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410163160.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實(shí)現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動(dòng)攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點(diǎn)中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





