[發(fā)明專利]基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201510061724.1 | 申請(qǐng)日: | 2015-02-05 |
| 公開(公告)號(hào): | CN104615716B | 公開(公告)日: | 2017-12-01 |
| 發(fā)明(設(shè)計(jì))人: | 張日崇;黃海飛;李建欣;于偉仁 | 申請(qǐng)(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06Q50/00 |
| 代理公司: | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司11205 | 代理人: | 馬爽,黃健 |
| 地址: | 100191*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 優(yōu)先 序列 分布式 社交 網(wǎng)絡(luò) 信息 采集 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及社交網(wǎng)絡(luò)信息采集領(lǐng)域,尤其涉及一種基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法及系統(tǒng)。
背景技術(shù)
社交網(wǎng)絡(luò)的興起,導(dǎo)致越來越多的用戶參與進(jìn)來。隨著社交網(wǎng)絡(luò)的蓬勃發(fā)展,用戶在信息發(fā)布和傳播的過程中起到越來越重要的作用,用戶不再只是信息的被動(dòng)接受者,同時(shí)也是信息資源的主動(dòng)提供者和傳播者。無論是國(guó)內(nèi)還是國(guó)外,隨著社交網(wǎng)絡(luò)的日益普及,使用社交網(wǎng)絡(luò)的用戶也在逐漸增多。由于用戶的積極參與,每天都會(huì)產(chǎn)生數(shù)以千萬計(jì)的社交信息,這些信息具有重要的價(jià)值,比如它可以幫助我們分析熱點(diǎn)事件,分析公共輿論的形成和發(fā)展過程等。而如何及時(shí)全面地獲取這些信息,是我們進(jìn)行社交網(wǎng)絡(luò)分析的重要前提。
目前的社交網(wǎng)絡(luò)信息獲取過程主要分為兩種:一種是通過網(wǎng)頁(yè)模擬登錄到社交網(wǎng)絡(luò)平臺(tái),通過頁(yè)面解析的方式獲得社交網(wǎng)絡(luò)信息;另一種方式是利用社交網(wǎng)絡(luò)開放的API,獲取社交網(wǎng)絡(luò)信息。盡管通過上述手段都能對(duì)社交網(wǎng)絡(luò)信息進(jìn)行采集,但是,由于社交網(wǎng)絡(luò)在不同的時(shí)間段可能有顯著不同的發(fā)布量,比如在白天發(fā)布的信息量明顯要比夜間發(fā)布的信息量要高得多,這樣就有可能出現(xiàn)單次獲取到的信息較少,甚至沒有任何信息,導(dǎo)致資源的浪費(fèi)。
發(fā)明內(nèi)容
本發(fā)明提供一種基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法及系統(tǒng),用于解決現(xiàn)有的信息獲取方案容易導(dǎo)致資源浪費(fèi)的問題。
本發(fā)明的第一個(gè)方面是提供一種基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法,包括:
獲取本次任務(wù)分配的任務(wù)列表,所述任務(wù)列表中包括各社交網(wǎng)絡(luò)信息;
根據(jù)所述各社交網(wǎng)絡(luò)信息的發(fā)布時(shí)間,對(duì)所述各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級(jí)排序,其中,發(fā)布時(shí)間越早則優(yōu)先級(jí)越高;
按照第一周期,根據(jù)當(dāng)前所述各社交網(wǎng)絡(luò)信息的優(yōu)先級(jí),周期性地進(jìn)行任務(wù)分配。
本發(fā)明的另一個(gè)方面是提供一種基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集系統(tǒng),包括:
獲取模塊,用于獲取本次任務(wù)分配的任務(wù)列表,所述任務(wù)列表中包括各社交網(wǎng)絡(luò)信息;
優(yōu)先級(jí)排序模塊,用于根據(jù)所述各社交網(wǎng)絡(luò)信息的發(fā)布時(shí)間,對(duì)所述各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級(jí)排序,其中,發(fā)布時(shí)間越早則優(yōu)先級(jí)越高;
處理模塊,用于按照第一周期,根據(jù)當(dāng)前所述各社交網(wǎng)絡(luò)信息的優(yōu)先級(jí),周期性地進(jìn)行任務(wù)分配。
本發(fā)明提供的基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法及系統(tǒng),對(duì)任務(wù)列表中的各社交網(wǎng)絡(luò)信息進(jìn)行優(yōu)先級(jí)排序,并根據(jù)各社交網(wǎng)絡(luò)信息的優(yōu)先級(jí)進(jìn)行任務(wù)分配,從而能夠有效地對(duì)任務(wù)進(jìn)行分配,有效提高社交網(wǎng)絡(luò)信息采集的效率。
附圖說明
圖1為本發(fā)明實(shí)施例一提供的基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法的流程示意圖;
圖2為本發(fā)明實(shí)施例二提供的基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。
圖1為本發(fā)明實(shí)施例一提供的基于優(yōu)先序列的分布式社交網(wǎng)絡(luò)信息采集方法的流程示意圖,如圖1所示,所述方法包括:
101、獲取本次任務(wù)分配的任務(wù)列表,所述任務(wù)列表中包括各社交網(wǎng)絡(luò)信息。
目前的社交網(wǎng)絡(luò)信息獲取過程主要分為兩種:一種是通過網(wǎng)頁(yè)模擬登錄到社交網(wǎng)絡(luò)平臺(tái),通過頁(yè)面解析的方式獲得具體信息,但這種方式不能在短期內(nèi)頻繁地登錄社交網(wǎng)絡(luò)平臺(tái),否則會(huì)判定為惡意行為,導(dǎo)致IP或者賬號(hào)被封的問題;另外,當(dāng)社交網(wǎng)站的頁(yè)面發(fā)生改動(dòng)時(shí),就必須修改相應(yīng)的程序,否則無法獲取到正確的信息;此外,因?yàn)檫@種方式是通過解析頁(yè)面的方式來獲取信息,而頁(yè)面中大部分的信息是與社交網(wǎng)絡(luò)信息無關(guān)的,這樣每次都獲取整個(gè)頁(yè)面,勢(shì)必會(huì)導(dǎo)致占用較大的網(wǎng)絡(luò)帶寬。
優(yōu)選的,另一種是利用社交網(wǎng)絡(luò)開放的API。大多的社交媒體平臺(tái)采用OAuth授權(quán)的方式給予用戶調(diào)用API的權(quán)利,但是在使用token時(shí)卻有著一定的限制,除了訪問次數(shù)的限制外,對(duì)于不同的API,token也有著不同的限制條件,這就導(dǎo)致在固定的時(shí)間內(nèi),抓取的資源有限,其中,token是每次調(diào)用API的一個(gè)必要參數(shù)。以新浪微博平臺(tái)為例,表1展示了新浪微博平臺(tái)對(duì)token使用頻率的限制。
表1
具體的,獲取token的過程主要包括:社交媒體開發(fā)者平臺(tái)的登錄,開發(fā)者信息的填寫,郵箱驗(yàn)證,應(yīng)用信息的填寫和OAuth授權(quán)的過程。本實(shí)施例中,上述過程可以自動(dòng)完成,從而節(jié)省時(shí)間。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510061724.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 優(yōu)先控制系統(tǒng)及優(yōu)先控制方法
- 一種寬帶碼分多址系統(tǒng)中優(yōu)先級(jí)的配置方法
- 高效的優(yōu)先級(jí)感知線程調(diào)度
- 一種優(yōu)先級(jí)隊(duì)列設(shè)計(jì)方法及優(yōu)先級(jí)隊(duì)列設(shè)計(jì)裝置
- 閉心負(fù)載反饋液壓系統(tǒng)中的兩級(jí)優(yōu)先結(jié)構(gòu)控制閥塊
- 閉心負(fù)載反饋液壓系統(tǒng)中的兩級(jí)優(yōu)先結(jié)構(gòu)控制閥塊
- 對(duì)優(yōu)先訪問信道的優(yōu)先訪問
- 優(yōu)先閥
- 優(yōu)先閥
- 優(yōu)先閥





