[發(fā)明專利]一種關(guān)鍵詞熱度自動(dòng)控制方法有效
| 申請?zhí)枺?/td> | 201310524337.8 | 申請日: | 2013-10-30 |
| 公開(公告)號: | CN103544294B | 公開(公告)日: | 2017-02-01 |
| 發(fā)明(設(shè)計(jì))人: | 黎小為;廖耀華 | 申請(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京邦信陽專利商標(biāo)代理有限公司11012 | 代理人: | 王昭林,胡冰 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 關(guān)鍵詞 熱度 自動(dòng)控制 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索和收集技術(shù),更具體地,涉及一種關(guān)鍵詞熱度自動(dòng)控制方法。
背景技術(shù)
互聯(lián)網(wǎng)已經(jīng)成為時(shí)下最重要的新媒體之一,互聯(lián)網(wǎng)提供了這樣一個(gè)平臺(tái),用戶既可以作為瀏覽者,在互聯(lián)網(wǎng)上瀏覽感興趣的信息,也可以作為發(fā)布者,在互聯(lián)網(wǎng)上發(fā)布內(nèi)容供別人瀏覽。互聯(lián)網(wǎng)最大的特點(diǎn)就是:發(fā)布信息快速,信息傳播的速度快。例如以微博為例,如果有200萬個(gè)人關(guān)注該用戶,那么該用戶發(fā)布的信息會(huì)在瞬間傳播給這200萬人,而僅僅中國互聯(lián)網(wǎng)用戶已經(jīng)達(dá)到好幾億,正是由于這些特點(diǎn),使得互聯(lián)網(wǎng)經(jīng)成為當(dāng)前最重要、最具影響力的傳播媒體。
因此,越來越多的企業(yè)都希望能夠?qū)崟r(shí)了解本企業(yè)在互聯(lián)網(wǎng)上的輿論導(dǎo)向,搜集信息以支持公司下一步發(fā)展戰(zhàn)略作出最快的調(diào)整。互聯(lián)網(wǎng)上的信息浩如煙海,如何有效地搜集本企業(yè)有用的信息,是當(dāng)前企業(yè)面臨的重要技術(shù)問題。
現(xiàn)在出現(xiàn)了輿情系統(tǒng),該系統(tǒng)通過業(yè)務(wù)方設(shè)置的關(guān)鍵詞,使用網(wǎng)絡(luò)爬蟲實(shí)時(shí)的在互聯(lián)網(wǎng)上面抓取與之相關(guān)的信息,進(jìn)行數(shù)據(jù)分析后將有價(jià)值的信息推送給業(yè)務(wù)方。然而,不同業(yè)務(wù)方所訂閱的關(guān)鍵詞不同,怎樣調(diào)整關(guān)鍵詞的調(diào)度策略讓網(wǎng)絡(luò)爬蟲盡可能完整的、實(shí)時(shí)的獲取互聯(lián)網(wǎng)信息成為關(guān)鍵技術(shù)。
目前現(xiàn)有的方案是基于調(diào)度策略的人工控制關(guān)鍵詞熱度方法。首先通過人工設(shè)定關(guān)鍵詞的熱度(關(guān)鍵詞熱度越高那么該關(guān)鍵詞的調(diào)度越頻繁抓取頻率也就越高),然后不斷去查找滿足調(diào)度條件的關(guān)鍵詞,推送到爬蟲抓取隊(duì)列,關(guān)鍵詞被推送一次之后,會(huì)重新設(shè)置下次被調(diào)度的時(shí)間,并等待下次調(diào)度,設(shè)置下次調(diào)度時(shí)間和關(guān)鍵詞的熱度相關(guān)。
然而,現(xiàn)有技術(shù)方案雖然可以根據(jù)人為的設(shè)置關(guān)鍵詞的熱度來控制、關(guān)鍵詞的抓取頻率,然而付出的代價(jià)和時(shí)間卻是巨大的,主要有以下兩個(gè)方面的缺點(diǎn):
1、人力資源消耗大
人工控制關(guān)鍵詞的熱度必須要人力去互聯(lián)網(wǎng)上面調(diào)研關(guān)鍵詞熱度,一般的做法是人為的使用搜索引擎,將關(guān)鍵詞輸入搜索引擎然后統(tǒng)計(jì)該關(guān)鍵詞的搜索結(jié)果。而且關(guān)鍵詞的熱度是變化的,在關(guān)鍵詞數(shù)量多的情況下,每天需要大量人力太統(tǒng)計(jì)這些數(shù)據(jù)。
2、時(shí)間浪費(fèi)多
人工的統(tǒng)計(jì)關(guān)鍵詞熱度的方法,需要人為的去記錄數(shù)據(jù)然后去重新設(shè)置關(guān)鍵詞的熱度,完成這些步驟需要花費(fèi)的時(shí)間一定也是巨大的,不利于輿情系統(tǒng)時(shí)間的去監(jiān)控輿情動(dòng)態(tài)。
3、關(guān)鍵詞熱度設(shè)置受個(gè)人主觀意識影響
因?yàn)殛P(guān)鍵詞熱度設(shè)置是人工判別,不僅容易帶來人為失誤設(shè)置熱度錯(cuò)誤,而且,認(rèn)為設(shè)置和事件效果可能會(huì)受個(gè)人主觀影響,想當(dāng)然的設(shè)置關(guān)鍵詞熱度,造成調(diào)度頻率混亂。
發(fā)明內(nèi)容
基于現(xiàn)在方案的缺點(diǎn),我們提出一種基于調(diào)度策略的自動(dòng)控制關(guān)鍵詞熱度方法,該方法將有效的解決現(xiàn)在方案所存在的人力資源、時(shí)間資源浪費(fèi)缺點(diǎn),同時(shí)免受個(gè)人主觀意識影響。
本發(fā)明的一種關(guān)鍵詞熱度自動(dòng)控制方法包括:1)為關(guān)鍵詞設(shè)置關(guān)鍵詞熱度;2)將滿足調(diào)度條件的關(guān)鍵詞推送到抓取隊(duì)列;3)從抓取隊(duì)列中提取一個(gè)關(guān)鍵詞用搜索引擎進(jìn)行搜索;4)根據(jù)搜索引擎的搜索結(jié)果調(diào)整關(guān)鍵詞熱度。
進(jìn)一步,在步驟2)中,所述調(diào)度條件為,該關(guān)鍵詞的調(diào)度時(shí)間小于或等于系統(tǒng)當(dāng)前時(shí)間。
進(jìn)一步,步驟2)還包括:通過如下方式更新該關(guān)鍵詞的調(diào)度時(shí)間,調(diào)度時(shí)間=系統(tǒng)當(dāng)前時(shí)間+調(diào)度時(shí)間間隔。
進(jìn)一步,所述調(diào)度時(shí)間間隔根據(jù)該關(guān)鍵詞的熱度而設(shè)定。
進(jìn)一步,在步驟3)中,利用網(wǎng)絡(luò)爬蟲從抓取隊(duì)列中提取一個(gè)關(guān)鍵詞進(jìn)行搜索。
進(jìn)一步,在步驟3)中,所述網(wǎng)絡(luò)爬蟲使用關(guān)鍵詞拼接微博搜索鏈接利用微博搜索引擎進(jìn)行搜索。
進(jìn)一步,在步驟3)中,用IE搜索引擎進(jìn)行搜索;在步驟4)中,解析所述IE搜索引擎的搜索結(jié)果頁面,包括:使用jsoup工具將搜索結(jié)果頁面轉(zhuǎn)化成DOM樹結(jié)構(gòu);使用jsoup的DOM選擇器;選擇指定標(biāo)簽下的內(nèi)容,使用正則表達(dá)式抽取出數(shù)字作為關(guān)鍵詞相關(guān)網(wǎng)頁數(shù)量,以及掃描該關(guān)鍵詞是否被屏蔽;以相關(guān)網(wǎng)頁數(shù)量和關(guān)鍵詞是否被屏蔽的信息作為搜索結(jié)果。
進(jìn)一步,在步驟4)中,根據(jù)兩次搜索結(jié)果的相關(guān)網(wǎng)頁數(shù)量的增量來調(diào)整關(guān)鍵詞熱度。
進(jìn)一步,在步驟4)中,如果關(guān)鍵詞被屏蔽,則刪除該關(guān)鍵詞。
本發(fā)明的技術(shù)方案中,通過抓取結(jié)果狀態(tài)報(bào)告機(jī)制自動(dòng)控制關(guān)鍵詞熱度,來替代人工設(shè)置關(guān)鍵詞熱度,節(jié)省了大量的人力資源和時(shí)間資源,同時(shí)也提高了信息抓取的及時(shí)性和熱度設(shè)置的準(zhǔn)確性。
附圖說明
圖1為本發(fā)明的方法的流程圖。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310524337.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種薏仁豬皮糕的制作方法
- 下一篇:一種醬制草地蘑菇的制備方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 預(yù)測視頻內(nèi)容熱度的方法和裝置
- 一種熱度迭代計(jì)算方法
- 帖子智能排位方法、裝置以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 電視節(jié)目播放方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種空調(diào)器的膨脹閥的控制方法及其系統(tǒng)、空調(diào)器
- 一種視頻熱度級別預(yù)測方法及裝置
- 一種分布式存儲(chǔ)系統(tǒng)數(shù)據(jù)熱度統(tǒng)計(jì)方法、裝置
- 一種基于熱度的日志結(jié)構(gòu)文件系統(tǒng)數(shù)據(jù)管理方法
- 熱度排行榜的更新方法、裝置、服務(wù)器及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 基于深度學(xué)習(xí)的數(shù)據(jù)熱度統(tǒng)計(jì)方法及裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





