[發(fā)明專利]一種搜索引擎數(shù)據(jù)采集入口構(gòu)建方法和裝置無效
| 申請?zhí)枺?/td> | 201310244613.5 | 申請日: | 2013-06-19 |
| 公開(公告)號: | CN103390024A | 公開(公告)日: | 2013-11-13 |
| 發(fā)明(設(shè)計(jì))人: | 文小超;蘭穎峰;劉凱 | 申請(專利權(quán))人: | 北京時(shí)間中國網(wǎng)科技有限公司;北京點(diǎn)玩?zhèn)I(yè)軟件技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 搜索引擎 數(shù)據(jù) 采集 入口 構(gòu)建 方法 裝置 | ||
1.一種搜索引擎數(shù)據(jù)采集入口構(gòu)建方法,其特征在于,所述方法包括:
利用第一關(guān)鍵詞集合中的關(guān)鍵詞在第一數(shù)據(jù)中進(jìn)行搜索,獲取搜索結(jié)果對應(yīng)的網(wǎng)頁地址,利用所述網(wǎng)頁地址構(gòu)建初始數(shù)據(jù)采集入口集合;
獲取初始數(shù)據(jù)采集入口集合中的網(wǎng)頁地址對應(yīng)的第一更新數(shù)據(jù);其中,所述第一更新數(shù)據(jù)與所述第一數(shù)據(jù)不同;
利用第二關(guān)鍵詞集合中的關(guān)鍵詞在所述第一更新數(shù)據(jù)中進(jìn)行搜索,獲取搜索結(jié)果對應(yīng)的網(wǎng)頁地址,利用所述網(wǎng)頁地址構(gòu)建正式數(shù)據(jù)采集入口集合;其中,所述第一關(guān)鍵詞集合以及所述第二關(guān)鍵詞集合均與預(yù)定搜索領(lǐng)域相關(guān)聯(lián)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用第一關(guān)鍵詞集合中的關(guān)鍵詞在第一數(shù)據(jù)中進(jìn)行搜索,獲取搜索結(jié)果對應(yīng)的網(wǎng)頁地址,利用所述網(wǎng)頁地址構(gòu)建初始采集入口集合包括:
利用所述第一關(guān)鍵詞集合獲取第一關(guān)鍵詞子集;
利用所述第一關(guān)鍵詞子集在第一數(shù)據(jù)中進(jìn)行搜索,獲取第一搜索結(jié)果集合;
利用所述第一關(guān)鍵詞集合獲取第二關(guān)鍵詞子集;
利用所述第二關(guān)鍵詞子集在第一數(shù)據(jù)中進(jìn)行搜索,獲取第二搜索結(jié)果集合;
比較所述第一搜索結(jié)果集合對應(yīng)的網(wǎng)頁地址與所述第二搜索結(jié)果集合對應(yīng)的網(wǎng)頁地址,獲取在第一搜索結(jié)果集合和第二搜索結(jié)果集合中均出現(xiàn)的網(wǎng)頁地址,利用所述網(wǎng)頁地址構(gòu)建初始數(shù)據(jù)采集入口集合。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,利用所述第一關(guān)鍵詞集合獲取第一關(guān)鍵詞子集或者第二關(guān)鍵詞子集的過程是隨機(jī)的。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用第二關(guān)鍵詞集合中的關(guān)鍵詞在所述第一更新數(shù)據(jù)中進(jìn)行搜索,獲取搜索結(jié)果對應(yīng)的網(wǎng)頁地址,利用所述網(wǎng)頁地址構(gòu)建正式數(shù)據(jù)采集入口集合包括:
利用所述第二關(guān)鍵詞集合獲取第一驗(yàn)證詞子集;
利用所述第一驗(yàn)證詞子集在所述第一更新數(shù)據(jù)中進(jìn)行搜索,獲取第三搜索結(jié)果集合;
利用所述第二關(guān)鍵詞集合獲取第二驗(yàn)證詞子集;
利用所述第二驗(yàn)證詞子集在所述第一更新數(shù)據(jù)中進(jìn)行搜索,獲取第四搜索結(jié)果集合;
比較所述第三搜索結(jié)果集合對應(yīng)的網(wǎng)頁地址與所述第四搜索結(jié)果集合對應(yīng)的網(wǎng)頁地址,獲取在第三搜索結(jié)果集合和第四搜索結(jié)果集合中均出現(xiàn)的網(wǎng)頁地址,利用所述網(wǎng)頁地址構(gòu)建正式數(shù)據(jù)采集入口集合。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
利用聚類技術(shù)和新增領(lǐng)域信息集合獲取新的關(guān)鍵詞,利用所述新的關(guān)鍵詞更新所述第一關(guān)鍵詞集合和/或第二關(guān)鍵詞集合,獲取更新后的第一關(guān)鍵詞集合和/或更新后的第二關(guān)鍵詞集合。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:
利用所述更新后的第一關(guān)鍵詞集合更新所述初始數(shù)據(jù)采集入口集合;
獲取更新后的初始數(shù)據(jù)采集入口集合中的網(wǎng)頁地址對應(yīng)的第二更新數(shù)據(jù);
利用所述更新后的第二關(guān)鍵詞集合中的關(guān)鍵詞在所述第二更新數(shù)據(jù)中進(jìn)行搜索,獲取搜索結(jié)果對應(yīng)的網(wǎng)頁地址,利用所述網(wǎng)頁地址構(gòu)建動態(tài)數(shù)據(jù)采集入口集合。
7.根據(jù)權(quán)利要求1或6所述的方法,其特征在于,所述方法還包括:
接收搜索請求,獲取與所述搜索請求對應(yīng)的搜索領(lǐng)域;
在所述搜索領(lǐng)域?qū)?yīng)的正式數(shù)據(jù)采集入口集合或者動態(tài)數(shù)據(jù)采集入口集合中進(jìn)行搜索,獲取搜索結(jié)果。
8.一種搜索引擎數(shù)據(jù)采集入口構(gòu)建裝置,其特征在于,所述裝置包括:
初始數(shù)據(jù)采集入口集合構(gòu)建單元,用于利用第一關(guān)鍵詞集合中的關(guān)鍵詞在第一數(shù)據(jù)中進(jìn)行搜索,獲取搜索結(jié)果對應(yīng)的網(wǎng)頁地址,利用所述網(wǎng)頁地址構(gòu)建初始數(shù)據(jù)采集入口集合;
第一更新數(shù)據(jù)獲取單元,用于獲取初始數(shù)據(jù)采集入口集合中的網(wǎng)頁地址對應(yīng)的第一更新數(shù)據(jù);其中,所述第一更新數(shù)據(jù)與所述第一數(shù)據(jù)不同;
正式數(shù)據(jù)采集入口集合構(gòu)建單元,用于利用第二關(guān)鍵詞集合中的關(guān)鍵詞在所述第一更新數(shù)據(jù)中進(jìn)行搜索,獲取搜索結(jié)果對應(yīng)的網(wǎng)頁地址,利用所述網(wǎng)頁地址構(gòu)建正式數(shù)據(jù)采集入口集合;其中,所述第一關(guān)鍵詞集合以及所述第二關(guān)鍵詞集合均與預(yù)定搜索領(lǐng)域相關(guān)聯(lián)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京時(shí)間中國網(wǎng)科技有限公司;北京點(diǎn)玩?zhèn)I(yè)軟件技術(shù)有限公司,未經(jīng)北京時(shí)間中國網(wǎng)科技有限公司;北京點(diǎn)玩?zhèn)I(yè)軟件技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310244613.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





