[發(fā)明專利]站點信息獲取方法及裝置在審
| 申請?zhí)枺?/td> | 201310222196.4 | 申請日: | 2013-06-05 |
| 公開(公告)號: | CN104216928A | 公開(公告)日: | 2014-12-17 |
| 發(fā)明(設(shè)計)人: | 高健;牛小彬;章云龍 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳翼盛智成知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44300 | 代理人: | 歐陽啟明 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 站點 信息 獲取 方法 裝置 | ||
【技術(shù)領(lǐng)域】
本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種站點信息獲取方法及裝置。
【背景技術(shù)】
為了查找出具有眾多小說的網(wǎng)站,傳統(tǒng)的技術(shù)方案有以下兩種:
一、在Hub(樞紐)頁面(例如,http://www.hao123.com/)中通過人工查找的方式查找上述具有眾多小說的站點;
二、在搜索引擎頁面(例如,http://www.baidu.com/)上通過人工搜索的方式獲取上述具有眾多小說的站點。
在實踐中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
針對上述第一點,Hub頁面中包含的小說數(shù)量較少,無法找到具有眾多小說的站點;
針對上述第二點,通過人工搜索的方式耗費的人力成本太高。
綜上,傳統(tǒng)的技術(shù)方案一般都需要人工查找才能獲取符合要求的信息,無法實現(xiàn)自動地查找出符合要求的信息。
故,有必要提出一種新的技術(shù)方案,以解決上述技術(shù)問題。
【發(fā)明內(nèi)容】
本發(fā)明的目的在于提供一種站點信息獲取方法和裝置,其能自動地查找出符合要求的站點信息,不需要耗費太多的人力。
為解決上述技術(shù)問題,本發(fā)明實施例的技術(shù)方案如下:
一種站點信息獲取方法,所述方法包括:以基礎(chǔ)數(shù)據(jù)集合中的元素的關(guān)鍵詞進行搜索,并獲取相應(yīng)的搜索結(jié)果;根據(jù)所述搜索結(jié)果中的頁面鏈接信息獲取相應(yīng)站點的頁面中的預(yù)定部分信息;將與所述頁面鏈接信息對應(yīng)的站點標識和所述預(yù)定部分信息整理成相應(yīng)的數(shù)據(jù)記錄,并根據(jù)所述數(shù)據(jù)記錄生成站點信息獲取結(jié)果。
一種站點信息獲取裝置,所述裝置包括:搜索模塊,用于以基礎(chǔ)數(shù)據(jù)集合中的元素的關(guān)鍵詞進行搜索,并獲取相應(yīng)的搜索結(jié)果;獲取模塊,用于根據(jù)所述搜索結(jié)果中的頁面鏈接信息獲取相應(yīng)站點的頁面中的預(yù)定部分信息;整理模塊,用于將與所述頁面鏈接信息對應(yīng)的站點標識和所述預(yù)定部分信息整理成相應(yīng)的數(shù)據(jù)記錄,并用于根據(jù)所述數(shù)據(jù)記錄生成站點信息獲取結(jié)果。
相對現(xiàn)有技術(shù),本發(fā)明實施例由于利用了搜索模塊、抓取模塊和整理模塊的組合來挖掘互聯(lián)網(wǎng)上的站點信息,因此可以實現(xiàn)自動地挖掘互聯(lián)網(wǎng)上的站點信息,操作者只需提供初始數(shù)據(jù)(例如,幾部小說的信息)即可挖掘出符合要求(具有眾多小說)的站點信息),在挖掘該站點信息的過程中不需要耗費太多的人力。
為讓本發(fā)明的上述內(nèi)容能更明顯易懂,下文特舉優(yōu)選實施例,并配合所附圖式,作詳細說明如下:
【附圖說明】
圖1為本發(fā)明實施例的站點信息獲取方法和裝置的運行環(huán)境示意圖;
圖2是本發(fā)明的站點信息獲取裝置的第一實施例的框圖;
圖3是本發(fā)明的站點信息獲取裝置的第三實施例的框圖;
圖4是本發(fā)明的站點信息獲取裝置的第四實施例的框圖;
圖5是本發(fā)明的站點信息獲取裝置的第五實施例的框圖;
圖6是本發(fā)明的站點信息獲取裝置的第六實施例的框圖;
圖7是本發(fā)明的站點信息獲取方法的第一實施例的流程圖;
圖8是本發(fā)明的站點信息獲取方法的第二實施例的流程圖;
圖9是本發(fā)明的站點信息獲取方法的第三實施例的流程圖;
圖10是本發(fā)明的站點信息獲取方法的第四實施例的流程圖;
圖11是本發(fā)明的站點信息獲取方法的第五實施例的流程圖;
圖12是本發(fā)明的站點信息獲取方法的第六實施例的流程圖。
【具體實施方式】
以下各實施例的說明是參考附加的圖式,用以例示本發(fā)明可用以實施的特定實施例。
在以下的說明中,本發(fā)明的具體實施例將參考由一部或多部計算機/移動設(shè)備所執(zhí)行的作業(yè)的步驟及符號來說明,除非另有述明。因此,其將可了解到這些步驟及操作,其中有數(shù)次提到為由計算機/移動設(shè)備執(zhí)行,包括了由代表了以一結(jié)構(gòu)化型式中的數(shù)據(jù)的電子信號的計算機/移動設(shè)備處理單元所操縱。此操縱轉(zhuǎn)換該數(shù)據(jù)或?qū)⑵渚S持在該計算機/移動設(shè)備的內(nèi)存系統(tǒng)中的位置處,其可重新配置或另外以本領(lǐng)域技術(shù)人員所熟知的方式來改變該計算機/移動設(shè)備的運作。該數(shù)據(jù)所維持的數(shù)據(jù)結(jié)構(gòu)為該內(nèi)存的實體位置,其具有由該數(shù)據(jù)格式所定義的特定特性。但是,本發(fā)明原理以上述文字來說明,其并不代表為一種限制,本領(lǐng)域技術(shù)人員將可了解到以下所述的多種步驟及操作亦可實施在硬件當中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310222196.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





