[發(fā)明專利]一種數(shù)據(jù)庫建立方法和裝置無效
| 申請(qǐng)?zhí)枺?/td> | 200910084130.7 | 申請(qǐng)日: | 2009-05-20 |
| 公開(公告)號(hào): | CN101894109A | 公開(公告)日: | 2010-11-24 |
| 發(fā)明(設(shè)計(jì))人: | 袁學(xué)軍;熊燁 | 申請(qǐng)(專利權(quán))人: | 無錫比比網(wǎng)信息有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京德琦知識(shí)產(chǎn)權(quán)代理有限公司 11018 | 代理人: | 謝安昆;宋志強(qiáng) |
| 地址: | 214028 江蘇省無*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)庫 建立 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù),特別涉及一種對(duì)網(wǎng)絡(luò)上的數(shù)據(jù)進(jìn)行有序整理和存儲(chǔ)的數(shù)據(jù)庫建立方法和裝置。
背景技術(shù)
當(dāng)前,互聯(lián)網(wǎng)上的數(shù)據(jù)總體上雜亂無章,用戶如果需要查找某個(gè)具體的信息,比如關(guān)于“××學(xué)校”的介紹,通常需要借助于搜索引擎來進(jìn)行搜索。
但是,這種搜索方式存在一定的缺陷,即不能使用戶準(zhǔn)確方便地找到所需信息,甚至不能找到所需信息。這是因?yàn)椋喊凑宅F(xiàn)有搜索方式,用戶在輸入關(guān)鍵詞,比如“××學(xué)校”后,搜索引擎會(huì)顯示出包含該關(guān)鍵詞的所有信息,如“××學(xué)校”的地址、用戶對(duì)“××學(xué)校”的評(píng)價(jià)、“××學(xué)校”的介紹、與“××學(xué)校”相關(guān)的歷史事件,以及“××學(xué)校”的相關(guān)新聞等,而且這些信息在顯示時(shí)是混雜在一起的,不能進(jìn)行有效區(qū)分,那么,用戶需要進(jìn)行進(jìn)一步的篩選,才能從中找到自己所需的信息,很不方便。另外,對(duì)于某些比較不常用的關(guān)鍵詞,比如“××學(xué)校”,該學(xué)校為用戶當(dāng)?shù)匾粋€(gè)很小的學(xué)校,不知名,所以互聯(lián)網(wǎng)上沒有關(guān)于該學(xué)校的相關(guān)介紹,那么如果用戶按照現(xiàn)有方式進(jìn)行搜索,則根本就不能得到所需的信息。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種數(shù)據(jù)庫建立方法,能夠使用戶準(zhǔn)確方便地搜索到自己所需的信息。
本發(fā)明的另一目的在于提供一種數(shù)據(jù)庫建立裝置,能夠使用戶準(zhǔn)確方便地搜索到自己所需的信息。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
一種數(shù)據(jù)庫建立方法,包括:
確定目標(biāo)數(shù)據(jù)網(wǎng)站;
從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息,并將采集到的所需信息按照所屬類別的不同分別存儲(chǔ)到數(shù)據(jù)庫中;
接收用戶編輯或創(chuàng)建的數(shù)據(jù),并將該數(shù)據(jù)按照所屬類別的不同分別存儲(chǔ)到所述數(shù)據(jù)庫中。
所述確定目標(biāo)數(shù)據(jù)網(wǎng)站包括:
獲取初選目標(biāo)數(shù)據(jù)網(wǎng)站;
按照預(yù)定規(guī)則,分別判斷每個(gè)初選目標(biāo)數(shù)據(jù)網(wǎng)站是否符合要求,如果是,則將該初選目標(biāo)數(shù)據(jù)網(wǎng)站確定為目標(biāo)數(shù)據(jù)網(wǎng)站。
所述從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息包括:
訪問每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,獲取每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上的每個(gè)網(wǎng)頁的網(wǎng)頁內(nèi)容;
利用關(guān)鍵詞匹配或正則表達(dá)式字符串匹配方式從網(wǎng)頁內(nèi)容中采集所需信息。
所述訪問每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,獲取每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上的每個(gè)網(wǎng)頁的網(wǎng)頁內(nèi)容包括:
分析每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站的統(tǒng)一資源定位符URL,確定該目標(biāo)數(shù)據(jù)網(wǎng)站的網(wǎng)頁網(wǎng)址是否有規(guī)律可循,如果是,則根據(jù)所述規(guī)律構(gòu)造循環(huán)條件,并利用構(gòu)造出的循環(huán)條件依次訪問每個(gè)網(wǎng)頁,獲取網(wǎng)頁內(nèi)容;
否則,通過對(duì)目標(biāo)數(shù)據(jù)網(wǎng)站的源代碼進(jìn)行分析或利用搜索引擎進(jìn)行搜索,獲取每個(gè)網(wǎng)頁的網(wǎng)址,按照確定出的網(wǎng)址訪問每個(gè)網(wǎng)頁,獲取網(wǎng)頁內(nèi)容。
所述利用關(guān)鍵詞匹配或正則表達(dá)式字符串匹配方式從網(wǎng)頁內(nèi)容中采集所需信息之前,進(jìn)一步包括:
剔除網(wǎng)頁內(nèi)容中的超文本鏈接標(biāo)示語言HTML標(biāo)簽以及無用的空白字符;
確定網(wǎng)頁內(nèi)容的文字編碼方式是否符合要求,如果不符合,將其轉(zhuǎn)換為預(yù)定的文字編碼方式。
該方法進(jìn)一步包括:
將所確定的每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站,以及從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息的方式進(jìn)行保存,依據(jù)所保存的信息,對(duì)所述數(shù)據(jù)庫進(jìn)行實(shí)時(shí)或定時(shí)更新。
該方法進(jìn)一步包括:
生成搜索界面;
接收用戶輸入的關(guān)鍵詞,并在所述數(shù)據(jù)庫中搜索包含所述關(guān)鍵詞的信息顯示給用戶。
所述搜索包含所述關(guān)鍵詞的信息顯示給用戶包括:
當(dāng)所述關(guān)鍵詞的數(shù)量為一個(gè)時(shí),在不同類別中分別搜索包含所述關(guān)鍵詞的信息,并將搜索到的每個(gè)類別中包含所述關(guān)鍵詞的前N條信息顯示給用戶;所述N為正整數(shù);
當(dāng)所述關(guān)鍵詞的數(shù)量為兩個(gè)以上時(shí),確定用戶是否需要進(jìn)行比較搜索,如果是,則針對(duì)每個(gè)關(guān)鍵詞,分別在不同類別中搜索包含所述關(guān)鍵詞的信息,并將搜索到的每個(gè)關(guān)鍵詞所對(duì)應(yīng)的同一類別中的前N條信息以對(duì)照的形式同時(shí)顯示給用戶。
該方法進(jìn)一步包括:按照預(yù)先設(shè)定的鏈接關(guān)系,搜索與包含所述關(guān)鍵詞的信息相關(guān)的信息并顯示給用戶。
一種數(shù)據(jù)庫建立裝置,包括:數(shù)據(jù)庫、確定單元、第一存儲(chǔ)單元以及第二存儲(chǔ)單元,其中:
所述確定單元,用于確定目標(biāo)數(shù)據(jù)網(wǎng)站;
所述第一存儲(chǔ)單元,用于從每個(gè)目標(biāo)數(shù)據(jù)網(wǎng)站上采集所需信息,并將采集到的所需信息按照所屬類別的不同分別存儲(chǔ)到所述數(shù)據(jù)庫中;
所述第二存儲(chǔ)單元,用于接收用戶編輯或創(chuàng)建的數(shù)據(jù),并將該數(shù)據(jù)按照所屬類別的不同分別存儲(chǔ)到所述數(shù)據(jù)庫中。
所述確定單元包括:
獲取子單元,用于獲取初選目標(biāo)數(shù)據(jù)網(wǎng)站;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于無錫比比網(wǎng)信息有限公司,未經(jīng)無錫比比網(wǎng)信息有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910084130.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對(duì)象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲(chǔ)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





