[發明專利]一種數據庫建立方法和裝置無效
| 申請號: | 200910084130.7 | 申請日: | 2009-05-20 |
| 公開(公告)號: | CN101894109A | 公開(公告)日: | 2010-11-24 |
| 發明(設計)人: | 袁學軍;熊燁 | 申請(專利權)人: | 無錫比比網信息有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 謝安昆;宋志強 |
| 地址: | 214028 江蘇省無*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據庫 建立 方法 裝置 | ||
技術領域
本發明涉及網絡技術,特別涉及一種對網絡上的數據進行有序整理和存儲的數據庫建立方法和裝置。
背景技術
當前,互聯網上的數據總體上雜亂無章,用戶如果需要查找某個具體的信息,比如關于“××學校”的介紹,通常需要借助于搜索引擎來進行搜索。
但是,這種搜索方式存在一定的缺陷,即不能使用戶準確方便地找到所需信息,甚至不能找到所需信息。這是因為:按照現有搜索方式,用戶在輸入關鍵詞,比如“××學?!焙?,搜索引擎會顯示出包含該關鍵詞的所有信息,如“××學?!钡牡刂?、用戶對“××學?!钡脑u價、“××學校”的介紹、與“××學?!毕嚓P的歷史事件,以及“××學校”的相關新聞等,而且這些信息在顯示時是混雜在一起的,不能進行有效區分,那么,用戶需要進行進一步的篩選,才能從中找到自己所需的信息,很不方便。另外,對于某些比較不常用的關鍵詞,比如“××學?!?,該學校為用戶當地一個很小的學校,不知名,所以互聯網上沒有關于該學校的相關介紹,那么如果用戶按照現有方式進行搜索,則根本就不能得到所需的信息。
發明內容
有鑒于此,本發明的主要目的在于提供一種數據庫建立方法,能夠使用戶準確方便地搜索到自己所需的信息。
本發明的另一目的在于提供一種數據庫建立裝置,能夠使用戶準確方便地搜索到自己所需的信息。
為達到上述目的,本發明的技術方案是這樣實現的:
一種數據庫建立方法,包括:
確定目標數據網站;
從每個目標數據網站上采集所需信息,并將采集到的所需信息按照所屬類別的不同分別存儲到數據庫中;
接收用戶編輯或創建的數據,并將該數據按照所屬類別的不同分別存儲到所述數據庫中。
所述確定目標數據網站包括:
獲取初選目標數據網站;
按照預定規則,分別判斷每個初選目標數據網站是否符合要求,如果是,則將該初選目標數據網站確定為目標數據網站。
所述從每個目標數據網站上采集所需信息包括:
訪問每個目標數據網站,獲取每個目標數據網站上的每個網頁的網頁內容;
利用關鍵詞匹配或正則表達式字符串匹配方式從網頁內容中采集所需信息。
所述訪問每個目標數據網站,獲取每個目標數據網站上的每個網頁的網頁內容包括:
分析每個目標數據網站的統一資源定位符URL,確定該目標數據網站的網頁網址是否有規律可循,如果是,則根據所述規律構造循環條件,并利用構造出的循環條件依次訪問每個網頁,獲取網頁內容;
否則,通過對目標數據網站的源代碼進行分析或利用搜索引擎進行搜索,獲取每個網頁的網址,按照確定出的網址訪問每個網頁,獲取網頁內容。
所述利用關鍵詞匹配或正則表達式字符串匹配方式從網頁內容中采集所需信息之前,進一步包括:
剔除網頁內容中的超文本鏈接標示語言HTML標簽以及無用的空白字符;
確定網頁內容的文字編碼方式是否符合要求,如果不符合,將其轉換為預定的文字編碼方式。
該方法進一步包括:
將所確定的每個目標數據網站,以及從每個目標數據網站上采集所需信息的方式進行保存,依據所保存的信息,對所述數據庫進行實時或定時更新。
該方法進一步包括:
生成搜索界面;
接收用戶輸入的關鍵詞,并在所述數據庫中搜索包含所述關鍵詞的信息顯示給用戶。
所述搜索包含所述關鍵詞的信息顯示給用戶包括:
當所述關鍵詞的數量為一個時,在不同類別中分別搜索包含所述關鍵詞的信息,并將搜索到的每個類別中包含所述關鍵詞的前N條信息顯示給用戶;所述N為正整數;
當所述關鍵詞的數量為兩個以上時,確定用戶是否需要進行比較搜索,如果是,則針對每個關鍵詞,分別在不同類別中搜索包含所述關鍵詞的信息,并將搜索到的每個關鍵詞所對應的同一類別中的前N條信息以對照的形式同時顯示給用戶。
該方法進一步包括:按照預先設定的鏈接關系,搜索與包含所述關鍵詞的信息相關的信息并顯示給用戶。
一種數據庫建立裝置,包括:數據庫、確定單元、第一存儲單元以及第二存儲單元,其中:
所述確定單元,用于確定目標數據網站;
所述第一存儲單元,用于從每個目標數據網站上采集所需信息,并將采集到的所需信息按照所屬類別的不同分別存儲到所述數據庫中;
所述第二存儲單元,用于接收用戶編輯或創建的數據,并將該數據按照所屬類別的不同分別存儲到所述數據庫中。
所述確定單元包括:
獲取子單元,用于獲取初選目標數據網站;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于無錫比比網信息有限公司,未經無錫比比網信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910084130.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于稀疏降維的譜哈希索引方法
- 下一篇:網上搜索書源的方法及其系統





