[發明專利]一種自動構建分布式分類搜索引擎的方法在審
| 申請號: | 201510921658.0 | 申請日: | 2015-12-14 |
| 公開(公告)號: | CN105574100A | 公開(公告)日: | 2016-05-11 |
| 發明(設計)人: | 黃理燦 | 申請(專利權)人: | 杭州域竹科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 310018 浙江省杭州市杭州經濟技*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 構建 分布式 分類 搜索引擎 方法 | ||
技術領域
信息技術,分布式分類搜索引擎。
背景技術
搜索引擎主要分為全文搜索引擎和目錄分類搜索。全文搜索引擎是目前主流搜索 引擎,國外代表搜索是Google,國內是百度。全文搜索引擎利用“蜘蛛”(Spider)程序或“機 器人”(Robot)程序從互聯網提取各個網站的信,建立起數據庫。當用戶以關鍵詞查找信息 時,搜索引擎會在數據庫中進行搜尋,如果找到與用戶要求內容相符的網站,便采用特殊的 算法——通常根據網頁中關鍵詞的匹配程度、出現的位置、頻次、鏈接質量——計算出各網 頁的相關度及排名等級,然后根據關聯度高低,按順序將這些網頁鏈接返回給用戶。
目錄分類搜索按目錄分類將網站進行分類鏈接。用戶可以按照分類目錄找到所需 要的信息,不依靠關鍵詞進行查詢。分類搜索如Yahoo、新浪分類等。與全文搜索引擎相比, 目錄索引則完全依賴手工操作。這種引擎的特點是找的準確率比較高。
全文搜索引擎和目錄分類搜索各有優缺點。目錄索引則完全依賴手工操作,費時, 信息不全。當目錄很長時,用戶需要逐級查找下一級目錄,用戶體驗差。但查找的準確率比 較高。全文搜索引擎屬于自動網站檢索。這種引擎的特點是搜全率比較高。但是查找的結果 不精確。當不知道關鍵詞時,則不能搜索結果。用戶如果清晰知道要查找的關鍵詞,全文搜 索引擎是最好的選擇,但用戶不清晰知道要查找的關鍵詞,則目錄分類搜索適合用戶。當用 戶從天空看“森林“時,選擇使用目錄分類搜索,當用戶查找具體的”樹“時,全文搜索引擎是 好的選擇。
目前的搜索引擎僅僅搜索網頁的內容,對用戶的本地信息則不能搜索。然而。用戶 本地信息巨大,如何將用戶本地的信息搜索出來,也是需要解決的課題。
本發明提出一種自動構建分布式分類搜索引擎的方法,解決以上兩種搜索引擎存 在的以上問題。
發明內容
一種自動構建分布式分類搜索引擎的方法,其特征在于:1)建立具有根節點的信 息分類目錄的步驟;2)對網站進行分布式信息采取并進行信息分類的步驟;3)用戶自動將 本地計算機的信息發布到分類目錄的步驟;4)用戶采用語義P2P網絡方式(專利:一種基于 p2p的查找有關節點子集合的方法CN200910096247.7)搜索加入領域的所有用戶的信息 的步驟。
根據權利要求1所述的建立具有根節點的信息分類目錄的步驟,自動建立全領域 的信息分類目錄,涵蓋社會、科學、技術、生活等各領域,這些目錄從根節點到頁節點逐步對 應詳細的目錄。
根據權利要求1所述的對網站進行分布式信息采取并進行信息分類的步驟,大量 計算機對網站進行分類信息抓取,可以人工設定信息分類和抓取模式,也可以對抓取的信 息用程序自動分類。
根據權利要求1所述的用戶自動將本地計算機的信息發布到分類目錄的步驟,用 戶開放本地計算機的文件目錄,可以將這些文件目錄的鏈接發布到分類目錄中,也可以將 這些文件目錄中的內容復制帶搜索引擎的分錄目錄中。
根據權利要求1所述的用戶自動將本地計算機的信息發布到分類目錄的步驟,用 戶可以將桌面搜索的索引的鏈接發布到搜索引擎的分錄目錄中,用戶可以通過NAT穿透技 術訪問用戶本地的文件。
根據權利要求1所述的用戶采用語義P2P網絡方式搜索加入領域的所有用戶的信 息的步驟,用戶通過程序向所有加入相關領域的用戶發出請求,所有加入用戶的計算機將 自己的相關領域的信息搜索出來并返回到請求計算機。
建立具有根節點的信息分類目錄,可以是專門領域的組織或專家進行的分類;也 可以是用戶自己根據喜好建立的分類;可以是學術的,也可以是通俗的分類。目錄建立既有 高權限人員的集中建立;也有普通用戶自己建立后,管理員進行審核的目錄建立。有靈活的 增、刪、改、查詢等功能。
用戶自動將本地計算機的信息發布到分類目錄,用戶設置自己本地計算機的開放 文件目錄,分布式搜索引擎將這些文件目錄的鏈接自動發布到分類目錄中;如果還設置為 復制,這些文件目錄中的內容將復制到搜索引擎的分錄目錄中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州域竹科技有限公司,未經杭州域竹科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510921658.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:游戲智能推薦方法及裝置
- 下一篇:一種應用于能耗監控領域的數據混合存儲方法





