[發(fā)明專利]改進的搜索引擎有效

申請?zhí)枺?/td>	201410593426.2	申請日：	2009-03-12
公開（公告）號：	CN104361038B	公開（公告）日：	2018-06-05
發(fā)明（設(shè)計）人：	西蒙·伊恩·貝恩	申請（專利權(quán)）人：	商業(yè)合伙人有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京英賽嘉華知識產(chǎn)權(quán)代理有限責任公司 11204	代理人：	余朦;王艷春
地址：	英國***	國省代碼：	英國;GB
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	搜索查詢搜索請求處理裝置搜索引擎搜索串搜索詞輸出裝置輸入裝置子集引擎改進制定輸出
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

一種用于生成改進的搜索查詢的搜索引擎，該引擎包括：用于接收搜索請求的輸入裝置，所述搜索請求包括N個搜索詞；處理裝置，被設(shè)置為根據(jù)所接收的搜索請求制定出搜索查詢；輸出裝置，被設(shè)置為輸出所述搜索查詢，其中，所述處理裝置被設(shè)置為通過生成多個搜索串來制定出所述搜索查詢，每個搜索串包括所述N個搜索詞的子集的不同組合。

本申請為題為“改進的搜索引擎”的中國專利申請的分案申請，該中國專利申請的申請?zhí)枮?00980117385.7，申請日為2009年3月 12日。

技術(shù)領(lǐng)域

本發(fā)明涉及改進的搜索引擎。更具體地，本發(fā)明涉及用于創(chuàng)建從文件索引或遠程數(shù)據(jù)源檢索搜索查詢的改進的搜索引擎，本發(fā)明還涉及用于從接收到的搜索結(jié)果中去除重復條目的改進的重復數(shù)據(jù)刪除處理。

背景技術(shù)

搜索引擎是信息檢索系統(tǒng)，其允許計算機系統(tǒng)的用戶指定與感興趣的項相關(guān)的標準，即，“搜索詞”，并使搜索引擎找到匹配的項。在文本搜索引擎如谷歌中，搜索查詢通常表示為一組詞匯。

為了加快搜索進程，搜索引擎通常會在被稱為索引的過程中預先收集關(guān)于項組的元數(shù)據(jù)。索引通常需要較小的計算機存儲量，并提供使搜索引擎計算項目相關(guān)性的基礎(chǔ)。

桌面搜索是搜索用戶的硬盤驅(qū)動器內(nèi)容而不是互聯(lián)網(wǎng)的搜索工具的名稱。這種工具可能找到包括網(wǎng)頁瀏覽器歷史、電子郵件檔案、文本文件、聲音文件等的信息。這種搜索工具可能非常快，但可能不搜索整個硬盤驅(qū)動器。例如，只搜索操作系統(tǒng)的特定應(yīng)用程序(例如微軟文件、文件夾)，而可能不包括電子郵件或聯(lián)系人數(shù)據(jù)庫中包含的信息。

由于大量的公司數(shù)據(jù)可被存儲在非結(jié)構(gòu)化數(shù)據(jù)中(例如，用戶創(chuàng)建的目錄結(jié)構(gòu))，因此桌面搜索引擎工作能夠在計算機的所有區(qū)域內(nèi)搜索是很重要的。

桌面搜索引擎建立和維護索引數(shù)據(jù)庫以優(yōu)化搜索性能。當計算機處于空閑狀態(tài)時進行索引，搜索引擎一般收集與文件名/目錄名、例如標題或作者等元數(shù)據(jù)、以及所支持的數(shù)據(jù)項/文件的內(nèi)容相關(guān)的信息。桌面搜索工具的實例是由微軟發(fā)布的用于Windows操作平臺的編制索引的桌面搜索平臺“Windows Search”。

網(wǎng)絡(luò)搜索引擎提供搜索互聯(lián)網(wǎng)上的信息的接口。網(wǎng)絡(luò)搜索引擎通過存儲與大量網(wǎng)頁相關(guān)的信息而運行，這些信息由跟蹤其所見的每個鏈接的自動的網(wǎng)頁瀏覽器網(wǎng)絡(luò)爬蟲檢索。然后，每頁的內(nèi)容被編制索引并存儲在以后查詢所使用的索引數(shù)據(jù)庫中。當用戶例如通過使用關(guān)鍵詞在搜索引擎中鍵入查詢時，網(wǎng)絡(luò)搜索引擎檢查其索引并根據(jù)其標準提供最匹配網(wǎng)頁的列表。大多數(shù)搜索引擎都支持布爾運算符“AND (與)”、“OR(或)”、“NOT(非)”以進一步指定搜索，一些引擎提供允許用戶指定關(guān)鍵詞之間的距離的近似搜索。

鑒于目前互聯(lián)網(wǎng)的規(guī)模和發(fā)展速度，初始搜索查詢是相關(guān)的、以便返回相關(guān)的搜索結(jié)果是重要的。搜索引擎的效用還取決于返回的結(jié)果集的相關(guān)性，目前的搜索引擎的一個主要問題是結(jié)果集包含重復搜索結(jié)果的趨勢。

目前通過哈希算法處理搜索結(jié)果的重復數(shù)據(jù)刪除，其中由哈希算法處理每個數(shù)據(jù)塊，從而生成存儲在索引中的唯一編號。當一個數(shù)據(jù)塊接收到哈希數(shù)時，將這個數(shù)與其他現(xiàn)有的哈希數(shù)的索引進行比較。如果哈希數(shù)已經(jīng)存在于索引中，則該數(shù)據(jù)塊被認為是重復的并不被存儲。否則，將新的哈希數(shù)添加到索引并存儲新數(shù)據(jù)。然而，在某些情況下，哈希算法可能為兩個不同的數(shù)據(jù)塊生成相同的哈希數(shù)。當這樣的哈希沖突發(fā)生時，系統(tǒng)將不會存儲新的數(shù)據(jù)，因為系統(tǒng)認為其哈希數(shù)已經(jīng)存在于數(shù)據(jù)索引中。這種誤報可導致數(shù)據(jù)丟失。還應(yīng)注意的是哈希算法是復雜的。

搜索引擎的已知的另一個缺點是其可搜索的數(shù)據(jù)源的類型限制。傳統(tǒng)地，搜索引擎對非結(jié)構(gòu)化數(shù)據(jù)源編制索引并進行搜索。因此，被約束在如數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)存儲中的大量數(shù)據(jù)不能由傳統(tǒng)的搜索引擎訪問。如果結(jié)構(gòu)化數(shù)據(jù)被單獨編制索引，則該索引可提供給搜索引擎，但是對于已經(jīng)在其自身結(jié)構(gòu)內(nèi)的編入索引的數(shù)據(jù)，這會產(chǎn)生進一步的數(shù)據(jù)存儲。

因此，本發(fā)明的目的是提供一種搜索引擎，該搜索引擎可克服或本質(zhì)上緩和現(xiàn)有技術(shù)的上述問題。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于商業(yè)合伙人有限公司，未經(jīng)商業(yè)合伙人有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410593426.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：用戶興趣發(fā)現(xiàn)方法和裝置
下一篇：檢測數(shù)據(jù)庫篡改行為的方法及裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復雜數(shù)學運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】