[發(fā)明專利]改進的搜索引擎有效
| 申請?zhí)枺?/td> | 201410593426.2 | 申請日: | 2009-03-12 |
| 公開(公告)號: | CN104361038B | 公開(公告)日: | 2018-06-05 |
| 發(fā)明(設(shè)計)人: | 西蒙·伊恩·貝恩 | 申請(專利權(quán))人: | 商業(yè)合伙人有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責任公司 11204 | 代理人: | 余朦;王艷春 |
| 地址: | 英國*** | 國省代碼: | 英國;GB |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 搜索查詢 搜索請求 處理裝置 搜索引擎 搜索串 搜索詞 輸出裝置 輸入裝置 子集 引擎 改進 制定 輸出 | ||
一種用于生成改進的搜索查詢的搜索引擎,該引擎包括:用于接收搜索請求的輸入裝置,所述搜索請求包括N個搜索詞;處理裝置,被設(shè)置為根據(jù)所接收的搜索請求制定出搜索查詢;輸出裝置,被設(shè)置為輸出所述搜索查詢,其中,所述處理裝置被設(shè)置為通過生成多個搜索串來制定出所述搜索查詢,每個搜索串包括所述N個搜索詞的子集的不同組合。
本申請為題為“改進的搜索引擎”的中國專利申請的分案申請,該中國專利申請的申請?zhí)枮?00980117385.7,申請日為2009年3月 12日。
技術(shù)領(lǐng)域
本發(fā)明涉及改進的搜索引擎。更具體地,本發(fā)明涉及用于創(chuàng)建從文件索引或遠程數(shù)據(jù)源檢索搜索查詢的改進的搜索引擎,本發(fā)明還涉及用于從接收到的搜索結(jié)果中去除重復條目的改進的重復數(shù)據(jù)刪除處理。
背景技術(shù)
搜索引擎是信息檢索系統(tǒng),其允許計算機系統(tǒng)的用戶指定與感興趣的項相關(guān)的標準,即,“搜索詞”,并使搜索引擎找到匹配的項。在文本搜索引擎如谷歌中,搜索查詢通常表示為一組詞匯。
為了加快搜索進程,搜索引擎通常會在被稱為索引的過程中預先收集關(guān)于項組的元數(shù)據(jù)。索引通常需要較小的計算機存儲量,并提供使搜索引擎計算項目相關(guān)性的基礎(chǔ)。
桌面搜索是搜索用戶的硬盤驅(qū)動器內(nèi)容而不是互聯(lián)網(wǎng)的搜索工具的名稱。這種工具可能找到包括網(wǎng)頁瀏覽器歷史、電子郵件檔案、文本文件、聲音文件等的信息。這種搜索工具可能非常快,但可能不搜索整個硬盤驅(qū)動器。例如,只搜索操作系統(tǒng)的特定應(yīng)用程序(例如微軟文件、文件夾),而可能不包括電子郵件或聯(lián)系人數(shù)據(jù)庫中包含的信息。
由于大量的公司數(shù)據(jù)可被存儲在非結(jié)構(gòu)化數(shù)據(jù)中(例如,用戶創(chuàng)建的目錄結(jié)構(gòu)),因此桌面搜索引擎工作能夠在計算機的所有區(qū)域內(nèi)搜索是很重要的。
桌面搜索引擎建立和維護索引數(shù)據(jù)庫以優(yōu)化搜索性能。當計算機處于空閑狀態(tài)時進行索引,搜索引擎一般收集與文件名/目錄名、例如標題或作者等元數(shù)據(jù)、以及所支持的數(shù)據(jù)項/文件的內(nèi)容相關(guān)的信息。桌面搜索工具的實例是由微軟發(fā)布的用于Windows操作平臺的編制索引的桌面搜索平臺“Windows Search”。
網(wǎng)絡(luò)搜索引擎提供搜索互聯(lián)網(wǎng)上的信息的接口。網(wǎng)絡(luò)搜索引擎通過存儲與大量網(wǎng)頁相關(guān)的信息而運行,這些信息由跟蹤其所見的每個鏈接的自動的網(wǎng)頁瀏覽器網(wǎng)絡(luò)爬蟲檢索。然后,每頁的內(nèi)容被編制索引并存儲在以后查詢所使用的索引數(shù)據(jù)庫中。當用戶例如通過使用關(guān)鍵詞在搜索引擎中鍵入查詢時,網(wǎng)絡(luò)搜索引擎檢查其索引并根據(jù)其標準提供最匹配網(wǎng)頁的列表。大多數(shù)搜索引擎都支持布爾運算符“AND (與)”、“OR(或)”、“NOT(非)”以進一步指定搜索,一些引擎提供允許用戶指定關(guān)鍵詞之間的距離的近似搜索。
鑒于目前互聯(lián)網(wǎng)的規(guī)模和發(fā)展速度,初始搜索查詢是相關(guān)的、以便返回相關(guān)的搜索結(jié)果是重要的。搜索引擎的效用還取決于返回的結(jié)果集的相關(guān)性,目前的搜索引擎的一個主要問題是結(jié)果集包含重復搜索結(jié)果的趨勢。
目前通過哈希算法處理搜索結(jié)果的重復數(shù)據(jù)刪除,其中由哈希算法處理每個數(shù)據(jù)塊,從而生成存儲在索引中的唯一編號。當一個數(shù)據(jù)塊接收到哈希數(shù)時,將這個數(shù)與其他現(xiàn)有的哈希數(shù)的索引進行比較。如果哈希數(shù)已經(jīng)存在于索引中,則該數(shù)據(jù)塊被認為是重復的并不被存儲。否則,將新的哈希數(shù)添加到索引并存儲新數(shù)據(jù)。然而,在某些情況下,哈希算法可能為兩個不同的數(shù)據(jù)塊生成相同的哈希數(shù)。當這樣的哈希沖突發(fā)生時,系統(tǒng)將不會存儲新的數(shù)據(jù),因為系統(tǒng)認為其哈希數(shù)已經(jīng)存在于數(shù)據(jù)索引中。這種誤報可導致數(shù)據(jù)丟失。還應(yīng)注意的是哈希算法是復雜的。
搜索引擎的已知的另一個缺點是其可搜索的數(shù)據(jù)源的類型限制。傳統(tǒng)地,搜索引擎對非結(jié)構(gòu)化數(shù)據(jù)源編制索引并進行搜索。因此,被約束在如數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)存儲中的大量數(shù)據(jù)不能由傳統(tǒng)的搜索引擎訪問。如果結(jié)構(gòu)化數(shù)據(jù)被單獨編制索引,則該索引可提供給搜索引擎,但是對于已經(jīng)在其自身結(jié)構(gòu)內(nèi)的編入索引的數(shù)據(jù),這會產(chǎn)生進一步的數(shù)據(jù)存儲。
因此,本發(fā)明的目的是提供一種搜索引擎,該搜索引擎可克服或本質(zhì)上緩和現(xiàn)有技術(shù)的上述問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于商業(yè)合伙人有限公司,未經(jīng)商業(yè)合伙人有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410593426.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





