[發明專利]基于用戶興趣的個性化元搜索引擎及搜索結果處理方法無效
| 申請號: | 200910020951.4 | 申請日: | 2009-01-16 |
| 公開(公告)號: | CN101477554A | 公開(公告)日: | 2009-07-08 |
| 發明(設計)人: | 杜晨光;顏濤;鄧雙成;李曉輝 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 陜西電子工業專利中心 | 代理人: | 王品華;黎漢華 |
| 地址: | 71007*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 興趣 個性化 搜索引擎 搜索 結果 處理 方法 | ||
技術領域
本發明屬于互聯網信息處理技術領域,涉及搜索引擎、Web數據挖掘和知識發現技術,特別是涉及基于用戶興趣的個性化元搜索系統及方法,用于互聯網的搜索引擎。
背景技術
搜索引擎的出現,大大提高了人們對互聯網信息檢索的能力和效率,已經成為互聯網的基礎應用之一。據中國互聯網絡信息中心在2008年中期的統計,中國網民搜索引擎的使用率為69.2%,并處在高速增長之中,而在互聯網高度普及的美國,網民對搜索引擎的使用率已達91%。可見,上網用戶對搜索引擎已經產生了強烈的依賴。
目前,搜索引擎領域主要有以下幾種技術:
(1)傳統搜索引擎:這種搜索引擎目前應用最廣泛且用戶數量最多,主要代表有谷歌(www.google.com)、百度(www.baidu.com)、雅虎(cn.yahoo.com)等。
這種搜索引擎雖然給人們帶來了便利,但是它們卻存在著本身無法克服的缺陷。根據專業評測,目前主流搜索引擎的網絡資源覆蓋面加在一起只占整個網絡的約42%,返回的結果相關度不足45%,而且由于對網頁的索引和排序機制互不相同,導致同樣一個搜索請求在不同搜索引擎中的查詢結果的重復率不足34%。因此,單個這樣的搜索引擎是無法滿足用戶搜索需求的,要想獲得一個比較全面、準確的搜索結果,用戶就必須反復調用多個搜索引擎,這大大降低了用戶的檢索效率,提高了信息檢索的難度。
(2)元搜索引擎(Meta-SearchEngine):元搜索引擎的出現,在一定程度上彌補了傳統搜索引擎的不足,其主要代表有國外的MetaCrawler(www.metacrawler.com)、Dogpile(www.dogpile.com)和國內的比比貓(www.bbmao.com)等。元搜索是一種將用戶檢索請求同時發送給多個獨立搜索引擎,并將它們的搜索結果匯集在一起返回給用戶的搜索技術。它的優點是綜合了多個獨立搜索引擎的搜索結果,從而提高了搜索結果在整個網絡資源上的覆蓋率,省去了用戶自己逐個調用不同搜索引擎進行查詢的麻煩。
但是,目前已投入實用的元搜索引擎的搜索結果排序方式僅僅是以各獨立搜索引擎返回結果的排序或某種統一的排序原則為依據的,所以對與不同用戶的搜索請求不能做到根據用戶的興趣喜好和搜索意圖返回與之相適應的排序結果,即搜索的準確度并未得到有效提高。因此,在信息量巨大的互聯網世界里用戶想要找到自己需要的信息的難易程度并未得到有效改善。
(3)個性化搜索引擎(Personalized?Search?Engine):為了滿足用戶的個性化搜索需求,彌補傳統搜索引擎和元搜索引擎的不足,給用戶提供更為精準的搜索服務,人們提出了個性化搜索引擎的思想,這種搜索引擎目前還處于技術研究和初步應用階段。在這方面的研究中,具有代表性的方法一個是通過用戶對搜索結果進行打分來調節搜索結果的排列次序,一個是將用戶的搜索歷史存放在用戶計算機的cookie文件中,作為以后用戶進行搜索的參考來影響搜索結果的次序。
但是這些方法仍存在缺陷。對于依靠用戶打分來說,大量用戶對搜索結果的評價并不能準確刻劃某個特定用戶的興趣喜好,無法實現針對每個用戶的個性化服務;對于在用戶計算機上記錄用戶搜索歷史來說,這種方法實際上只是記錄了這臺計算機上進行過的搜索歷史,如果使用該計算機的用戶更換或者用戶在別的計算機上進行搜索,則這種個性化搜索的作用就失效了。
從上面介紹的目前存在的三種搜索引擎技術來看,個性化搜索技術無疑是搜索引擎進一步發展的方向,但這個領域的技術研究還遠未達到成熟階段,需要有更加有效和實用的個性化搜索技術來改善用戶的搜索體驗。
發明內容
本發明的目的在于避免上述已有搜索引擎的缺陷,提供一種基于用戶興趣的個性化元搜索引擎及其搜索結果處理方法,以準確確定用戶興趣和搜索意圖,在服務器上長期保存和及時更新用戶興趣,并利用用戶興趣和搜索意圖對元搜索的搜索結果進行個性化排序,提高搜索結果的覆蓋度和搜索的準確度。
本發明的目的是這樣實現的:
本發明的搜索系統主要由用戶注冊/登錄單元、元搜索結果收集單元和個性化處理單元組成,其中個性化處理單元,包括:
搜索結果預處理模塊,用于接收元搜索結果收集單元送入的搜索結果原始數據,進行基于網址和基于摘要內容的去除重復處理,并將處理后的搜索結果送入個性化排序處理模塊;
個性化排序處理模塊,用于接收搜索結果預處理模塊送入的搜索結果數據,并進行基于用戶興趣和搜索意圖的個性化排序處理,將排序后的搜索結果提交給用戶;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910020951.4/2.html,轉載請聲明來源鉆瓜專利網。





