[發明專利]一種評價網絡資源價值的方法及其在搜索引擎領域的應用有效
| 申請號: | 200710065064.X | 申請日: | 2007-04-02 |
| 公開(公告)號: | CN101281519A | 公開(公告)日: | 2008-10-08 |
| 發明(設計)人: | 李釗;周鴻祎;劉旭平;謝軍樣 | 申請(專利權)人: | 奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京海虹嘉誠知識產權代理有限公司 | 代理人: | 張濤 |
| 地址: | 100025北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 評價 網絡資源 價值 方法 及其 搜索引擎 領域 應用 | ||
技術領域
本發明涉及信息檢索技術,特別是涉及一種利用相關目標的一種特定指標——人氣指標(PeopleRank)進行檢索、歸納的方法及其在搜索引擎領域的應用。
背景技術
目前搜索引擎一般都是通過用戶輸入一個或一組關鍵詞或文字片段,經過檢索處理后,向用戶回饋相當數量的包含該關鍵詞或文字片段或者與其密切相關的網頁,以供用戶瀏覽、查檢所需的資訊。
然而,互聯網上網頁數量極其巨大,而且仍然在以空前的速度高速增長,如果仍然按照傳統的搜索處理模式,即搜索引擎運營商將其搜集到的數量驚人的網頁資源經以簡單地分析處理,進行歸類備用,那么按照用戶的輸入源經搜索所得的相關網頁數量通常都是極其巨大,但是其中大部分為低價值甚至無價值的網頁資源,這些無價值的或近似于無價值的網頁大大增加了處理的難度,并將嚴重干擾處理的結果,從而有可能使得呈現給用戶的往往是價值甚微的資源,這將嚴重浪費用戶的時間和精力,間接的也將造成網絡資源的浪費。
怎樣才能將那些真正的滿足客戶需要的網頁篩選出來優先提供給客戶,即在提供給客戶的反饋內容中能夠真實反映客戶需求的內容優先排列,是完全符合用戶的利益的。因此如何判斷用戶的興趣所在就成了搜索引擎運營商必須解決的問題。
對檢索所得的網頁進行相關性評價,就成了搜索領域技術中的關鍵。目前,關于網頁的相關性的評價方法很多,其大都注重某一方面能反映客戶需求或意圖的因素,如檢索詞或句子的匹配程度、網頁鏈接關系等,但是,僅僅利用這樣的檢索處理方法所得到的網頁往往包含了諸多的復雜因素,很難準確地提供與客戶實際需要緊密相連的搜索資源。因此,目前還沒有一種較為完備的、成熟的可以較全面反映網頁價值的評價方法。
經過長期實踐,發現現有的大多數網頁中均包含有各類的與人相關的因素,而這些人的因素對于網頁的質量評價至關重要,能最大限度的反映該網頁對于用戶興趣、意圖所蘊含的價值,也就是利用這些人的因素可使網頁的質量評價更加貼近用戶的真實需求,從而使得所作出的評價更加準確,本發明正是根據這些人的因素為任一網絡資源確定一權值,該權值稱為PeapleRank值(簡稱為PR值)。
發明內容
針對現有搜索技術中存在的缺陷和不足,本發明的一個目的在于提供一種網絡資源的價值評價方法,利用該方法可以有效評價網頁資源對搜索用戶的價值衡量,從而可以將高質量的、真正符合用戶搜索意圖的網頁資源優先提供給用戶,以減少用戶瀏覽、查檢網頁的時間,提高用戶的搜索效能。
本發明的另一個目的在于提供一種將該網絡資源價值評估方法應用于網絡搜索引擎的方法,利用本發明的網絡資源評價方法,可以使得網絡搜索時,給予搜索到的網絡資源更為準確的權值,利用該權值,一方面可以剔出那些無價值或價值甚微的網絡資源,另一方面可以將與用戶真實意圖更為貼切的資源優先排列呈給用戶。
本發明的技術方案如下:
一種評價網絡資源價值的方法,其特征在于:
包括以下步驟:
1)提取數據,提取網絡資源上所包含的特定的與人相關的基本因素;
2)處理數據,結合采樣時間計算該基本因素的變化率;
3)確定權值,根據該基本因素及其變化率計算并賦予該網絡資源一確定的代表其質量價值的權值。
所述提取數據步驟中的基本因素包括:發生時間因素;用戶閱讀數量因素,如該網絡資源的點擊數或瀏覽數;相似內容數量因素;關聯及推薦關系因素;作者價值因素;網站價值因素。
其中,除了發生時間因素;用戶閱讀數量因素,如該網絡資源的點擊數或瀏覽數可以直接獲得外,網絡資源的相似內容數量因素、關聯及推薦關系因素、作者價值因素、網站價值因素等都需要進一步加工才能轉換為可計算的基本因素。最后將各個基本因素按照設定的函數關系變換為網絡資源的PeopleRank權值。
所述需要進一步加工的基本因素的處理方法包括:
1)根據網絡資源內容,計算出其被轉發及與其相似的網絡資源的數量數據,并依據該數據計算該網絡資源的相似內容數量權值。
2)根據網絡資源之間的推薦或關聯關系,并基于以下特性計算該網絡資源的關聯及推薦關系因素:(1)一個網絡資源被他人引用的越多,則越有價值;(2)被價值高的網絡資源所引用的資源,其價值也高。關聯及推薦關系因素通常以某種迭代計算算法實現。
3)根據該網絡資源作者的相關網絡資源經迭代計算,確定作者價值,并依據該作者價值確定該網絡資源的權值,所述迭代計算通常為正反饋式系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奇智軟件(北京)有限公司,未經奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710065064.X/2.html,轉載請聲明來源鉆瓜專利網。





