[發明專利]一種考慮多因素的全文搜索引擎網頁排序算法在審
| 申請號: | 202210091438.X | 申請日: | 2022-01-26 |
| 公開(公告)號: | CN114443987A | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 吳培煌;趙加坤 | 申請(專利權)人: | 吳培煌 |
| 主分類號: | G06F16/9538 | 分類號: | G06F16/9538;G06F16/9535;G06F40/216;G06F17/18 |
| 代理公司: | 安徽初升專利代理事務所(普通合伙) 34233 | 代理人: | 張桂平 |
| 地址: | 515700 廣東省潮*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 考慮 因素 全文 搜索引擎 網頁 排序 算法 | ||
本發明公開了一種考慮多因素的全文搜索引擎網頁排序算法,包括改進后Weighted PageRank算法和改進后TF?IDF算法。本發明在搜索引擎根據用戶的搜索需求將相關網頁檢索出來后,能夠根據用戶的實際需求對這些相關網頁進行排序,最后將排序好的結果展示給用戶,該排序算法會能夠將大量與用戶需求匹配的網頁排在前面,便于用戶需要花費少量的時間從搜索引擎的搜索結果中翻到自己想瀏覽的網頁。
技術領域
本發明涉及網頁排序技術領域,尤其涉及一種考慮多因素的全文搜索引擎網頁排序算法。
背景技術
隨著世界經濟的發展和互聯網的快速普及,越來越多的人在網絡上分享或發布信息,這導致互聯網上的信息量呈現爆炸式的增長。這些信息通常蘊含著巨大的價值,對人們的日常生活與工作具有指導意義,搜索引擎的誕生就是為了幫助人們從這些海量的信息中找出對自己目前有幫助的內容。搜索引擎將互聯網上的網頁進行組織與整理,并根據用戶的需求提供給用戶相關的網頁。然而,也正是隨著互聯網所承載的信息量呈現爆炸式的增長,搜索引擎需要搜集和組織整理的網頁越來越多,能夠根據用戶需求提供給用戶相關的網頁也越來越多,為了避免用戶從那么多的網頁中花費大量時間翻到自己真正需要的網頁,就需要搜索引擎擁有非常優秀的網頁排序算法,可以根據用戶的實際需求對網頁進行先后排序。網頁排序效果差,意味著用戶需要花費大量的時間從排序結果中找到自己需要的網頁,這無疑會降低用戶的搜索體驗。
目前的網頁排序算法主要分為基于超鏈接的網頁排序算法、基于網頁內容的網頁排序算法、基于用戶行為的混合網頁排序算法三種。
基于超鏈接的網頁排序算法是根據網頁間的鏈接關系來衡量網頁的權威性,并根據網頁的權威性進行排名的方法。
基于網頁內容的網頁排序算法通常假設用戶輸入的關鍵詞在網頁中出現的次數越多,并且出現的位置越重要,網頁與關鍵詞的相關度就越高,排名也就越靠前。
基于用戶行為的混合網頁排序算法是近幾年最常用的網頁排序算法。實際生產環境中的網頁排序是一個非常復雜的問題,需要考慮的因素非常多,很難用一種算法解決所有問題。并且,每個用戶興趣又有很大的差異,有的用戶喜歡看新聞,有的用戶喜歡看博客,有的用戶喜歡看維基百科等等。所以近幾年使用的網頁排序算法通常是基于用戶行為并且考慮了多種因素的混合網頁排序方法,這類網頁排序算法通常是個性化的,不同用戶輸入相同的搜索語句可能會得到不同的結果。
總而言之,在實際應用中,網頁排序是一個非常復雜的過程,需要考慮的因素非常多,因此很難有一種算法能夠完全滿足用戶的實際需求,一般都是基于某個算法而不斷改進、混合和優化。
現有技術存在的問題:基于超鏈接的網頁排序算法普遍存在忽視網頁內容的問題,對網頁內容和用戶搜索需求的考慮還不夠深入,導致排名結果不能保證和用戶需求強相關。
基于網頁內容的網頁排序算法考慮了網頁內容與搜索語句的相關度,根據這個相關度對網頁進行排序,它能夠解決基于超鏈接的網頁排序算法存在的與用戶需求相關度較低的問題,能夠大體上保證排名靠前的網頁比較符合用戶的需求。但是,它也忽略了網頁的權威性,會出現一些與用戶搜索語句很相關但不具備權威性的、真實度存疑的網頁被排在靠前的位置,而那些權威網頁如維基百科、知名媒體發布的網頁被排在靠后的位置。這是基于內容的網頁排序算法普遍存在的問題,這個問題恰恰又是基于超鏈接的網頁排序算法所解決的問題,因此近幾年的網頁排序算法都不再是單純地基于超鏈接或網頁內容了,通常是考慮多種影響因素的混合網頁排序算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吳培煌,未經吳培煌許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210091438.X/2.html,轉載請聲明來源鉆瓜專利網。





