[發明專利]一種基于內容可信的Web搜索引擎系統及搜索方法有效
| 申請號: | 201310564892.3 | 申請日: | 2013-11-14 |
| 公開(公告)號: | CN103646034B | 公開(公告)日: | 2017-03-08 |
| 發明(設計)人: | 徐洪珍;許杰云;于臻;湯彬 | 申請(專利權)人: | 東華理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南昌新天下專利商標代理有限公司36115 | 代理人: | 施秀瑾 |
| 地址: | 344000 江西省撫州市府路*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 內容 可信 web 搜索引擎 系統 搜索 方法 | ||
技術領域
本發明涉及網絡通信處理領域,具體為一種基于內容可信的Web搜索引擎系統及搜索方法。
背景技術
隨著信息技術和網絡技術的不斷發展,基于互聯網的信息檢索日益成為人們生活中的一部分,搜索引擎也成為其中不可或缺的工具。然而,基于傳統搜索引擎和搜索方法檢索到的Web信息來源廣泛,內容豐富多樣,但存在質量良莠不齊、表述不一,事實真假難辨等問題,使得基于傳統搜索引擎和搜索方法檢索到的Web信息難以保證其可信性。網頁的過時、新聞的失真、垃圾廣告、反動宣傳等無處不在,并與正常的、可靠的信息資源魚目混珠在一起。當前,為了從互聯網上檢索到用戶期望的信息,用戶必須通過人工的方式,判斷從傳統搜索引擎返回的海量Web信息中,哪些信息是可靠的或可信的。這種方法不僅耗時,而且,對大部分用戶來講,也很難判斷搜索引擎返回Web信息的可信性。
雖然目前的研究者在搜索引擎返回Web信息的質量方面做了一些工作,但很少考慮Web信息的內容可信問題。目前的搜索引擎系統及搜索方法都不能實現基于內容可信的搜索。
發明內容
針對以上技術問題,本發明提供了一種基于內容可信的Web搜索引擎系統及搜索方法,可以實現web搜索網頁的內容可信因素的量化、內容可信度的計算,以及基于內容可信判斷的Web信息檢索。
本發明包括:
一種基于內容可信的Web搜索引擎系統,包括:
(1)?Web用戶接口模塊,接收Web用戶輸入的搜索關鍵字,將其傳送給搜索請求處理模塊,并根據內容可信度的高低顯示最終的搜索結果;
(2)?搜索請求處理模塊,將Web用戶的搜索關鍵字分發給如Google等傳統搜索引擎以及查詢結果存儲數據庫,并接收它們返回的搜索結果,即搜索到的Web網頁;
(3)?查詢結果去重模塊,對上所述搜索引擎以及查詢結果存儲數據庫返回的搜索結果進行去重處理;
(4)?內容可信度計算模塊,根據內容可信的5個因素,對去重后的搜索結果進行內容可信度計算;
(5)?查詢結果重排序模塊,將上述具有內容可信度的查詢結果,根據可信度的高低,按照降序重新進行排序;
(6)?查詢結果存儲數據庫,存儲具有內容可信度的查詢結果。
一種基于內容可信的Web搜索引擎系統的搜索方法,通過以下技術方案實現:
(1)用戶通過Web用戶接口模塊輸入搜索關鍵字,并將該搜索關鍵字傳送給搜索請求處理模塊;
(2)通過相應的接口,搜索請求處理模塊將搜索關鍵字分發給如Google等傳統搜索引擎以及查詢結果存儲數據庫,并接收它們返回的搜索結果,即搜索到的Web網頁,然后將返回的搜索結果傳送給查詢結果去重模塊;
(3)查詢結果去重模塊對返回的搜索結果進行去重處理,然后將其傳送給內容可信度計算模塊;
(4)內容可信度計算模塊根據內容可信的5個因素,對上述去重后的搜索結果進行內容可信度計算,然后將其傳送給查詢結果重排序模塊;
(5)查詢結果重排序模塊對上述具有內容可信度的查詢結果,根據可信度的高低,按照降序重新進行排序,最后通過Web用戶接口模塊顯示給用戶。
進一步地,Web網頁的內容可信度計算如下:對任一返回的Web網頁p,根據內容可信的5個因素,即網頁內容的相關性Rev、權威性Auth、外部鏈接數BN、時間Age和點擊率CliR,其內容可信度計算為:
其中,
網頁內容相關性的計算為:對任一用戶搜索請求q,p為返回的某一Web網頁,則p和q的相關性計算如下,其中T(p)表示p的主題詞集,N(q)表示q中關鍵詞的個數,表示q和T(p)重疊的個數;
網站權威性的計算方法參考文獻“Judgment?of?information?quality?and?cognitive?authority?in?the?web”中的計算方法;
網頁外部鏈接數的計算為:對網頁p在Google、Bing、百度、搜狗等搜索引擎中的外部鏈接數取平均值;
網頁時間的計算為:用戶查詢的當前時間減去網頁創建的時間;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華理工大學,未經東華理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310564892.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高硬度保護殼及其制備方法
- 下一篇:保護β-胡蘿卜素的組合物
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





