[發明專利]一種基于知識圖譜的搜索引擎可信搜索方法有效
| 申請號: | 202011263730.2 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112199514B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 丁春玲;曾國蓀;謝英杰 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06F16/953;G06N5/00 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 應小波 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 搜索引擎 可信 搜索 方法 | ||
本發明涉及一種基于知識圖譜的搜索引擎可信搜索方法,包括獲取用戶輸入的搜索關鍵詞,構建關鍵詞池;根據關鍵詞選擇策略選擇關鍵詞,分別依次輸入搜索引擎進行搜索,獲得搜索引擎返回的結果;根據搜索結果選擇策略從搜索返回的Web網頁集合中選取返回結果;依次構建Web網頁的知識圖譜;選擇具體的知識模式;將知識圖譜與既有語義可靠知識圖譜庫進行匹配,然后根據匹配結果計算各個Web網頁內容支持度;利用網頁的內容支持度期望對同一個關鍵詞下的搜索引擎進行排序,并綜合關鍵詞的網頁內容支持度情況,獲得最終的搜索引擎可信搜索排序結果;完成基于知識圖譜的搜索引擎可信搜索。與現有技術相比,本發明具有可靠性高等優點。
技術領域
本發明涉及一種搜索方法,尤其是涉及一種基于知識圖譜的搜索引擎可信搜索方法。
背景技術
當前,用戶在使用網絡搜索引擎時有多個選擇,好的搜索引擎往往搜索返回的結果信息質量高、可信度強,較差的搜索引擎往往得到的結果質量低、真實性差,因而有必要對搜索引擎進行搜索可信度評測,以便幫助用戶合理選擇搜索引擎。國內外已有眾多搜索引擎可信搜索的相關工作,主要圍繞Web網頁的源站點、傳輸鏈路、內外部鏈接、內容與結構可靠性、搜索相關性、用戶點擊率、以及用戶反饋等層面開展研究。本技術發明關注搜索引擎搜索返回的Web網頁內容可信度,給出一種基于知識圖譜的搜索引擎可信搜索評價方法。
在內容可信方面,現有的研究主要有:(1)利用Web網頁的內外部鏈接數量、與搜索關鍵字的相關性、用戶點擊率等簡單含糊地計算內容可信度,但是缺乏對Web網頁內容真實可靠的度量,完全依賴和考慮外部因素;(2)通過聚類、神經網絡等方法提取分析網頁內容的主題,認為主題越集中、關聯性越高則內容可靠度越強,但是僅僅分析了內容的主題,缺乏對內容中實體、關系等的可信度量;(3)利用自然語言處理技術和語義推理,分析網頁中包含的不同實體之間的關聯可靠度,雖然考慮了實體和關系的可信度,但是缺乏相對深入和綜合的可信度測評過程。總之,這些方法雖然能夠從一定層面上計算內容可信度,但是終究都沒有實質、更深層面地對內容可信度進行評測。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種可靠性高的基于知識圖譜的搜索引擎可信搜索方法。
本發明的目的可以通過以下技術方案來實現:
一種基于知識圖譜的搜索引擎可信搜索方法,所述的可信搜索方法包括以下步驟:
步驟1:獲取用戶輸入的搜索關鍵詞,構建關鍵詞池;
步驟2:根據關鍵詞選擇策略SQ選擇n個關鍵詞,分別依次輸入m個搜索引擎進行搜索,獲得搜索引擎返回的結果;
步驟3:根據搜索結果選擇策略SR從搜索返回的Web網頁集合中選取k個返回結果;
步驟4:對步驟3選取的k個返回結果,依次構建Web網頁的知識圖譜;
步驟5:選擇具體的知識模式;
步驟6:將根據步驟4獲取的知識圖譜與既有語義可靠知識圖譜庫進行匹配,然后根據匹配結果計算各個Web網頁內容支持度;
步驟7:利用k個網頁的內容支持度期望對同一個關鍵詞下的m個搜索引擎進行排序,并綜合n個關鍵詞的網頁內容支持度情況,獲得最終的搜索引擎可信搜索排序結果;
步驟8:完成基于知識圖譜的搜索引擎可信搜索。
優選地,所述的關鍵詞選擇策略SQ具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011263730.2/2.html,轉載請聲明來源鉆瓜專利網。





