[發明專利]一種基于語義本體的檢索系統和方法無效
| 申請號: | 200610149803.9 | 申請日: | 2006-10-25 |
| 公開(公告)號: | CN101169780A | 公開(公告)日: | 2008-04-30 |
| 發明(設計)人: | 王偉;舒琦;方琦;鐘杰萍 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司 | 代理人: | 羅正云;宋志強 |
| 地址: | 518129廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 本體 檢索系統 方法 | ||
技術領域
本發明涉及信息檢索技術,特別涉及一種基于語義本體的檢索系統和方法。
背景技術
隨著檢索技術的飛速發展,基于文本的信息檢索技術也逐漸趨于成熟,形成了一套完整的思路和完善的算法,并被廣泛應用到了各類搜索引擎中,如谷歌(Google)、AltaVista、Lycos、雅虎(Yahoo)等。
圖1為現有的一種文本搜索引擎的結構框圖。如圖1所示,現有的文本搜索引擎包括:蜘蛛控制模塊101、統一資源定位(URL)數據庫102、網絡蜘蛛103、URL提取模塊104、網頁數據庫105、鏈接信息提取模塊106、文本索引模塊107、鏈接數據庫108、索引數據庫109、網頁評級模塊110和查詢服務器111。
網絡蜘蛛103從互聯網上抓取網頁,并把網頁送入網頁數據庫105。URL提取模塊104從網絡蜘蛛103抓取的網頁中提取URL,并把URL送入URL數據庫102。蜘蛛控制模塊101從URL數據庫102獲取網頁的URL,并控制網絡蜘蛛103抓取其它網頁,重復上述步驟直到把所有的網頁抓取完。
系統從網頁數據庫105中獲取文本信息,并送入文本索引模塊107,由文本索引模塊107建立索引,再送入索引數據庫109。同時鏈接信息提取模塊106從網頁數據庫105中獲取鏈接信息,并送入鏈接數據庫108。鏈接數據庫108中的鏈接信息為網頁評級模塊110提供網頁評級的依據。
當用戶通過查詢服務器111提交查詢請求時,查詢服務器111在索引數據庫109中查找與用戶查詢請求相關的網頁,同時網頁評級模塊110把用戶查詢請求和鏈接數據庫108中的鏈接信息結合起來對搜索結果進行相關度的評價,并通過查詢服務器111對搜索結果按照其相關度進行排序,組織最后的頁面返回給用戶。
現有的文本檢索技術雖然能搜索到包含用戶的文本查詢信息的文件,但是無法識別出搜索到的文件的內容及意義。這是因為現有的文本檢索技術是基于文本字符串匹配的,這種檢索技術的問題是,當不同的詞可以表示相同的意義或一個詞在不同的語境中有不同的意義時,將會限制檢索的查準率和查全率,導致搜索到的結果遠遠不能滿足用戶的需求,例如,當用戶的搜索關鍵詞為“天堂”時,無法判斷符合用戶搜索條件的文件是反映“天堂游戲”還是“天堂音樂”的內容。而語義網的提出為解決這些問題提供了契機。
語義網是由一群能夠被計算機自動控制和識別其內容的網頁構成的網絡,是在現有的互聯網基礎上,為網頁擴展計算機能夠識別的數據,并增加專供計算機使用的文檔,即用本體論語言對網頁進行標注,明確其語義,從而使得網頁信息不但被人所理解,也能被計算機自動控制和識別。語義標注的網頁一般以可擴展標記語言(XML)或超文本置標語言(Html)為數據做標注,以資源描述框架(RDF)作為數據描述模型,并結合語義本體,使被標注的數據具有明確的語義。本體是一個源于哲學的概念,原意是指關于存在及其本質和規律的學說,后被人工智能領域引入,特指對概念化的一個顯式的規格說明。本體能夠將領域中的各種概念及相互關系顯式地、形式化地表達出來,從而將術語的語義顯式地表達出來,因而在語義查詢方面發揮著重要的作用。這里指的語義本體定義了組成主體領域概念的基本術語和它們之間的關系,并規定了組合基本術語和它們之間的關系定義詞匯的外延規則。
語義檢索的目的是通過從語義網上獲取的數據,增強并改進傳統的搜索結果。圖2是現有的一種語義搜索系統的結構框圖。如圖2所示,現有的語義搜索系統包括:查詢接口201、查詢預處理模塊202、語義本體推理引擎203、標注本體庫204、傳統搜索模塊205和結果返回接口206。
查詢接口201獲取用戶的查詢信息,將其發送給查詢預處理模塊202。
查詢預處理模塊202分析用戶的查詢信息,通過切分詞技術,將其切分成查詢關鍵詞,并發送給語義本體推理引擎203。
語義本體推理引擎203根據標注本體庫204中定義的本體概念詞匯及概念與概念之間的關系,匹配推理出查詢關鍵詞所對應的本體概念詞匯,并將其返回給查詢預處理模塊202。
查詢預處理模塊202將語義本體推理引擎203返回的本體概念詞匯發送給傳統搜索模塊205,并指明按照語義搜索。這里按照語義搜索是指在網頁已被標注語義的情況下,按照網頁標注的語義概念進行字符串匹配,而不是直接對網頁自身的內容進行字符串匹配。
傳統搜索模塊205進行語義搜索,并將搜索結果發送給結果返回接口206。結果返回接口206再將搜索結果返回給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610149803.9/2.html,轉載請聲明來源鉆瓜專利網。





