[發明專利]一種領域本體構建方法及系統有效
| 申請號: | 201210017772.7 | 申請日: | 2012-01-19 |
| 公開(公告)號: | CN103218362A | 公開(公告)日: | 2013-07-24 |
| 發明(設計)人: | 董振江;吉鋒;羅圣美;程龔;瞿裕忠 | 申請(專利權)人: | 中興通訊股份有限公司;南京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京派特恩知識產權代理事務所(普通合伙) 11270 | 代理人: | 張穎玲;程立民 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 領域 本體 構建 方法 系統 | ||
技術領域
本發明涉及信息系統建模和知識工程領域,尤其涉及一種基于本體復用的領域本體構建方法及系統。
背景技術
湯姆·格魯伯(Tom?Gruber)將本體(Ontology)定義為一種為共享而構建的概念化的顯式規范。概念化是指為一個領域或范圍內的抽象概念、具體對象、對象屬性及對象間關系建立的模型,而本體是將一個概念化顯式地表示成為規范,以便多個主體共享。在本體中,上述概念、關系等統稱為術語(Term);本體可以視作由稱作公理(Axiom)的術語描述組成的集合。尼古拉·高利諾(Nicola?Guarino)將本體分為頂層本體、領域本體、任務本體、應用本體。其中,頂層本體描述通用的概念(如空間、時間),領域和任務本體分別描述一般的領域(如單反相機)和一般的任務(如相機銷售),而應用本體則描述具體應用涉及的具體范圍(如一個具體的單反相機銷售網站)。其中,頂層本體通常比較穩定,應用本體的共享意義較小,因此,領域和任務本體的構建最為活躍,其構建方法最為重要。
現有的構建領域本體的方法可以分為兩類:手工構建和半自動構建。手工構建以本體描述捕獲方法(IDEF5,Integrated?Definition?for?Ontology?Description?Capture?Method)為代表,將本體構建的過程分為目標和團隊建立、原始素材采集、素材分析、本體初步構建、本體精化和驗證等5個步驟,每一步都由人手工完成。半自動構建又稱本體學習,由計算機程序自動地從文本中抽取出表示概念、概念間關系等的術語,形成初步的本體,再經過人手工精化和驗證。然而,目前計算機程序自動構建的初步本體在質量上通常很差,并不能有效降低對人工的依賴,因此手工構建仍是主流方法。
在手工構建領域本體時,一種提高效率的方式是復用現有本體,即針對新的需求對一個相同或相近領域的現有本體加以改造,成為一個新的本體,從而比重新開發節約成本。然而,從大量的現有本體中發現適合復用的本體手段非常匱乏。目前的一種主要途徑是逐一瀏覽在線的本體圖書館(如美國國防部先進研究項目距代理標記語言(DAML,Defense?Advanced?Research?Projects?Agency?Agent?Markup?Language)本體圖書館)中的本體,效率低下。另一種新興的途徑是進行本體檢索,向本體檢索系統(如Swoogle搜索引擎)提交查詢關鍵詞,獲取并只瀏覽能夠匹配到查詢關鍵詞的本體,從而提高效率。然而,尚未形成良好定義的方法來指導上述檢索過程,特別是查詢的構建方法。另一種加速手工構建領域本體的方式是多人協同構建,這種方式的難點在于多人構建結果的沖突檢查和消解。
盡管領域本體作為概念層次的模型,已經脫離了自然語言的層面,但在供人使用時仍需要對術語采用自然語言中的詞匯進行命名,以便人的理解,因此,術語名稱也是領域本體的重要組成部分。由于自然語言的多樣性,一個術語可能對應到多個同義的自然語言詞匯(如單反相機和單鏡頭反光相機),因此,領域本體構建中的一項重要環節是盡可能完全地獲取術語名稱的所有同義詞。
現有的同義詞獲取方法主要是利用語言學專家構建的同義詞詞典(如WordNet)。盡管同義詞詞典的精度很高,但覆蓋面有限,并且目前可以獲得的計算機程序易處理的同義詞詞典很少,其中,中文的同義詞詞典更少,因此,領域本體構建中的中文術語名稱的同義詞獲取非常困難,通常只能基于構建者(即領域專家)的經驗完成,難以保證質量,特別是獲取的召回率(即完全度)。
另一種同義詞獲取方法是利用社會公眾的群體智能,這種方法利用了搜索引擎的用戶查詢日志,其基本思想是認為如果兩個關鍵詞常在用戶查詢中出現,且用戶常打開它們對應的查詢結果中的相同網頁,則這兩個關鍵詞被認為是同義詞。該方法存在的不足主要在于獲取同義詞的精度(即正確率)很低。原因在于一個網頁可能涉及多個不同的主題,分別對應到不存在同義關系的多個關鍵詞,因此,即使用戶基于不同的查詢關鍵詞打開了相同的網頁,也并不表明這些關鍵詞必然存在同義關系。
發明內容
有鑒于此,本發明的主要目的在于提供一種領域本體構建方法及系統,提供一種面向本例檢索的關鍵詞查詢的構建方法,具有良好的定義和可操作性,可取得較高的本體復用率。
為達到上述目的,本發明的技術方案是這樣實現的:
本發明提供一種領域本體構建方法,包括:
羅列需要被目標本體描述的所有術語的名稱,形成關鍵詞集合W0;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司;南京大學,未經中興通訊股份有限公司;南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210017772.7/2.html,轉載請聲明來源鉆瓜專利網。





