[發明專利]基于多層文本分類器的輕量級本體匹配方法有效
| 申請號: | 201010120535.4 | 申請日: | 2010-03-08 |
| 公開(公告)號: | CN102193928A | 公開(公告)日: | 2011-09-21 |
| 發明(設計)人: | 劉思培;王進;彭鴿;姜贏;胡晨 | 申請(專利權)人: | 三星電子(中國)研發中心;三星電子株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 韓明星;王艷嬌 |
| 地址: | 210008 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多層 文本 分類 輕量級 本體 匹配 方法 | ||
技術領域
本發明涉及自然語言處理、文本分類和語義Web領域,更具體地講,涉及一種輕量級本體匹配方法。
背景技術
隨著信息技術的發展,基于文本的分類技術、搜索技術也得到較快發展。當前引入了本體(ontology)的概念,本體是領域(可以是特定領域,也可以是更廣的范圍)內部不同主體(人、機器、軟件系統等)之間進行交流(對話、互操作、共享等)的一種語義基礎。本體可以分為輕量級本體(Lightweight?ontology)、中級本體(Middle?ontology)和重量級本體(Heavyweight?ontology),輕量級本體不具備邏輯推理功能,中級本體具有簡單的邏輯推理功能,重量級本體具有復雜的邏輯推理功能。輕量級本體除了包含概念層次結構之外,還包含若干概念實例。鑒于輕量級本體簡單易用,輕量級本體更適合于實際的應用程序設計和開發。
本體匹配是解決本體異構問題的主要方法之一,一個高效、精確的相似度計算方法是實現本體匹配的前提條件。
現有的文本分類技術一般用于管理文本或其他可采用向量形式描述的資源,基于分類技術能夠對未知資源的類別進行預測,從而為用戶提供一種輔助性的指導和幫助。而傳統的本體匹配的方法,大多通過某種策略直接衡量概念的相似程度,或對比兩個文本實例集合之間相似度。現有的一種本體匹配方法是基于傳統二元分類器的本體匹配方法,但在計算概念相似度時該方法需要為每個概念對都訓練一個分類模型,需要對兩個本體的文本實例都進行預測分類,故具有很高的復雜度;此外,源于特征選擇的局限性,分類模型訓練僅從兩個類別的文本中進行特征選擇,沒有考慮所選特征與其他類別的區分度,影響預測分類的準確性,也會造成相似度計算的準確性不高,影響本體匹配的正確性。
現有的基于文本分類的本體匹配方法的計算復雜度較高,且利用多個二元分類器僅在兩個概念的文本實例中篩選特征,衡量每個概念對的相似度,具有很大的局限性,使得文本分類無法有效評估文本之間的相似度,限制了概念相似度計算的可信性。
發明內容
針對現有技術中本體匹配時計算復雜以及計算不精確的問題,本發明將文本分類技術應用于解決輕量級本體的匹配問題,提出了一種基于多層文本分類器的輕量級本體匹配方法。
根據本發明的一方面,一種基于多層文本分類器的輕量級本體匹配方法,該方法包括以下步驟:選擇待匹配的兩個本體中的第一本體,將第一本體的概念分類樹和文本實例作為訓練集,利用自底向上的多層文本特征選擇策略構造多層文本分類器;利用多層文本分類器對所述兩個本體中的第二本體的文本實例進行預測分類,將第二本體的文本實例分別歸屬到第一本體的多個概念;判定第二本體中的每個概念的所有文本實例中分別歸屬到第一本體中的每個概念的文本實例在所述所有文本實例中的比例,分別作為所述兩個本體中的相應概念之間的相似度;基于概念之間的相似度得出所述兩個本體的概念之間的映射關系,由此完成輕量級本體匹配。
利用自底向上的多層文本特征選擇策略構造多層文本分類器的步驟可包括:對第一本體的概念分類樹的各個葉節點進行文本特征選擇;利用自底向上的策略對第一本體的概念分類樹的分支節點進行文本特征選擇,直至當前分支節點為根節點,獲得最終的文本特征;使用最終的文本特征構造多層文本分類器。
對于第二本體中的一個概念,如果所述一個概念的所有文本實例中分別歸屬到第一本體中的每個概念的文本實例在所述所有文本實例中的比例中的最大值大于或等于預定義的閾值,則確定第二本體中的一個概念與比例中的最大值所對應的第一本體的概念相似。
所述兩個本體中的概念之間可構成概念對,每個概念對的相似度是第二本體的概念的所有文本實例被歸屬到概念對中的另一概念的文本實例在所有文本實例中的比例。
根據概念對的相似度的計算結果,對于第二本體中的任一個概念,在第一本體中尋找與所述任一個概念的相似度最大的概念,根據預定義的閾值確定構成概念對的兩個概念之間的匹配關系。
當最大相似度大于或等于所述預定義的閾值時,確定構成概念對的所述兩個概念彼此相似。
附圖說明
通過結合附圖,從下面的實施例的描述中,本發明這些和/或其它方面及優點將會變得清楚,并且更易于理解,其中:
圖1是根據本發明實施例的基于多層文本分類器的輕量級本體匹配方法的原理框圖;
圖2是根據本發明實施例的基于多層文本分類器的輕量級本體匹配方法的流程圖;
圖3是多層文本分類的類別的示意圖;
圖4示出了根據本發明的多層文本特征選擇策略的示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星電子(中國)研發中心;三星電子株式會社,未經三星電子(中國)研發中心;三星電子株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010120535.4/2.html,轉載請聲明來源鉆瓜專利網。





