[發明專利]一種面向文本的領域分類關系自動學習方法有效

申請號：	201810036779.0	申請日：	2018-01-15
公開（公告）號：	CN108170840B	公開（公告）日：	2019-11-19
發明（設計）人：	李勁松;張椏童;周天舒;田雨;王昱	申請（專利權）人：	浙江大學
主分類號：	G06F16/35	分類號：	G06F16/35;G06F16/36
代理公司：	33200 杭州求是專利事務所有限公司	代理人：	劉靜;邱啟旺<國際申請>=<國際公布>=
地址：	310058 浙江***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	相似度層次聚類樹狀圖維度抽取分類關系領域分類自動學習剪枝知識庫文本矩陣語義相似度最終相似度背景知識概念抽取距離估計領域概念時間開銷手工標記無監督敘詞表語料庫映射聚簇句法加權
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種面向文本的領域分類關系自動學習方法，其特征在于，包括以下步驟：

(1)將從MEDLINE上抽取到的xml格式的論文中的摘要部分存儲為txt格式，作為語料庫；

(2)對步驟(1)得到的語料庫采用自然語言處理工具MMTx進行初步術語抽取；

(3)將步驟(2)抽取到的術語與UMLS超級敘詞表映射，不同的術語可能會映射到相同的概念；將所有的術語進行概念映射，最終形成領域概念集合；

(4)綜合句法相似度和語義相似度進行概念間相似度的計算，將相似度分為5個維度，最終的概念C_i和C_j之間的相似度Sim(C_i，C_j)是各維度相似度歸一化加權的結果，對于n個概念最終得到一個n×n的相似度矩陣；Sim(C_i，C_j)的計算公式如下：

其中，w_l是第l個維度相似度的權值，前三個維度的相似度是基于句法計算的，后兩個維度的相似度是基于語義計算的，具體計算方法如下：

(4.1)sim₁(C_i，C_j)的計算：計算概念C_i和C_j的概念名稱C_name的杰卡德相似系數；每個C_name由一系列字符串T構成，那么，概念C_i和C_j的相似度表示為

T_i∩T_j＝{t_i∈T_i，t_j∈T_j|LD|t_i|，|t_j|)＜α}

其中，LD|t_i|，|t_j|)為t_i和t_j之間的萊文斯坦距離，T_i∩T_j的評估標準是構成它們的字符串之間的萊文斯坦距離小于預定義值α；

(4.2)sim₂(C_i，C_j)的計算：計算概念C_i的概念名稱C_name和C_j所代表的術語集β之間的杰卡德相似系數；

(4.3)sim₃(C_i，C_j)的計算：計算概念C_i所代表的術語集β和C_j的概念名稱C_name之間的杰卡德相似系數；

(4.4)sim₄(C_i，C_j)的計算：計算兩個概念C_i和C_j在臨床醫學權威知識庫SNOMED CT中的相似度；對于概念C_i，首先，查詢其在SNOMED CT中的統一標識符conceptID，如果查詢不到統一標識符conceptID，則兩個概念的相似度為0；如果查詢到統一標識符conceptID，則遞歸查詢出概念C_i在SNOMED CT本體庫中的所有父節點，得到以概念C_i為中心的由其所有父節點形成的圖，采用圖的寬度優先搜索算法對兩個概念各自的父節點圖進行處理，得出二者的公共父節點，其中兩個概念的最近距離即為最終距離；對最短距離進行歸一化處理即可得到本維度的相似度；

(4.5)sim₅(C_i，C_j)的計算：計算兩個概念在DBpedia知識庫中的相似度；概念C_i和C_j的相似度是各自從DBpedia中抽取到的類別數組的杰卡德相似系數；

(5)對相似度矩陣進行層次聚類得出初始的樹狀圖：基于以上5個維度相似度的計算，采用自底向上的凝聚型聚類算法AHC對分類關系進行學習，簇間距離選用最大距離作為標準；

(6)對樹狀圖進行相應的剪枝和聚簇標記，得出概念之間的分類關系；具體為：首先創建聚簇標記向量λ＝{λ₁，λ₂，…，λ_m}，m為所有聚簇標記的總數，然后，對層次聚類產生的樹狀圖進行剪枝操作，若在剪枝的過程中有新的聚簇產生，對新的聚簇進行標記并更新樹狀圖，重復此操作，直到不再有新的聚簇產生，即得到最終的概念之間的分類關系。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浙江大學，未經浙江大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810036779.0/1.html，轉載請聲明來源鉆瓜專利網。