[發明專利]一種面向文本的領域分類關系自動學習方法有效
| 申請號: | 201810036779.0 | 申請日: | 2018-01-15 |
| 公開(公告)號: | CN108170840B | 公開(公告)日: | 2019-11-19 |
| 發明(設計)人: | 李勁松;張椏童;周天舒;田雨;王昱 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 33200 杭州求是專利事務所有限公司 | 代理人: | 劉靜;邱啟旺<國際申請>=<國際公布>= |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似度 層次聚類 樹狀圖 維度 抽取 分類關系 領域分類 自動學習 剪枝 知識庫 文本 矩陣 語義相似度 最終相似度 背景知識 概念抽取 距離估計 領域概念 時間開銷 手工標記 無監督 敘詞表 語料庫 映射 聚簇 句法 加權 | ||
1.一種面向文本的領域分類關系自動學習方法,其特征在于,包括以下步驟:
(1)將從MEDLINE上抽取到的xml格式的論文中的摘要部分存儲為txt格式,作為語料庫;
(2)對步驟(1)得到的語料庫采用自然語言處理工具MMTx進行初步術語抽取;
(3)將步驟(2)抽取到的術語與UMLS超級敘詞表映射,不同的術語可能會映射到相同的概念;將所有的術語進行概念映射,最終形成領域概念集合;
(4)綜合句法相似度和語義相似度進行概念間相似度的計算,將相似度分為5個維度,最終的概念Ci和Cj之間的相似度Sim(Ci,Cj)是各維度相似度歸一化加權的結果,對于n個概念最終得到一個n×n的相似度矩陣;Sim(Ci,Cj)的計算公式如下:
其中,wl是第l個維度相似度的權值,前三個維度的相似度是基于句法計算的,后兩個維度的相似度是基于語義計算的,具體計算方法如下:
(4.1)sim1(Ci,Cj)的計算:計算概念Ci和Cj的概念名稱Cname的杰卡德相似系數;每個Cname由一系列字符串T構成,那么,概念Ci和Cj的相似度表示為
Ti∩Tj={ti∈Ti,tj∈Tj|LD|ti|,|tj|)<α}
其中,LD|ti|,|tj|)為ti和tj之間的萊文斯坦距離,Ti∩Tj的評估標準是構成它們的字符串之間的萊文斯坦距離小于預定義值α;
(4.2)sim2(Ci,Cj)的計算:計算概念Ci的概念名稱Cname和Cj所代表的術語集β之間的杰卡德相似系數;
(4.3)sim3(Ci,Cj)的計算:計算概念Ci所代表的術語集β和Cj的概念名稱Cname之間的杰卡德相似系數;
(4.4)sim4(Ci,Cj)的計算:計算兩個概念Ci和Cj在臨床醫學權威知識庫SNOMED CT中的相似度;對于概念Ci,首先,查詢其在SNOMED CT中的統一標識符conceptID,如果查詢不到統一標識符conceptID,則兩個概念的相似度為0;如果查詢到統一標識符conceptID,則遞歸查詢出概念Ci在SNOMED CT本體庫中的所有父節點,得到以概念Ci為中心的由其所有父節點形成的圖,采用圖的寬度優先搜索算法對兩個概念各自的父節點圖進行處理,得出二者的公共父節點,其中兩個概念的最近距離即為最終距離;對最短距離進行歸一化處理即可得到本維度的相似度;
(4.5)sim5(Ci,Cj)的計算:計算兩個概念在DBpedia知識庫中的相似度;概念Ci和Cj的相似度是各自從DBpedia中抽取到的類別數組的杰卡德相似系數;
(5)對相似度矩陣進行層次聚類得出初始的樹狀圖:基于以上5個維度相似度的計算,采用自底向上的凝聚型聚類算法AHC對分類關系進行學習,簇間距離選用最大距離作為標準;
(6)對樹狀圖進行相應的剪枝和聚簇標記,得出概念之間的分類關系;具體為:首先創建聚簇標記向量λ={λ1,λ2,…,λm},m為所有聚簇標記的總數,然后,對層次聚類產生的樹狀圖進行剪枝操作,若在剪枝的過程中有新的聚簇產生,對新的聚簇進行標記并更新樹狀圖,重復此操作,直到不再有新的聚簇產生,即得到最終的概念之間的分類關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810036779.0/1.html,轉載請聲明來源鉆瓜專利網。





