[發明專利]一種基于SNOMED-CT的醫學名詞詞典構造與拓展方法在審
| 申請號: | 202010268546.0 | 申請日: | 2020-04-08 |
| 公開(公告)號: | CN111460175A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 江瑞;傅卓然;陳福沨 | 申請(專利權)人: | 福州數據技術研究院有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/126;G06K9/62;G16H70/00 |
| 代理公司: | 福州君誠知識產權代理有限公司 35211 | 代理人: | 戴雨君 |
| 地址: | 350000 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 snomed ct 醫學 名詞 詞典 構造 拓展 方法 | ||
1.一種基于SNOMED-CT的醫學名詞詞典構造與拓展方法,其特征在于:其包括以下步驟:
步驟1,獲取原始醫療文本進行中文分詞以獲得每個句子之中的詞語;
步驟2,利用語義依存算法對分詞的句子進行分析獲得名詞短語構成備選詞語表;
步驟3,在備選詞語列表中通過與基礎詞語列表SNOMED-CT中的詞匯進行相似度計算,相似度Sim(tc,tm)的計算公式如下:
其中,tc代表備選詞,tm代表SNOMED中的參考詞,Simst(tc,tm)表示tc和tm兩者的筆劃相似度,Simpy(tc,tm)表示tc和tm兩者的拼音相似度,Simss(tc,tm)表示tc和tm兩者的最大子字符串相似度;
步驟4,將備選詞語表中相似度大于設定閾值的詞匯錄入詞典,依次迭代形成自定義醫學詞典。
2.根據權利要求1所述的一種基于SNOMED-CT的醫學名詞詞典構造與拓展方法,其特征在于:步驟1中采用結巴分詞算法對原始醫療文本進行分詞。
3.根據權利要求1所述的一種基于SNOMED-CT的醫學名詞詞典構造與拓展方法,其特征在于:步驟2的具體步驟為:
步驟2.1,利用hanlp語義依存分析算法對原始醫療文本進行標注并獲得每個詞的詞性標注以及詞語詞之間的語義依存關系標簽;
步驟2.2,找出文本里所存在的所有名詞短語形成備選詞語表,名詞短語由一個名詞作為根,并包含全部通過定中關系與之相連接的詞而形成。
4.根據權利要求1所述的一種基于SNOMED-CT的醫學名詞詞典構造與拓展方法,其特征在于:步驟3中筆劃相似度的計算步驟如下:
步驟3.1.1,對待匹配詞語和目標詞語分別按照預設的編碼規則進行字體結構、四角編碼和筆劃數的分析編碼得到六維筆劃特征碼,第一個維度代表字的結構,第二到五維代表四角編碼,第六維代表筆劃;
步驟3.1.2,計算詞語的六維筆劃特征碼的每個維度pi的相似度相似度的計算公式如下:
其中,同一維度上的每個編碼分別對應一個數值,其中字的結構維度四角編碼維度以及筆劃維度為備選詞的第i維的數值,為SNOMED參考詞的第i維的分數值,max(pi)為第i個維度可取的最大值;
步驟3.1.3,計算待匹配詞語和目標詞語的字符相似度字符相似度計算公式如下::
步驟3.1.4,計算每對詞之間的筆劃相似度則為:
其中,tc代表備選詞,tm代表SNOMED中的參考詞,Len(tm)表示參考詞tm的字的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州數據技術研究院有限公司,未經福州數據技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010268546.0/1.html,轉載請聲明來源鉆瓜專利網。





