[發明專利]一種基于SNOMED-CT的醫學名詞詞典構造與拓展方法在審
| 申請號: | 202010268546.0 | 申請日: | 2020-04-08 |
| 公開(公告)號: | CN111460175A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 江瑞;傅卓然;陳福沨 | 申請(專利權)人: | 福州數據技術研究院有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/126;G06K9/62;G16H70/00 |
| 代理公司: | 福州君誠知識產權代理有限公司 35211 | 代理人: | 戴雨君 |
| 地址: | 350000 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 snomed ct 醫學 名詞 詞典 構造 拓展 方法 | ||
本發明公開一種基于SNOMED?CT的醫學名詞詞典構造與拓展方法,將目標文本進行中文分詞從而獲得每個句子之中的詞語。其次,利用語義依存算法對分詞的句子進行分析從而獲得名詞短語。最終,以已有的規范化的醫學詞典SNOMED?CT為基礎與文本中所提取的醫療短語進行對比通過預先定義的相似度對備選名詞短語進行篩選,所選得的名詞短語則被視為新的醫學名詞,從而組成詞典。本發明解決同概念多表達、縮寫、簡稱等問題,構造覆蓋面更廣的基本醫學術語詞典。本發明作為自然語言處理的第一部,可為后續命名實體識別、關系提取、實體對齊等任務提高速度以及精度。
技術領域
本發明涉及醫療系統數據處理技術領域,尤其涉及一種基于SNOMED-CT的醫學名詞詞典構造與拓展方法。
背景技術
醫護人員可通過病歷進行分診,確認后續所需進行的檢查,疾病的診斷,以及判斷最終所需的治療。但是目前我國在醫療產業1多重問題,最為緊迫的則為醫護人員短缺,醫療資源分配不均,以及大量的誤診案例,僅在臨床護理當中每年平均約有5700萬病例被誤診,總誤診率高達27.8%。
目前在診斷的過程中有大量的病歷需要人工進行閱讀、理解、分析以及做出最終的判斷。隨著病人數量的日益增長和對疾病診斷準確率要求的不斷提高,需要分析的病歷數量成倍增長,醫生的工作量也急劇增高,需要增加更多人員來應對更大量的診斷需求。然而我國目前平均每476人擁有一位醫生,醫生缺口達到9萬多人,并且面臨著技術水平參差不一,醫療資源分配不均勻等問題。優質醫療資源全部集中在大城市,而村鎮人口經常面臨無法在本地診治常見病之外的疾病,為診斷的進一步發展帶來了極大的困難。智能自動診斷以及輔助診斷的引入則可緩解我國在此方面所面臨的難題。智能輔助診斷技術可大大提高診斷的速度和效率,并可在一定程度上緩解醫療資源分配不均的問題。智能輔助診斷技術依賴于自然語言處理技術,而自然語言處理則包括命名實體識別、關系提取、實體對齊等模塊。這些模塊在最基礎層面則都依賴于一個或多個標準醫學詞表。由于語言的多樣性表達目前現有的標準化詞表并不能完全覆蓋文本中所出現的大部分詞匯。
發明內容
本發明的目的在于提供一種基于SNOMED-CT的醫學名詞詞典構造與拓展方法。
本發明采用的技術方案是:
一種基于SNOMED-CT的醫學名詞詞典構造與拓展方法,其包括以下步驟:
步驟1,獲取原始醫療文本進行中文分詞以獲得每個句子之中的詞語;
步驟2,利用語義依存算法對分詞的句子進行分析獲得名詞短語構成備選詞語表;
步驟3,在備選詞語列表中通過與基礎詞語列表SNOMED-CT中的詞匯進行相似度計算,相似度Sim(tc,tm)的計算公式如下:
其中,tc代表備選詞,tm代表SNOMED中的參考詞,Simst(tc,tm)表示tc和tm兩者的筆劃相似度,Simpy(tc,tm)表示tc和tm兩者的拼音相似度,Simss(tc,tm)表示tc和tm兩者的最大子字符串相似度;
步驟4,將備選詞語表中相似度大于設定閾值的詞匯錄入詞典,依次迭代形成自定義醫學詞典。
進一步地,步驟1中采用結巴分詞算法對原始醫療文本進行分詞。
進一步地,步驟2的具體步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州數據技術研究院有限公司,未經福州數據技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010268546.0/2.html,轉載請聲明來源鉆瓜專利網。





