[發明專利]用于將醫療非標準名稱標準化的方法及裝置在審
| 申請號: | 201711385974.6 | 申請日: | 2017-12-20 |
| 公開(公告)號: | CN109949938A | 公開(公告)日: | 2019-06-28 |
| 發明(設計)人: | 嚴君;張永磊;常劍;於今 | 申請(專利權)人: | 北京亞信數據有限公司 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 100193 北京市海淀區西北旺東路*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標準化 非標準 詞向量 統計模型 相似度 醫療 數據分析技術 綜合相似度 模型計算 數據訓練 轉化 | ||
本發明提供了一種用于將醫療非標準名稱標準化的方法及裝置,涉及醫療、數據分析技術領域,能夠提高非標準名稱標準化的準確性。其中該方法包括:收集標準名稱相關數據和待標準化名稱;利用標準名稱相關數據訓練DL詞向量模型和TF?IDF統計模型;根據DL詞向量模型計算待標準化名稱與每個標準名稱的DL詞向量相似度Ai,根據TF?IDF統計模型計算待標準化名稱與每個標準名稱的TF?IDF相似度Bi,根據Ai和Bi計算綜合相似度Ci,選擇Ci最大的標準名稱作為待標準化名稱的標準名稱。上述方法應用于將醫療非標準名稱轉化為標準名稱的過程中。
技術領域
本發明涉及醫療、數據分析領域,尤其涉及一種用于將醫療非標準名稱標準化的方法及裝置。
背景技術
在醫療領域中存在著嚴重的數據混亂問題,主要表現為:醫生為了節省時間能夠處理更多病患,在填寫病歷以及開立醫囑時使用了大量的簡稱或口語型描述性用語,導致針對醫療數據的深入分析難以進行。因此,需要將醫生用語(即醫療非標準名稱)轉化為標準名稱,即將非標準名稱標準化。
目前進行非標準名稱標準化的主要方法是:建立醫療標準名稱的TF-IDF(TermFrequency-Inverse Document Frequency,詞頻-逆向文件頻率)統計模型,根據TF-IDF統計模型獲得各標準名稱的TF-IDF特征和待標準化名稱的TF-IDF特征,然后對比待標準化名稱的TF-IDF特征與每個標準名稱的TF-IDF特征的相似度,選擇最相似的標準名稱作為該待標準化名稱的標準名稱。
其中,TF-IDF統計模型是一種用于信息檢索與數據挖掘的常用加權技術。TF即詞頻,是指詞匯在某個名稱中出現的頻率;IDF即逆向文件頻率,是指包含某個詞匯的名稱越多,則這個詞匯的區分能力越差,反之越大。TF和IDF的乘積用以評估一個詞對于一個文本或一個語料庫中的一份文本的重要程度。字詞的重要性隨著它在文本中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF統計模型是用于度量文本相似度的傳統重要方法。
但是,TF-IDF統計模型只能將在關系樣本數據和同義詞詞庫中的非標準名稱標準化,無法準確地將未在關系樣本數據和同義詞詞庫中的新詞匯轉化為標準名稱,并且TF-IDF統計模型無法準確地識別同義詞,造成目前非標準名稱標準化的準確性較低。
發明內容
針對上述現有技術中的問題,本發明實施例提供一種用于將醫療非標準名稱標準化的方法及裝置,通過引入DL(Deep Learning,深度學習)詞向量模型,結合TF-IDF統計模型實現非標準名稱的標準化,以提高非標準名稱標準化的準確性。
為達到上述目的,本發明實施例采用如下技術方案:
第一方面,本發明實施例提供了一種用于將醫療非標準名稱標準化的方法,其特征在于,該方法包括以下步驟:S1:收集標準名稱相關數據和待標準化名稱,其中所述標準名稱數據包括:醫療領域中的標準名稱與非標準名稱的對應關系數據,和醫療領域中的文本數據。S2:利用所述標準名稱相關數據,訓練DL詞向量模型和TF-IDF統計模型。S3:根據所述DL詞向量模型,計算所述待標準化名稱與所述標準名稱相關數據中的每個標準名稱的DL詞向量相似度Ai;根據所述TF-IDF統計模型,計算所述待標準化名稱與所述標準名稱相關數據中的每個標準名稱的TF-IDF相似度Bi;根據Ai和Bi,計算所述待標準化名稱與所述每個標準名稱的綜合相似度Ci,選擇Ci最大的標準名稱作為所述待標準化名稱的標準名稱。其中,i=1~N,N為所述標準名稱相關數據中所包括的標準名稱的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京亞信數據有限公司,未經北京亞信數據有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711385974.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于語音交互的信息安全自助全面健康評估系統
- 下一篇:慢病管理方法及系統





