[發明專利]一種醫療命名實體識別的方法、裝置及存儲介質有效
| 申請號: | 202110894039.2 | 申請日: | 2021-08-05 |
| 公開(公告)號: | CN113392633B | 公開(公告)日: | 2021-12-24 |
| 發明(設計)人: | 趙韡;袁靖;刁曉林;廉曉丹;張飛 | 申請(專利權)人: | 中國醫學科學院阜外醫院 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/295;G06F16/33;G06F16/35;G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100037 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫療 命名 實體 識別 方法 裝置 存儲 介質 | ||
本申請公開了一種醫療命名實體識別的方法、裝置及存儲介質,包括:利用基于字典的標注方法進行標注,作為第一標注結果;利用基于人工的標注方法進行標注,作為第二標注結果;利用NER機器學習模型的標注方法進行標注,作為第三標注結果;將第一標注結果、第二標注結果和第三標注結果進行融合,作為第四標注結果;根據第四標注結果更新NER機器學習模型的參數,并進行迭代,獲得訓練后的NER機器學習模型;將待識別的醫療文本輸入訓練后的NER機器學習模型獲得輸出的醫療命名實體。應用本申請方案,由于采用三種標注方法,將三種標注結果進行融合,使得訓練后的NER機器學習模型提高了對醫療文本命名實體識別的準確率。
技術領域
本申請涉及計算機應用技術領域,尤其涉及一種醫療命名實體識別的方法,一種醫療命名實體識別的裝置,一種電子設備和一種計算機可讀存儲介質。
背景技術
在計算機技術和互聯網技術的發展下,醫療文檔逐步實現了電子化,而疾病診斷、查閱病歷、健康咨詢、醫療教學等都需要對電子文檔中識別出與醫療相關的命名實體。命名實體識別(NER,Named Entity Recognition)就是一種從文本中識別出與指定信息相關的命名實體的技術。其中,與醫療相關的命名實體可以是疾病名稱、治療手段、藥品名稱等等。現有的醫療命名實體識別的技術由于手段單一,其識別的準確率有待提高。
發明內容
針對上述現有技術,本發明實施例公開一種醫療命名實體識別的方法,可以克服醫療命名實體識別技術手段單一,識別的準確率低的缺陷,達到提高識別準確率的目的。
鑒于此,本申請實施例提出一種醫療命名實體識別的方法,該方法包括:
利用基于字典的標注方法對參與訓練的醫療文本進行醫療命名實體的標注,將標注結果作為第一標注結果;
利用基于人工的標注方法對所述參與訓練的醫療文本進行醫療命名實體的標注,將標注結果作為第二標注結果;
利用命名實體識別NER機器學習模型的標注方法對所述參與訓練的醫療文本進行醫療命名實體的標注,將標注結果作為第三標注結果;
將所述第一標注結果、所述第二標注結果和所述第三標注結果進行融合,將融合生成的標注結果作為第四標注結果;
根據所述第四標注結果更新所述NER機器學習模型的參數,并返回到所述利用NER機器學習模型對所述參與訓練的醫療文本進行醫療命名實體的標注的步驟進行迭代,直到迭代生成的所述第四標注結果符合預設閾值,獲得訓練后的NER機器學習模型;
將待識別的醫療文本輸入所述訓練后的NER機器學習模型,獲得輸出的醫療命名實體。
進一步地,
所述將第一標注結果、所述第二標注結果和所述第三標注結果進行融合,將融合生成的標注結果作為第四標注結果的步驟包括:
將所述第一標注結果、所述第二標注結果、所述第三標注結果分別用二進制方式表示,1表示對應字符屬于所述醫療命名實體,0表示對應字符不屬于所述醫療命令實體;
將用二進制方式表示的所述第一標注結果、所述第二標注結果和所述第三標注結果進行或運算,將連續為1的字符段作為待定標注結果;
根據待定標注結果判斷標注是否唯一,如果唯一,則將所述待定標注結果作為所述第四標注結果;如果不唯一,則根據詞頻統計結果以及事先為每一種標注方法設置的權重確定最終標注結果,將最終標注結果作為所述第四標注結果。
進一步地,
所述根據詞頻統計結果和事先為每一種標注方法設置的權重確定最終標注結果,將最終標注結果作為所述第四標注結果的步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國醫學科學院阜外醫院,未經中國醫學科學院阜外醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110894039.2/2.html,轉載請聲明來源鉆瓜專利網。





