[發明專利]一種實體關系抽取方法、終端設備及計算機可讀存儲介質在審
| 申請號: | 202010047654.5 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN113130025A | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 唐琎;覃若彬;高琰;王艷東 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G16H10/60 | 分類號: | G16H10/60;G16H50/70;G06F40/295;G06F40/30;G06F16/33;G06F16/35 |
| 代理公司: | 長沙市融智專利事務所(普通合伙) 43114 | 代理人: | 龔燕妮 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 關系 抽取 方法 終端設備 計算機 可讀 存儲 介質 | ||
本發明公開了一種實體關系抽取方法、終端設備及計算機可讀存儲介質,其方法包括:從電子病歷文本數據庫中人工抽取若干個符合預設實體關系的二元實體對作為種子實例;對每個種子實例,均在電子病歷文本數據庫中查找包括種子實例的句子,并提取該句子的特征向量;基于特征向量對種子實例進行聚類;均根據其中種子實例以及種子實例相應有句子的特征向量,生成與該聚類集群對應的提取模板;使用提取模板在電子病歷文本數據庫中提取候選實例;根據候選實例與提取模板之間的實體關系,計算各候選實例的置信度,以根據置信度確認是否要將該候選實例作為新的種子實例進行下一輪次迭代。本發明能夠較大幅度的提高電子病歷實體關系抽取的準確率。
技術領域
本發明屬于自然語言處理技術領域,特別涉及一種基于半監督的醫療電子病歷實體關系抽取方法、終端設備及計算機可讀存儲介質。
背景技術
在這個越來越信息化和智能化的年代,醫療健康服務也不斷往信息化和智能化方面發展,醫療電子病歷也開始逐漸在醫療健康領域發揮越來越重要的作用。病歷(MedicalRecords)是醫務人員對患者疾病的發生、發展、轉歸,進行檢查、診斷、治療等醫療活動過程的記錄。也是對采集到的資料加以歸納、整理、綜合分析,按規定的格式和要求書寫的患者醫療健康檔案。傳統的紙質病歷具有保存分散,檢索困難,容易丟失,字跡難辨等缺點,使得此類病歷難以通過現代化手段進行管理和利用,故電子病歷無論是在內容方面還是在可利用程度等方面都優于紙質病歷。近年來電子病歷的使用越來越廣泛,人們對電子病歷的認識逐漸完善,其中包括了患者的一些臨床信息,如數字,文字,表格,圖形,圖像等大量的醫學知識,如何有效的挖掘,利用這些專業知識對于醫療健康事業的發展有重要作用。
應用自然語言處理方法挖掘醫療文本中的知識主要用到的是信息抽取相關技術,而信息抽取任務主要包括NER(命名實體識別)和RE(關系提取)。該任務在醫學信息學中用于臨床決策支持(Clinical decision support,CDS)研究服務于醫療專業人員。本方法主要是針對其中關系抽取這一任務提出的一種方法。
關系提取是一種在自然語言處理過程中提取實體之間的命名關系的任務,提取的是在實體識別過程中被標記的句子中的實體之間的語義關系。根據訓練數據集在提取過程中對人工標注的依賴性,基于機器學習,監督關系抽取,半監督關系抽取,無監督關系抽取和開放實體關系抽取將關系抽取技術分為三類。
1、監督關系抽取:監督關系提取的本質是分類,該方法需要大量帶標簽的訓練數據集,然后通過機器學習對文本語料庫的實體關系類型進行識別和分類。基于特征向量的方法是從文本語料庫的句子中提取形態信息,句法信息和關系模式信息,并量化并編碼從這些句子中提取的有用信息。然后可以構造特征向量和特征組合。可以通過機器學習來建立實體關系提取模型(例如分類器SVM,WINDOW)。手動注釋語料庫的數量需求是監督關系提取的最大弱點,該方法不適用于處理海量數據語料庫。
2、弱監督關系抽取:弱監督的關系提取僅需要少量注釋的語料庫,并使用關系種子的代表性樣本。所標注的訓練數據集的種子可以在大規模語料庫中應用,并通過迭代方法不斷地提取新的提取模式。使用最廣泛的方法是自舉,標簽傳播和主動學習。引導程序通過對有限的種子樣本進行多次實驗來總結擴展種子集,并通過多次迭代的方式獲得訓練示例。在自舉研究中,兩個代表系統是DIPRE和Snowball。此方法對初始關系種子有很高的要求,每個字段都需要高質量的關系,研究表明,此類方法召回率較低,便攜性較差。
3、無監督關系抽取:無監督的關系提取不需要任何人工注釋的語料庫,并且不需要預定義實體關系,對語義關系的自動提取處理主要取決于對語料庫的聚類。該方法在各個領域都具有很強的可移植性,可用于大規模信息提取。但是,目前的實驗研究尚未獲得理想的提取結果,并且其準確度和查全率也沒有明顯提高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010047654.5/2.html,轉載請聲明來源鉆瓜專利網。





