[發明專利]一種醫學知識表示的生成方法和裝置有效
| 申請號: | 202111437609.1 | 申請日: | 2021-11-30 |
| 公開(公告)號: | CN113836321B | 公開(公告)日: | 2022-05-10 |
| 發明(設計)人: | 王欣梅;李瑞瑞;李爽;趙偉 | 申請(專利權)人: | 北京富通東方科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06K9/62;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100086 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫學知識 表示 生成 方法 裝置 | ||
本公開涉及一種醫學知識表示的生成方法和裝置,其中,方法包括:基于醫學知識圖譜數據集獲取單步路徑三元組集和頭實體和尾實體的描述文本數據,基于實體的描述文本數據和單步路徑三元組集,獲取實體的初始描述信息存儲在單步路徑三元組集,獲取每個單步路徑三元組對應的多跳路徑三元組集合,所有單步路徑三元組和對應的多跳路徑三元組進行合并為正樣本集合,對正樣本集合處理得到負樣本集合,將正樣本集合和負樣本集合輸入神經網絡進行訓練獲取醫學知識表示學習模型,以獲取待處理實體和待處理尾實體輸入醫學知識表示學習模型生成醫學知識表示。由此,在融合實體描述文本信息的基礎上添加多步關系路徑信息,增加知識表示的語義信息。
技術領域
本公開涉及醫學知識表示技術領域,尤其涉及一種醫學知識表示的生成方法和裝置。
背景技術
通常,針對穩定性冠心病、心力衰竭、高血壓等心血管慢病的診斷,涉及醫學知識面廣泛、推理鏈比較程長,需要融合患者高維的基線信息,如性別、年齡、病史、職業、生活習慣等,以及體格檢查、影像學檢查、實驗室檢驗等診斷指標結果知識。此外,臨床疾病推理環節通常也是錯綜復雜,往往需要多角度多步長的反復驗證和疾病鑒別。
可以理解的是,知識表示學習是通過機器學習將研究對象的語義信息表示為稠密低維實值向量,在許多下游自然語言處理任務中起著不可或缺的作用,典型應用主要包括知識相似度計算、知識圖譜補全、知識語義搜索等。
目前的醫學知識表示通常是基于單步長或者單實體節點的向量表示,無法考慮足夠的醫學語義信息,并且遇見未在詞表中的醫學實體名詞則無法進行向量嵌入表示。
發明內容
為了解決上述技術問題或者至少部分地解決上述技術問題,本公開提供了一種醫學知識表示的生成方法和裝置。
本公開提供了醫學知識表示的生成方法,包括:
獲取醫學知識圖譜數據集;
基于所述醫學知識圖譜數據集,獲取單步路徑三元組集和實體的描述文本數據;其中,所述實體包括頭實體和尾實體;
基于所述實體的描述文本數據和所述單步路徑三元組集,獲取實體的初始描述信息存儲在所述單步路徑三元組集;
獲取所述單步路徑三元組集中每個單步路徑三元組對應的多跳路徑三元組集合;
所有所述單步路徑三元組和對應的多跳路徑三元組進行合并為正樣本集合,并對所述正樣本集合進行處理得到負樣本集合;
通過預設損失函數將所述正樣本集合和所述負樣本集合輸入神經網絡進行訓練,獲取醫學知識表示學習模型,以獲取待處理實體和待處理尾實體輸入所述醫學知識表示學習模型,生成醫學知識表示。
本公開提供了醫學知識表示的生成裝置,包括:
獲取圖譜模塊,用于獲取醫學知識圖譜數據集;
第一獲取模塊,用于基于所述醫學知識圖譜數據集,獲取單步路徑三元組集;
第二獲取模塊,用于基于所述醫學知識圖譜數據集,獲取實體的描述文本數據;其中,所述實體包括頭實體和尾實體;
第三獲取模塊,用于基于所述實體的描述文本數據和所述單步路徑三元組集,獲取實體的初始描述信息存儲在所述單步路徑三元組集;
第四獲取模塊,用于獲取所述單步路徑三元組集中每個單步路徑三元組對應的多跳路徑三元組集合;
合并處理模塊,用于所有所述單步路徑三元組和對應的多跳路徑三元組進行合并為正樣本集合,并對所述正樣本集合進行處理得到負樣本集合;
生成處理模塊,用于通過預設損失函數將所述正樣本集合和所述負樣本集合輸入神經網絡進行訓練,獲取醫學知識表示學習模型,以獲取待處理實體和待處理尾實體輸入所述醫學知識表示學習模型,生成醫學知識表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京富通東方科技有限公司,未經北京富通東方科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111437609.1/2.html,轉載請聲明來源鉆瓜專利網。





