[發明專利]一種基于深度學習的醫藥知識圖譜構建方法及系統在審
| 申請號: | 202010767903.8 | 申請日: | 2020-08-03 |
| 公開(公告)號: | CN111916216A | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 汪禮君 | 申請(專利權)人: | 汪禮君 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G16H70/40;G06N3/04;G06N3/08 |
| 代理公司: | 長沙正務聯合知識產權代理事務所(普通合伙) 43252 | 代理人: | 鄭雋;吳婷 |
| 地址: | 410205 湖南省長沙市高新*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 醫藥 知識 圖譜 構建 方法 系統 | ||
本發明涉及一種知識圖譜的技術領域,揭露了一種基于深度學習的醫藥知識圖譜構建方法,包括:獲取醫藥網站中的相關醫藥知識信息,并對醫藥網站內容進行解析;完成對解析內容的數據清洗;利用基于詞典的切分算法對解析內容進行切分處理;設計醫藥知識圖譜實體關系,并進行基于醫藥知識圖譜的語義表示;基于注意力機制進行知識圖譜網絡的構建,并進行基于知識圖譜的醫藥問答;將基于知識圖譜的醫藥問答過程建模為排序問題,采用逐點訓練的方式進行計算,得到問答之間的匹配分數,并根據匹配分數的分布特征進行參數精調,實現少樣本下的知識圖譜訓練。本發明還提供了一種基于深度學習的醫藥知識圖譜構建系統。本發明實現了知識圖譜的構建。
技術領域
本發明涉及知識圖譜的技術領域,尤其涉及一種基于深度學習的醫藥知識圖譜構建方法及系統。
背景技術
隨著信息技術的高速發展,大數據已成為人們談論的熱點名詞,隨之而來的是數據量的爆發、數據形式的多樣化,傳統的數據存儲和分析方式,已經無法應對和滿足人們對大數據分析的要求,從而引發人們對新的數據表示存儲方式——知識圖譜的研究熱潮。
知識圖譜的本質是一種叫做語義網絡的知識庫,用來描述真實世界中那些客觀存在的實體、概念和這些實體概念之間的關聯關系。存儲結構上為一對有向圖結構,圖中的結點對應著實體或是概念,圖中的有向邊對應著實體和概念之間的復雜的語義關系。
現有的知識存儲技術在早期探索了以不同語義、句法特征為基礎的特征工程方法,這些方法的優勢在于具有較強的可解釋性,但通常需要大量人工特征選擇,特征設計的不足和底層語法工具的錯誤都可能導致知識存儲效果較差;基于深度學習的知識存儲模型將知識存儲的效果提升到了新的水平,但這些模型通常只關注數據集中包含的信息,對于醫藥專業知識等外部信息缺乏考慮機制;基于知識和任務的方法在通用領域知識存儲方面達到了不錯的效果,但仍然缺乏對醫藥行業知識的考慮,同時,模型設計了較為復雜的機制,參數較多,在醫藥少樣本數據上進行訓練時容易造成訓練難、過擬合等問題,達不到良好效果。
鑒于此,如何利用少樣本數據進行模型的訓練,進行知識圖譜的構建,并利用所構建的知識圖譜進行醫藥領域的知識問答,成為本領域技術人員亟待解決的問題。
發明內容
本發明提供一種基于深度學習的醫藥知識圖譜構建方法,通過定義醫藥知識圖譜中的實體、關系和屬性,構建醫藥知識圖譜,并結合遷移學習進行醫藥知識圖譜的構建,同時根據所構建的知識圖譜進行醫藥領域的知識問答。
為實現上述目的,本發明提供的一種基于深度學習的醫藥知識圖譜構建方法,包括:
獲取醫藥網站中的相關醫藥知識信息,并對醫藥網站內容進行解析;
完成對解析內容的數據清洗;
利用基于詞典的切分算法對解析內容進行切分處理;
設計醫藥知識圖譜實體關系,并進行基于醫藥知識圖譜的語義表示;
基于注意力機制進行知識圖譜網絡的構建,并進行基于知識圖譜的醫藥問答;
將基于知識圖譜的醫藥問答過程建模為排序問題,采用逐點訓練的方式進行計算,得到問答之間的匹配分數,并根據匹配分數的分布特征進行參數精調,實現少樣本下的知識圖譜訓練。
可選地,所述對醫藥網站內容進行解析,包括:
解析出疾病的基本信息、發病原因、預防措施、檢查項目、治療信息、飲食保健信息和用藥信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于汪禮君,未經汪禮君許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010767903.8/2.html,轉載請聲明來源鉆瓜專利網。





