[發明專利]一種疾病知識圖譜構建方法和平臺系統、設備、存儲介質在審
| 申請號: | 201811205974.8 | 申請日: | 2018-10-17 |
| 公開(公告)號: | CN109271530A | 公開(公告)日: | 2019-01-25 |
| 發明(設計)人: | 蔣小云 | 申請(專利權)人: | 長沙瀚云信息科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06N5/02;G16H70/20 |
| 代理公司: | 長沙心智力知識產權代理事務所(普通合伙) 43233 | 代理人: | 謝如意 |
| 地址: | 410006 湖南省長沙市高*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 疾病知識 存儲介質 圖譜構建 圖譜 知識庫 快速構建 平臺系統 信息抽取 知識表達 知識加工 知識融合 質量評估 歧義 融合 數據源 臺系統 多源 整合 抽取 數據庫 標準化 規范化 加工 矛盾 學習 | ||
本發明公開了一種疾病知識圖譜構建方法及其系統、設備、存儲介質,屬于疾病知識圖譜技術領域。其中,疾病知識圖譜構建方法,包括以下步驟:A、信息抽取:從多源數據庫中提取或學習實體、屬性以及實體間的相互關系,形成本體化的知識表達;B、知識融合:對知識進行整合,以消除矛盾和歧義;C、知識加工:對于經過融合的知識,經過質量評估之后,加入到知識庫中。還包括疾病知識圖譜平臺系統、設備和存儲介質。針對現有技術中存在的問題,它從多個數據源中抽取實體、屬性及其之間的關系,并進行融合、加工,可以快速構建規范化和標準化的疾病知識圖譜。
技術領域
本發明涉及疾病知識圖譜技術領域,尤其涉及一種疾病知識圖譜構建方法及其系統、設備、存儲介質。
背景技術
知識圖譜的前身是語義網,它吸收了語義網、本體在知識組織和表達方面的理念,使得知識更易于在計算機之間和計算機與人之間交換、流通和加工。具體來說,一個知識圖譜由模式圖、數據圖及兩者之間的關系組成:模式圖對人類知識領域的概念層面進行描述,強調概念及概念關系的形式化表達,模式圖中節點是概念實體,邊是概念間的語義關系,如part-of;數據圖對物理世界層面進行描述,強調一系列客觀事實。數據圖中的節點有兩類,一是模式圖中的概念實體,二是描述性字符串,數據圖中的邊是具體事實的語義描述;模式圖和數據圖之間的關系指數據圖的實例與模式圖的概念之間的對應,或者說模式圖是數據圖的模具。
著名的通用知識圖譜中有,谷歌“Knowledge Graph”、搜狗“知立方”、YAGO、DBpedia等,它們具有規模大、領域寬,包含大量常識等特點。目前,醫學是知識圖譜應用最廣的垂直領域之一,如上海曙光醫院構建的中醫藥知識圖譜、本體醫療知識庫SNOMED-CT,IBM Watson Health等應用近兩年也開始進入人們視線。
知識圖譜是智能大數據的前沿研究問題,它以獨有的技術優勢順應了信息化時代的發展,比如漸增式的數據模式設計;良好的數據集成;現有RDF、OWL等標準支持;語義搜索和知識推理能力等。在醫學領域,隨著區域衛生信息化及醫療信息系統的發展,積累了海量的醫學數據。如何從這些數據中提煉信息,并加以管理、共享及應用,是推進醫學智能化的關鍵問題,是醫學知識檢索、臨床診斷、醫療質量管理、電子病歷及健康檔案智能化處理的基礎。
互聯網和電子病例帶來了醫療數據的爆炸性增長,然而這些數據在語種、主題、存儲等方面都存在較大差異,尤其在醫學領域的疾病知識圖譜需要具備專業性、準確性和可應用性等條件?,F有的研究成果多集中在特定數據集上,普遍存在算法準確率低、限制條件多、擴展性差等問題,同時知識復用、實體消歧等問題也有待進一步研究。由于醫學自身的專業性,現有通用領域的知識圖譜構建技術應用到醫學領域構建成本高,需要花費大量的時間和人力投入,并且還得不到能準確刻畫疾病的知識圖譜。疾病知識圖譜的構建相對于通用領域的知識圖譜具有構建難度大、效率低,難以應用到實際場景等特點,急需適用于醫學領域的知識圖譜構建框架。
中國發明專利申請,公開號:CN106776711A;公開日:2017年5月31日,公開了一種基于深度學習的中文醫學知識圖譜構建方法。包括:從數據源獲取醫療領域相關數據;使用分詞工具對非結構化數據進行分詞,使用RNN完成序列標注任務以識別醫療相關的實體,實現知識單元的抽??;對實體進行特征向量的構建,使用RNN進行序列標注并完成知識單元間關系的識別;進行實體對齊后,利用提取的實體以及實體之間的關系構建知識圖譜。本發明巧妙地將循環神經網絡用于知識單元抽取和知識單元間關系識別,能很好地完成對非結構化數據的處理。該發明提出適用于醫學領域的特征來進行網絡的訓練任務,相對于通用特征而言更能夠代表醫學實體,使得抽取出的知識單元和知識單元間的關系更加準確、全面。但仍存在信息學習過程中的知識沖突問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長沙瀚云信息科技有限公司,未經長沙瀚云信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811205974.8/2.html,轉載請聲明來源鉆瓜專利網。





