[發明專利]一種基于知識圖譜的中文醫藥問答系統及方法在審
| 申請號: | 202110763704.4 | 申請日: | 2021-07-06 |
| 公開(公告)號: | CN113569023A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 龍海霞;劉博韜;徐新黎;馬驥;周艷波;肖杰 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/295;G06F40/30;G06F16/36;G06F16/35;G06K9/62;G06F16/951 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 中文 醫藥 問答 系統 方法 | ||
1.一種基于知識圖譜的中文醫藥問答系統,其特征在于,所述系統包括知識圖譜構建模塊、問題分類模塊、數據庫查詢模塊、答案整合模塊和結果展示模塊:
所述知識圖譜構建模塊,用于根據醫藥百科網站獲取的數據構建中文醫藥知識圖譜;
所述問題分類模塊,用于實現識別用戶問句的主語實體、問題類別和問題類型,其中問題類別為事實類和是否類,事實類為詢問具體的實體,此種問題給出對應的事實答案;是否類為詢問兩種實體間關系,此種問題依據知識圖譜給出肯定或否定的答案,問題類型包含多個種類,疾病詢問用藥、疾病詢問治愈時間或疾病詢問癥狀;
所述數據庫查詢模塊,用于根據問題分類的結果,將其轉換為對應的數據庫查詢語句;
所述答案整合模塊,用于將數據庫查詢語句送入數據庫,對返回的結果進行整理,將查詢的內容組裝為符合自然語言的答案以及對應的可視化數據結構;
所述結果展示模塊,用于顯示前端聊天室,并對查詢結果進行文本以及可視化圖譜展示。
2.根據權利要求1所述的一種基于知識圖譜的中文醫藥問答系統,其特征在于,所述知識圖譜構建模塊包括醫藥數據爬取單元、結構調整單元和醫藥數據存儲單元;
所述醫藥數據爬取單元,用于對網頁端醫療百科網站的文本數據進行爬取,并傳遞至結構調整單元;
所述結構調整單元,用于對醫藥數據爬取單元所獲得文本數據進行整理,將其按照數據庫要求的格式進行轉換,拆分為節點對應節點屬性和節點對應節點兩種類型存入數據庫用于后續分析;
所述醫藥數據存儲單元,用于創建節點、節點屬性和節點間關系,將整理好的數據,按照預先設計的上層結構進行存儲,生成中文醫藥知識圖譜。
3.根據權利要求1或2所述的一種基于知識圖譜的中文醫藥問答系統,其特征在于,所述問題分類模塊包括識別主語實體單元、判斷問題類別單元和判斷問題類型單元;
所述識別主語實體單元,用于識別問句中的實體,對用戶問句進行解析時,采用AC自動機來加速檢索主語實體詞典的過程,能夠將問句在詞典里出現的詞抽取出來,將問句的詞與預先構建的字典進行匹配,識別出問句的主語實體,并且當這些主語實體中某個詞屬于另一個詞的一部分時,對較短的詞語進行去除,當問句未識別出主語實體時,會繼承上一問句的主語實體;若當前問句為第一句且未識別出主語實體時,會給出婉轉的回答表示問題無法理解;
所述判斷問題類別單元,用于識別問題為是否類或事實類問題,判斷時依據定義的規則進行劃分,若問題中識別出兩個實體,并且問句包含是否類關鍵詞,則將其劃分為是否類,其他情況歸為事實類;
所述判斷問題類型單元,用于識別問題類型,如疾病問用藥、疾病問癥狀等。對于是否類采用模板匹配的方式進行問題類型識別,識別時判斷問題是否含有某類問題類型的關鍵字,若包含對應關鍵字,則記錄該種問題類型;對于事實類采用BERT語義解析的方式進行問題類型識別,識別問題類型時,首先取出之前獲得的主語實體,將知識圖譜中與該實體相連的所有候選屬性及候選關系與該實體依次進行拼接,作為標準問題,然后將所有標準問題與用戶問題利用BERT文本相似度模型計算相似度,將結果最高的作為需要查詢的內容,記錄對應的問題類型;
所述BERT文本相似度模型,需要系統對預訓練的BERT模型進行遷移學習,根據預先收集的標準問題、用戶問題、是否相似的數據格式訓練,構建BERT文本相似度模塊,該模塊可以計算出兩個語句的相似度。
4.根據權利要求1或2所述的一種基于知識圖譜的中文醫藥問答系統,其特征在于,所述系統還包括數據庫查詢模塊,用于將問題分類模塊的數據轉換為對應的數據庫查詢語言。
5.根據權利要求1或2所述的一種基于知識圖譜的中文醫藥問答系統,其特征在于,所述系統還包括答案整合模塊,用于連接圖數據庫,將查詢語句輸入到數據庫中,獲取對應的查詢結果,然后將查詢的內容組裝為符合自然語言的答案以及對應的可視化數據,其中當問句為多種癥狀詢問疾病時,會生成每種癥狀對應疾病的集合,然后對這些集合作交的操作,取其中重復的疾病作為最終答案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110763704.4/1.html,轉載請聲明來源鉆瓜專利網。





