[發明專利]一種基于糖尿病知識圖譜的問答系統構建方法在審
| 申請號: | 202211301634.1 | 申請日: | 2022-10-24 |
| 公開(公告)號: | CN115658863A | 公開(公告)日: | 2023-01-31 |
| 發明(設計)人: | 郝天永;蘭牧融;周盈盈 | 申請(專利權)人: | 華南師范大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06F16/35;G06F40/295;G06F40/30;G06N3/0442 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 黎揚鵬 |
| 地址: | 510631 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 糖尿病 知識 圖譜 問答 系統 構建 方法 | ||
本發明公開了一種基于糖尿病知識圖譜的問答系統構建方法,方法包括:基于目標數據,預設數據格式,以及實體類別、關系類型和屬性類型;根據數據格式,基于實體類別對目標數據進行實體識別;根據實體識別的結果,基于關系類型和屬性類型進行知識抽取,得到目標三元組;將目標三元組存儲到目標圖數據庫,完成目標知識圖譜的構建;對輸入問題進行預處理,確定目標實體和目標關系類型;根據目標實體和目標關系,對目標圖數據庫進行查詢處理,得到目標推薦結果的答案。本發明能夠有效提高目標數據中分布的實體識別的準確性,能夠提高問答系統中答案的準確性,可廣泛應用于知識圖譜技術領域。
技術領域
本發明涉及知識圖譜技術領域,尤其是一種基于糖尿病知識圖譜的問答系統構建方法。
背景技術
目前對于糖尿病領域知識圖譜的構建研究較少,構建圖譜的數據大部分來源于網絡爬蟲或相關領域書籍,對處理上述非結構化數據的方法較多,而非結構化數據處理的研究還存在跨句子分布的關系抽取、長度較長的實體提取的困難。往往構建的知識圖譜不能準確反應出各類實體及其關系。
此外,對于問題的查找咨詢,人們通常依靠各種搜索引擎,然而現有的搜索引擎反饋的內容通常是一些包括相關內容的網頁甚至廣告,尤其對于專業領域的相關內容,并不能準確反饋搜索對應的要點,而問答系統作為一種新型信息檢索技術,能夠直接返回給用戶精確的答案,從而省去了用戶從大量相關網頁中尋找所需信息的時間。
因此,如何構建實體及關系準確表示的知識圖譜進而搭建檢索精確的問題系統是一個亟待解決的問題。
發明內容
有鑒于此,本發明實施例提供了一種高效的,一種基于糖尿病知識圖譜的問答系統構建方法。
一方面,本發明實施例提供了一種基于糖尿病知識圖譜的問答系統構建方法,包括:
基于目標數據,預設數據格式,以及實體類別、關系類型和屬性類型;
根據所述數據格式,基于所述實體類別對所述目標數據進行實體識別;
根據所述實體識別的結果,基于所述關系類型和所述屬性類型進行知識抽取,得到目標三元組;
將所述目標三元組存儲到目標圖數據庫,完成目標知識圖譜的構建;
對輸入問題進行預處理,確定目標實體和目標關系類型;
根據所述目標實體和所述目標關系類型,對所述目標圖數據庫進行查詢處理,得到目標推薦結果的答案。
可選地,還包括:
基于所述實體識別,根據實體名稱進行去重處理。
可選地,所述基于目標數據,預設數據格式,以及實體類別、關系類型和屬性類型,包括:
基于糖尿病知識圖譜中文數據集DiaKG,預設數組結構的數據格式,以及18類實體類別、16種關系類型和屬性類型。
可選地,所述根據所述數據格式,基于所述實體類別對所述目標數據進行實體識別,包括:
根據所述數據格式,通過三位標注法對所述目標數據進行跨句標注;
基于所述跨句標注,通過BI-LSTM-CRF模型進行實體識別。
可選地,所述根據所述實體識別的結果,基于所述關系類型和所述屬性類型進行知識抽取,得到目標三元組,包括:
根據所述實體識別的結果,基于所述關系類型,通過BERT模型進行面向結構化文本的關系抽取,得到關系三元組;
和,基于所述屬性類型,通過BERT模型進行面向結構化文本的屬性抽取,得到屬性三元組;
其中,所述知識抽取包括關系抽取和屬性抽取;所述目標三元組包括關系三元組和屬性三元組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南師范大學,未經華南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211301634.1/2.html,轉載請聲明來源鉆瓜專利網。





