[發明專利]一種面向醫療知識圖譜問答的問句解析方法在審
| 申請號: | 202111170907.9 | 申請日: | 2021-10-08 |
| 公開(公告)號: | CN113918694A | 公開(公告)日: | 2022-01-11 |
| 發明(設計)人: | 劉茂福;向軍毅;付洋 | 申請(專利權)人: | 武漢科技大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F16/36;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 張火春 |
| 地址: | 430081 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 醫療 知識 圖譜 問答 問句 解析 方法 | ||
1.一種面向醫療知識圖譜問答的問句解析方法,其特征在于所述問句解析方法包括如下步驟:
步驟1、采用分類器對醫療問題進行分類:事實型問題,列表型問題,驗證型問題,復雜交互型問題;
步驟2、采用識別器對醫療問題進行實體識別和屬性識別:
驗證型問題有一個實體和一個屬性,
列表型問題有一個屬性,
事實型問題有一個實體和一個屬性,
復雜交互型問題有一個屬性;
所述實體是指具有對客觀個體的抽象;
所述屬性為實體與實體之間關系的抽象和為實體的固有屬性;
步驟3、將識別的實體與知識圖譜中的所有實體逐個進行匹配,與所述知識圖譜中匹配度最高的實體為標準實體;將識別的屬性與知識圖譜中所有屬性逐個進行匹配,與知識圖譜中匹配度最高的屬性為標準屬性;
所述匹配的具體方式是:
將識別的實體與知識圖譜中的各實體的最長公共子序列的長度與標準實體的長度之比作為召回率R,將識別的實體與知識圖譜中的各實體的最長公共子序列的長度與識別的實體的長度之比作為準確率P;知識圖譜中的各實體的匹配度Slcs:
式(1)中:β表示常數,β為9999,
R表示召回率,%,
P表示準確率,%;
步驟3.1、所述醫療問題的類別為驗證型問題
將驗證型問題的實體與知識圖譜中的所有實體逐個進行匹配,則知識圖譜中匹配度最高的實體為驗證型問題標準實體;
將驗證型問題的屬性與知識圖譜中的所有屬性逐個進行匹配,則知識圖譜中匹配度最高的屬性為驗證型問題標準屬性;
對驗證型問題的剩余文本進行屬性值抽取,采用正則表達式的方式對抽取的屬性值進行標準化,得到標準屬性值;
步驟3.2、所述醫療問題的類別為列表型問題
將列表型問題中的屬性與知識圖譜中的所有屬性逐個進行匹配,則知識圖譜中匹配度最高的屬性為列表型問題標準屬性;
對列表型問題的剩余文本進行屬性值抽取,采用正則表達式的方式對抽取的屬性值進行標準化,得到列表型問題標準屬性值;
步驟3.3、所述醫療問題的類別為事實型問題
將事實型問題中的實體與知識圖譜中的所有實體逐個進行匹配,則知識圖譜中匹配度最高的實體為事實型問題標準實體;
將事實型問題中的屬性與知識圖譜中的所有屬性逐個進行匹配,則知識圖譜中匹配度最高的屬性為事實型問題標準屬性;
步驟3.4、所述醫療問題的類別為復雜交互型問題
若復雜交互型問題中存在指示代詞,則轉換為上一個問句中的標準實體,反之,則直接采用上一個問句中的標準實體;
所述指示代詞為“他”、“誰”、“什么”、“這”、“這個”、“哪”、“她”、“它”中的一個;
所述上一個問句為本次問句前保留的3個問句,其中包含標準實體;
在步驟3.1~步驟3.4中:所述剩余文本為醫療問題中除識別的屬性和識別的實體以外的文本;
所述正則表達式是對字符串操作的一種邏輯公式;所述邏輯公式由事先定義的字符組成,所述“事先定義的字符”為大寫的26個英文字母、小寫的26個英文字母、所有中文字符、“\”、“{”、“}”、“[”、“]”、“?”、“*”、“+”、“<”、“”、“|”、“^”、“=”、“:”、“.”和“$”中的一個以上;
步驟4、將標準實體、標準屬性和標準屬性值轉化為查詢語句,知識圖譜中查詢模塊收到查詢語句后,即得到醫療問題的答案;
所述查詢語句為Cypher,Cypher是一種用于管理圖數據庫管理系統的編程語言;
所述轉換是基于Cypher模板進行的,將Cypher模板中的X替換成標準實體、Y替換成標準屬性和Z替換成標準屬性值;
所述醫療問題的類別為驗證型問題時,Cypher模板為MATCH(n:dis{name:“X”})-(:attribute{name:“Y”})-(b:“Z”)return count(n);;
所述醫療問題的類別為列表型問題時,Cypher模板為MATCH(n)-(:attribute{name:“Y”})-(b:“Z”)return n;;
所述醫療問題的類別為事實型問題或復雜交互型問題時,Cypher模板為MATCH(n:dis{name:“X”})-(:attr{name:“Y”})-(b:data)returnb;;
所述查詢模塊是Neo4j中的一個功能模塊;
步驟1所述分類器和步驟2所述識別器均為深度學習模型;
所述深度學習模型包括語言處理層、自注意力層、編碼層和解碼層,將醫療問題轉換為向量,再將所述向量作為訓練集對深度學習模型進行訓練,訓練包括:
在語言處理層,對訓練集進行掩碼訓練和次句預測訓練,將語言處理層的輸出作為自注意力層的輸入向量;
在自注意力層,輸入向量乘三個隨機初始化向量,創建一個Query向量、一個Key向量和一個Value向量,用點積計算Query向量和Key向量的相似度,同時利用初始化矩陣的維度對輸出進行調節,然后用相似度除以最后通過softmax函數歸一化,使最后的向量和為1;
所述dk表示Query向量的維度,所述dk為64維;
所述自注意力層的整體公式為
式(2)中:Q表示Query向量,
K表示Key向量,
V表示Value向量;
在編碼層,采用前向、后向兩個長短記憶網絡對輸入序列進行處理,得到編碼向量;
在解碼層,使用編碼向量進行類型判斷,根據類型判斷結果對實體和屬性進行識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢科技大學,未經武漢科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111170907.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于輪胎成品膠料性能的預測方法
- 下一篇:一種冷軋鋼管內壁涂油裝置





