[發明專利]一種基于知識圖譜的醫療查詢擴展方法有效
| 申請號: | 202110454713.5 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN113076411B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 方鈺;崔雪;翟鵬珺 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F40/35;G16H80/00;G06N5/04 |
| 代理公司: | 上海科律專利代理事務所(特殊普通合伙) 31290 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 醫療 查詢 擴展 方法 | ||
1.一種基于知識圖譜的醫療查詢擴展方法,其特征在于,包括:
步驟1、對醫療問答對數據集進行預處理;
1.1整合問答對數據集
刪除表達不明確、未包含答案、問句或答句包含圖片的無效問答對,為了確保數據集的平衡性,有利于后續分類操作,對除疾病診斷類、疾病癥狀類、疾病治療類、疾病原因類四大類之外的其他類問答對進行刪除;將整合好的數據集提供給步驟1.2;
1.2去除停用詞
利用停用詞詞表去除問答對數據集中問句的停用詞,包括使用頻率高又無實際含義的詞匯;去除停用詞后的結果提供給步驟1.4;
1.3整合領域詞典
通過整合已有的各類醫療實體詞典構造醫療領域詞典,所述醫療領域詞典包括疾病、癥狀、藥物、檢查四類;
1.4將領域詞典加入jieba分詞器的字典,使用jieba分詞器對問答對數據集中的問句進行分詞;
分詞后即完成了步驟1對于問答對數據集的預處理工作,將預處理后的數據集中的問句提供給步驟2、步驟3和步驟4,將領域詞典提供給步驟3、步驟4;
步驟2、訓練SVM分類器對問句進行查詢意圖預測;
2.1標注問句分類標簽
對步驟1得到的部分問句進行意圖類別標記,若問句的查詢意圖屬于疾病診斷類,標注為0;若問句的查詢意圖屬于疾病治療類,標注為1;若問句的查詢意圖屬于疾病癥狀類,標注為2;若問句的查詢意圖屬于診斷加治療類,標注為3;若問句的查詢意圖屬于疾病原因類,標注為4;標注后的結果提供給步驟2.2;
2.2半監督訓練SVM意圖分類器
本方法采用自訓練的半監督方法訓練意圖分類器,初始分類器使用對樣本不均衡的支持向量機SVM算法;分類器的訓練需要用到問句的兩個特征(1)TF-IDF特征;(2)問句疑問詞特征:
(1)TF-IDF是一種在文本分類中常用的特征向量化的方法,它通過詞頻TermFrequency和逆向文件頻率Inverse Document Frequency反映詞語在整體語料庫中的重要性,計算公式如下:
其中,t代表某個詞的詞頻,N代表文檔的總詞數,x代表文檔總數,w代表該詞在w個文檔中出現;
(2)統計數據集得到四種類別問句的疑問特征詞,使用離散特征編碼處理問句,判斷是否包含值為0或1類別的問句疑問特征詞;
將訓練得到的意圖分類器提供給步驟2.3;
2.3將待分類的問句輸入已訓練好的SVM分類器,并將分類結果即問題的查詢意圖提供給步驟3;
步驟3、結合步驟2得到的查詢意圖從醫療知識圖譜中獲取與查詢相關的候選擴展詞:
3.1醫學知識圖譜獲取
從公開的中文醫療全科知識圖譜中抽取標記為兒科科室的三元組,并利用基于BERT的關系抽取方法從39健康網中爬取的兒科問答語料獲得兒科醫療實體關系,從而將兩者整合出中文兒科知識圖譜;將圖譜提供給步驟3.4;
3.2統計數據集中的否定特征詞和終止特征詞;提供給步驟3.3和步驟4.1;
3.3查詢關鍵詞獲取
根據步驟2.3提供的問句意圖類別標簽,結合步驟1.3得到的領域詞典,對句子的初始查詢關鍵詞進行篩選;篩選依據為對于疾病診斷類問句選取癥狀實體作為初始查詢關鍵詞,對于疾病治療類問句選取疾病實體作為初始查詢關鍵詞,對于詢問癥狀類問句選取疾病實體作為初始查詢關鍵詞,對于診斷加治療類問句選取癥狀實體作為初始查詢關鍵詞;之后利用否定項與終止項去除初始查詢關鍵詞中的否定醫學術語得到最終的查詢關鍵詞;具體思路是以否定項與終止項為界確定否定窗口,否定窗口中的醫學術語均被標記為否定醫學術語,其中否定項為步驟3.2得到的否定特征詞,終止項包括步驟3.2得到的終止特征詞以及逗號、句號和分號;將獲取到的查詢關鍵詞提供給步驟3.4;
3.4候選擴展詞獲取
結合步驟3.3的查詢關鍵詞與步驟2.3得到的查詢意圖,基于如下推理公式可推出可能在答案中存在的醫學術語類型;
[rule:(Q belongsTo C),(Q hasEntity M)→(A hasEntity N)]
公式中,Q代表問題,A代表答案,C代表查詢意圖,M代表查詢中篩選出的醫學術語類型,N代表答案中對應的醫學術語類型;
對于疾病診斷類的句子,從知識圖譜中獲取查詢關鍵詞可能對應的疾病實體,并對查詢中每種癥狀得到的疾病實體取交集作為最終的候選擴展詞;
對于疾病治療類、詢問癥狀類的句子,從知識圖譜中分別選取查詢關鍵詞對應的藥物實體和對應的典型癥狀作為候選擴展詞;
對于診斷加治療類的復合型問句,則按疾病診斷類句子的處理方法先查詢到疾病實體,然后按照疾病治療類句子的處理方法,根據疾病實體查詢到常用的藥物實體,最后把疾病實體與藥物實體同作為候選擴展詞進行輸出;
對于疾病原因類句子,暫不處理此類型的問句;
得到的候選擴展詞列表提供給步驟4;
步驟4、利用否定醫學術語識別技術與互信息技術篩選步驟3中得到的候選擴展詞,從而得到最終的擴展詞:
4.1對問答對數據集中的所有否定醫學術語進行標記,標記方法與步驟3.3中介紹的標記方法相同;標記的結果提供給步驟4.2;
4.2計算擴展詞與整體查詢的歸一化互信息值,篩選得到最終擴展詞
計算步驟3.4中每個候選擴展詞與整體查詢的互信息量,選取歸一化互信息量小于擴展閾值的候選擴展詞作為查詢的最終擴展詞;兩個詞的互信息量計算公式如下:
共現窗口選取一組問答句的范圍,c(w1,w2)表示詞匯w1出現在共現窗口中的問句而w2同時出現在窗口內對應答句時的次數,c(w1)表示醫學術語w1在語料集中出現的次數,c(w2)表示醫學術語w2在語料集中出現的次數,N表示語料集中所有醫學術語的個數;在互信息矩陣的計算階段,不予統計步驟4.1標記的否定醫學術語相關的詞頻;
假設初始查詢Q中每個關鍵醫學術語qi間相互獨立,擴展詞與整體查詢語句之間互信息值的計算公式如下所示:
M(Q)=∑qi∈QI(qi,w)
為方便設置篩選閾值,歸一化得到的互信息值,公式如下所示,其中Mmax、Mmin分別代表M(Q)的最大、最小值;
NM(Q)=(Mmax-M(Q))/(Mmax-Mmin)
候選擴展詞中與整體查詢的歸一化互信息值NM(Q)小于擴展閾值的術語成為最終擴展詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110454713.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據通信方法、裝置以及系統
- 下一篇:一種影像級熱轉印輥涂涂料





