[發(fā)明專利]一種基于本體語義相似度的醫(yī)學(xué)問答方法有效
| 申請?zhí)枺?/td> | 201910867117.2 | 申請日: | 2019-09-12 |
| 公開(公告)號: | CN110706807B | 公開(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計)人: | 郭新龍 | 申請(專利權(quán))人: | 北京四海心通科技有限公司 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G06F16/33;G06F16/332 |
| 代理公司: | 北京市廣友專利事務(wù)所有限責(zé)任公司 11237 | 代理人: | 張仲波 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 本體 語義 相似 醫(yī)學(xué) 問答 方法 | ||
1.一種基于本體語義相似度的醫(yī)學(xué)問答方法,其特征在于,包括:
根據(jù)預(yù)設(shè)詞庫對用戶提問的自然語言問句進(jìn)行分詞處理;
對于分詞后的問句中的專業(yè)詞匯采用基于本體的概念相似度方法計算詞語語義相似度,對于其他詞匯采用知網(wǎng)結(jié)合本體計算詞語語義相似度;
根據(jù)計算出的詞語語義相似度,計算統(tǒng)計句子語義相似度和句子結(jié)構(gòu)相似度,并將計算出的句子語義相似度和句子結(jié)構(gòu)相似度進(jìn)行綜合,計算出用戶提問的問句與預(yù)設(shè)語料庫中問句的句子相似度;
根據(jù)計算出的句子相似度,從預(yù)設(shè)問題庫中抽取句子相似度大于或等于預(yù)設(shè)相似度閾值的問句及其答案作為用戶提問問題的答案;所述預(yù)設(shè)問題庫以PA結(jié)構(gòu)為基礎(chǔ)動態(tài)構(gòu)建,所述PA結(jié)構(gòu)由謂詞和語義組成,所述本體分為事件類本體和論元類本體;所述事件類本體對應(yīng)著PA結(jié)構(gòu)中的謂詞,描述的是動詞性概念,所述論元類本體對應(yīng)著PA結(jié)構(gòu)中的論元,描述的是名詞性概念;
其中,所述計算統(tǒng)計句子結(jié)構(gòu)相似度,具體為:
采用基于規(guī)則的方法計算句子結(jié)構(gòu)相似度,所述基于規(guī)則的方法結(jié)合詞距,句長,同時考慮詞性的作用,綜合三個方面確定句子的結(jié)構(gòu)相似度;其中,
詞距相似度的公式如下:
式中,SameDIs(Qi)表示Q1和Q2中相同關(guān)鍵詞在Qi中的距離,若關(guān)鍵詞重復(fù)出現(xiàn),則以最大距離為準(zhǔn),Dis(Qi)表示句子關(guān)鍵詞中最左及最右關(guān)鍵詞之間的距離,若關(guān)鍵詞重復(fù)出現(xiàn),則以最小距離為準(zhǔn);
句長相似度的公式如下:
式中,Len(Q1)和Len(Q2)分別表示兩個句子的長度;
詞性相似度的公式如下:
式中,WordPro(Q1)和WordPro(Q2)分別表示句子Q1和Q2中關(guān)鍵詞的權(quán)值,SameWordPro(Q1,Q2)表示句子Q1和Q2中相同關(guān)鍵詞的權(quán)值;當(dāng)句子Q1和Q2中關(guān)鍵詞全都相同時,分母達(dá)到最小值;
結(jié)合所述詞距相似度、句長相似度,以及詞性相似度,將三種相似度進(jìn)行線性融合,得到句子結(jié)構(gòu)相似度為:
SynSim=λ1LenSim(Q1,Q2)+λ2DisSim(Q1,Q2)+λ3WordProSim(Q1,Q2) (4)
式中,λ1,λ2,λ3為權(quán)重系數(shù),代表對三種相似度的偏重程度;
所述計算統(tǒng)計句子語義相似度具體為:基于概念語義相似度計算句子語義相似度,所述概念語義相似度計算包括基于距離的概念語義相似度計算、基于屬性的概念語義相似度計算和基于主成分分析的概念語義相似度混合計算;其中,所述基于距離的概念語義相似度計算,具體為:
考慮領(lǐng)域本體類的層次關(guān)系,利用語義重合度、語義層次深度、語義距離和語義距離多種因素,來計算概念的語義相似度;其中,
語義重合度計算公式為:
式中,ParentNum(i)表示i的父節(jié)點個數(shù);分子表示a和b相同父節(jié)點的個數(shù);分母表示a和b父節(jié)點個數(shù)較多的那個;
語義層次深度是指概念在結(jié)構(gòu)樹中所處層次的深度;兩個概念的語義相似度與他們深度之和呈正相關(guān)關(guān)系,與他們的深度之差呈負(fù)相關(guān)關(guān)系;假設(shè)根節(jié)點R的深度為1,i節(jié)點的父節(jié)點用Parent(i)表示,則非根節(jié)點i在本體結(jié)構(gòu)樹中的深度公式為:
Depth(i)=Depth(Parent(i))+1 (6)
本體樹T的深度為:
Depth(T)=Max(Depth(i)) (7)
即本體樹的深度取樹中節(jié)點的最大深度;
語義距離對應(yīng)的相似度公式為:
式中,Dis(a,b)表示節(jié)點a和b在本體結(jié)構(gòu)樹中的最短路徑邊數(shù);
語義密度對應(yīng)的相似度公式如下:
式中,BrotherNum(i)為節(jié)點i的兄弟節(jié)點的個數(shù);
基于公式(5)、公式(6)、公式(7)、公式(8)和公式(9),得到基于距離的概念語義相似度的計算模型:
Sim1(a,b)=αSimoverlap(a,b)-βSimDis(a,b)-γSimDen(a,b) (10)
式中,α,β,γ為權(quán)重系數(shù);
所述基于屬性的概念語義相似度計算的模型如下:
Sim2(c,d)=αProperties(c∩d)-βProperties(c-d)-γProperties(d-c) (11)
其中,Properties(c∩d)表示概念c和d所擁有的公共屬性的集合,Properties(c-d)表示概念c擁有而概念d不擁有的屬性集合,Properties(d-c)則表示概念d擁有而概念c不擁有的屬性集合;
所述基于主成分分析的概念語義相似度混合計算,具體為:
基于主成分分析法對基于距離因素和基于屬性因素計算的數(shù)據(jù)進(jìn)行分析,動態(tài)計算出各個因素的權(quán)重;計算出權(quán)重后對多因素的計算結(jié)果進(jìn)行加權(quán)線性相加得到最終概念語義相似度;其過程包括:
將基于距離的相似度和基于屬性的相似度作為兩個維度,通過多個樣本的計算得到相似度矩陣作為輸入樣本矩陣;
對所述輸入樣本矩陣進(jìn)行矩陣標(biāo)準(zhǔn)化變換為標(biāo)準(zhǔn)矩陣Z,并求出相關(guān)系數(shù)矩陣R1;
求出相關(guān)系數(shù)矩陣R1的特征方程的32個特征根以確定主成分;
解方程組單位特征向量;
轉(zhuǎn)換標(biāo)準(zhǔn)化后的指標(biāo)變量為主成分;
將兩個主成分進(jìn)行加權(quán)并線性求和,即得最終概念語義相似度值,相應(yīng)的權(quán)值為各個主成分的貢獻(xiàn)率;
設(shè)句子Q1和Q2分別含有m個概念W11…W1m和n個概念W21…W2n;
所述基于概念語義相似度計算句子語義相似度,具體為:
從Q1中選出一個概念分別與Q2中的n個概念,計算概念語義相似度,直至Q1中概念循環(huán)完為止,得到概念語義相似度矩陣:
計算第一個概念集與第二個概念集的概念語義平均最大相似度
計算第二個概念集與第一個概念集的概念的平均最大相似度
計算公式(13)和(14)結(jié)果,求平均值,得到句子語義相似度
所述用戶提問的問句與預(yù)設(shè)語料庫中問句的句子相似度定義如下:
Sim=(1-η)SynSim+ηSemSim (16)
其中,η為權(quán)重系數(shù),當(dāng)η為1時,表示只使用語義相似度;當(dāng)η為0時表示只使用句子結(jié)構(gòu)相似度;
所述根據(jù)預(yù)設(shè)詞庫對用戶提問的自然語言問句進(jìn)行分詞處理,具體為:
根據(jù)預(yù)設(shè)詞庫對用戶提問的自然語言問句通過正向最大匹配的方法進(jìn)行分詞處理,并將其中的未登記詞借助于預(yù)設(shè)分詞工具添加到預(yù)設(shè)詞庫中;
在所述根據(jù)計算出的句子相似度,從預(yù)設(shè)問題庫中抽取句子相似度大于或等于預(yù)設(shè)相似度閾值的問句及其答案后,所述方法還包括:
按照句子相似度大小對抽取的問句及其答案進(jìn)行排序,選取前五個問句及其答案作為用戶提問問題的答案。
2.如權(quán)利要求1所述的基于本體語義相似度的醫(yī)學(xué)問答方法,其特征在于,在所述根據(jù)預(yù)設(shè)詞庫對用戶提問的自然語言問句進(jìn)行分詞處理后,所述方法還包括:對于分好詞的問句根據(jù)詞的類型,將屬于停用詞庫的詞刪除。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京四海心通科技有限公司,未經(jīng)北京四海心通科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910867117.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





