[發(fā)明專利]一種實(shí)體關(guān)系抽取方法、終端設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010047654.5 | 申請(qǐng)日: | 2020-01-16 |
| 公開(公告)號(hào): | CN113130025A | 公開(公告)日: | 2021-07-16 |
| 發(fā)明(設(shè)計(jì))人: | 唐琎;覃若彬;高琰;王艷東 | 申請(qǐng)(專利權(quán))人: | 中南大學(xué) |
| 主分類號(hào): | G16H10/60 | 分類號(hào): | G16H10/60;G16H50/70;G06F40/295;G06F40/30;G06F16/33;G06F16/35 |
| 代理公司: | 長(zhǎng)沙市融智專利事務(wù)所(普通合伙) 43114 | 代理人: | 龔燕妮 |
| 地址: | 410083 湖南*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 實(shí)體 關(guān)系 抽取 方法 終端設(shè)備 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
1.一種實(shí)體關(guān)系抽取方法,其特征在于,包括以下步驟:
步驟1,從電子病歷文本數(shù)據(jù)庫(kù)中人工抽取若干個(gè)符合預(yù)設(shè)實(shí)體關(guān)系的二元實(shí)體對(duì)作為種子實(shí)例;
步驟2,對(duì)每個(gè)種子實(shí)例,均在電子病歷文本數(shù)據(jù)庫(kù)中查找包括種子實(shí)例的句子,并提取該句子的特征向量;
步驟3,基于特征向量對(duì)種子實(shí)例進(jìn)行聚類;均根據(jù)其中種子實(shí)例以及種子實(shí)例相應(yīng)有句子的特征向量,生成與該聚類集群對(duì)應(yīng)的提取模板;
步驟4,使用步驟3得到的提取模板,在電子病歷文本數(shù)據(jù)庫(kù)中提取候選實(shí)例;
其中,每個(gè)提取模板均可提取一組若干個(gè)候選實(shí)例,多個(gè)提取模板均可提取得到同一個(gè)候選實(shí)例;
步驟5,根據(jù)候選實(shí)例的置信度增加新的種子實(shí)例;
步驟5.1,對(duì)步驟3得到的每個(gè)提取模板,均使用由自身提取得到的候選實(shí)例與自身之間的實(shí)體關(guān)系,計(jì)算該提取模板置信度;
步驟5.2,對(duì)步驟4得到的每個(gè)候選實(shí)例,均使用可提取自身的所有提取模板的置信度,計(jì)算該候選實(shí)例的置信度;
步驟5.3,將置信度大于置信度閾值的候選實(shí)例作為新的種子實(shí)例,返回步驟2執(zhí)行下一次迭代,直到達(dá)到預(yù)設(shè)迭代次數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟5.1中計(jì)算每個(gè)提取模板置信度的方法為:
對(duì)由自身提取得到的候選實(shí)例進(jìn)行統(tǒng)計(jì),若候選實(shí)例與提取模板中的2個(gè)實(shí)體相同,則該候選實(shí)例為正提取;若候選實(shí)例與提取模板中的1個(gè)實(shí)體相同,則該候選實(shí)例為負(fù)提取;若候選實(shí)例與提取模板中的2個(gè)實(shí)體均不同,則該候選實(shí)例為未知提取;然后根據(jù)正提取、負(fù)提取和未知提取的數(shù)量,按以下公式計(jì)算該提取模板的置信度:
式中,Confρ(p)表示模板p的置信度,|P|、|N|、|U|分別表示模板p所對(duì)應(yīng)的正提取、負(fù)提取、未知提取的數(shù)量,Wngt、Wunk分別是負(fù)提取和未知提取的權(quán)重;
步驟5.2中計(jì)算候選實(shí)例置信度的方法為:
式中,Confι(i)為候選實(shí)例i的置信度,ξ為候選實(shí)例i的所有提取模板組成的集合,ξj為集合ξ中標(biāo)號(hào)為j的提取模板,Ci為候選實(shí)例i所在的句子;sim(Ci,ξj)表示句子Ci與提取模板ξj之間的相似度。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述候選實(shí)例是指,與提取模板相似度大于相似度閾值的所有符合預(yù)設(shè)實(shí)體關(guān)系的二元實(shí)體對(duì)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,提取每個(gè)句子特征向量的具體過程為:根據(jù)依存句法對(duì)句子進(jìn)行分析,提取句子中的二元實(shí)體對(duì)的所有依存特征,使用skip-gram方法提取每個(gè)依存特征的詞向量,取所有詞向量的平均值作為該句子的特征向量。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,采用single-pass算法對(duì)句子進(jìn)行聚類。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,符合預(yù)設(shè)實(shí)體關(guān)系的二元實(shí)體對(duì)為身體部位,醫(yī)學(xué)描述。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,電子病歷文本數(shù)據(jù)庫(kù)是指,包括若干醫(yī)療電子病歷文本數(shù)據(jù)、并已分句處理、且對(duì)每個(gè)句子進(jìn)行實(shí)體標(biāo)注處理得到的txt文檔。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,預(yù)設(shè)迭代次數(shù)為5次。
9.一種終端設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中南大學(xué),未經(jīng)中南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010047654.5/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 關(guān)系視圖
- 位置關(guān)系檢測(cè)裝置以及位置關(guān)系檢測(cè)系統(tǒng)
- 關(guān)系建模
- 關(guān)系分析方法、關(guān)系分析程序、以及關(guān)系分析裝置
- 實(shí)體關(guān)系分類裝置和實(shí)體關(guān)系分類方法
- 用戶關(guān)系抽取方法和用戶關(guān)系抽取系統(tǒng)
- 融合依存關(guān)系與篇章修辭關(guān)系的事件時(shí)序關(guān)系識(shí)別方法
- 開關(guān)系統(tǒng)
- 視頻視覺關(guān)系檢測(cè)的關(guān)系片段連接方法
- 開關(guān)系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





