[發(fā)明專利]一種基于zero-shot無(wú)監(jiān)督實(shí)體關(guān)系抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910790569.5 | 申請(qǐng)日: | 2019-08-26 |
| 公開(kāi)(公告)號(hào): | CN110555083B | 公開(kāi)(公告)日: | 2021-06-25 |
| 發(fā)明(設(shè)計(jì))人: | 趙青;王丹;馮韋瑋;杜金蓮;付利華 | 申請(qǐng)(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號(hào): | G06F16/28 | 分類號(hào): | G06F16/28 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 zero shot 監(jiān)督 實(shí)體 關(guān)系 抽取 方法 | ||
1.一種基于zero-shot無(wú)監(jiān)督實(shí)體關(guān)系抽取方法,其特征在于包括以下四個(gè)模塊:數(shù)據(jù)預(yù)處理模塊(1)、特征提取模塊(2)、訓(xùn)練關(guān)系抽取網(wǎng)絡(luò)模型(3)、實(shí)體關(guān)系分類器模塊(4);
(1)數(shù)據(jù)預(yù)處理模塊
首先將電子病歷按照“。”、“;”標(biāo)點(diǎn)符號(hào)進(jìn)行分句,其次利用哈工大LTP-Cloud平臺(tái)對(duì)句子進(jìn)行分詞,并提取詞性標(biāo)注和依存句法分析;
(2)特征提取模塊
該模塊分為三個(gè)子模塊,分別是:三元組特征提取、關(guān)系類型特征提取、三元組特征和關(guān)系類型特征相結(jié)合;
(3)訓(xùn)練實(shí)體關(guān)系分類網(wǎng)絡(luò)模塊
采用CNN作來(lái)訓(xùn)練實(shí)體關(guān)系分類模型;對(duì)于每一個(gè)三元組特征和關(guān)系類型特征采用權(quán)重共享的CNN結(jié)構(gòu),并且,為了保持三元組和關(guān)系類型特征的一致性,對(duì)句子做padding操作,對(duì)超出范圍的輸入向量用零進(jìn)行填充;
(4)實(shí)體關(guān)系分類器模塊
根據(jù)神經(jīng)網(wǎng)絡(luò)CNN模型的softmax分類器來(lái)產(chǎn)生最后的實(shí)體關(guān)系標(biāo)簽的分類結(jié)果;
其特征在于,特征提取模塊具體如下:
三元組特征提取(21):三元組特征分為兩個(gè)部分:實(shí)體特征提取和關(guān)系特征提取,具體描述如下:
實(shí)體特征提取:首先將預(yù)處理后的語(yǔ)料映射到已有的醫(yī)療本體中來(lái)識(shí)別實(shí)體信息,輸入長(zhǎng)度為n個(gè)詞組成的句子其中包含兩個(gè)實(shí)體e1=wi和e2=wm(i,m∈[1,n];i≠m);其次采用分布式詞向量模型word2vec將數(shù)據(jù)中的詞轉(zhuǎn)化為d維向量形式,n為句子中詞的個(gè)數(shù),為實(shí)數(shù)空間;
關(guān)系特征提取模塊:采用詞注意力機(jī)制為句子中每個(gè)詞向量學(xué)習(xí)與實(shí)體表示之間的語(yǔ)義關(guān)系,即權(quán)重信息;與實(shí)體對(duì)關(guān)聯(lián)較大的詞會(huì)獲得較高的權(quán)重,反之,那些與實(shí)體對(duì)關(guān)聯(lián)較小的詞會(huì)獲得較低的權(quán)重;首先,將每個(gè)詞的詞向量和兩個(gè)實(shí)體的向量進(jìn)行連接,連接后的向量為xi作為詞語(yǔ)的向量表示,如公式(1)所示:
其中,wo為句子中的詞,wi和wm為句子中的實(shí)體,表示向量拼接;
如公式(2)、(3)和公式(4)所示:
ui=f(Wuxi+bu) (2)
Wu和bu為訓(xùn)練階段的矩陣和偏置參數(shù),ai∈[0,1]為連接后的詞向量xi的權(quán)重得分,并且
其次,抽取權(quán)重最高的兩個(gè)詞作為關(guān)系表示詞,如公式(5)所示:
其中,wl和wf為句子S中與實(shí)體對(duì)關(guān)聯(lián)最大的詞,q為向量拼接后的關(guān)系表示詞,表示向量拼接;
最后,將實(shí)體對(duì)于關(guān)系結(jié)合得出最后的三元組特征表示di,如公式(6)所示:
其中,wi和wm為句子中的實(shí)體,q為向量拼接后的關(guān)系表示詞;
關(guān)系類型特征提取(22):從已有的本體中提取出包含關(guān)系類型的三元組yi={h,r,t),yi∈Y,h為頭實(shí)體,t為尾實(shí)體,r為關(guān)系,Y為關(guān)系類型的數(shù)量Y={y1,y2,...,ym};三元組類型特征表示的具體計(jì)算公式如下:
其中,h為類型yi的頭實(shí)體,t為尾實(shí)體,r為關(guān)系,表示向量拼接;
三元組特征和關(guān)系類型特征相結(jié)合(23):通過(guò)計(jì)算數(shù)據(jù)集中提取出的三元組{d1,d2,...,dn}∈D與領(lǐng)域本體中提取出的關(guān)系類型{y1,y2,...,ym}∈Y之間的語(yǔ)義距離來(lái)對(duì)三元組進(jìn)行分類;具體公式如下:
其中,yi為關(guān)系類型Y中的一個(gè)實(shí)體關(guān)系類型,di為數(shù)據(jù)集D中的一個(gè)三元組特征,R()為yi和di的相似性關(guān)系,maxsimilarity()為相似度計(jì)算方法,α為相似度閾值,初始閾值設(shè)為0.85,步長(zhǎng)為0.01,并采用隨機(jī)梯度下降方法來(lái)計(jì)算誤差,就是使誤差函數(shù)平滑連續(xù)的計(jì)算梯度下降的斜率,越接近最小值梯度越小,直到梯度的斜率達(dá)到最小值就是相似度的最優(yōu)閾值;如果一個(gè)三元組匹配出多個(gè)與其相似的關(guān)系類型,那么就提取相似度系數(shù)最高的類型為該三元組的關(guān)系類型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910790569.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 晶圓測(cè)試方法
- 一種查找缺陷掩模板的方法
- 一種判斷半導(dǎo)體生產(chǎn)中一次光刻結(jié)果的方法
- 一種快速成像序列single-shot EPI-SSFP的產(chǎn)生方法
- DB-SHOT二進(jìn)制特征描述符
- 低延時(shí)開(kāi)啟one-shot語(yǔ)音對(duì)話的方法、外圍設(shè)備及低延時(shí)響應(yīng)的語(yǔ)音交互裝置
- 一種保幅保真線性相干噪音壓制方法及處理終端
- 減小不同產(chǎn)品在爐管中的負(fù)載效應(yīng)的方法
- 基于自對(duì)準(zhǔn)雙重圖形的產(chǎn)品良率在線評(píng)估系統(tǒng)及評(píng)估方法
- 魚鉤(bibibi shot)
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺(jué)訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





