[發明專利]基于關系觸發詞與GRU模型的關系抽取方法及裝置有效
| 申請號: | 201910586364.5 | 申請日: | 2019-07-01 |
| 公開(公告)號: | CN110377753B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 包鐵;劉露;王磊;葛亮;謝文慧 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/289 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 李冉 |
| 地址: | 130012 吉林*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關系 觸發 gru 模型 抽取 方法 裝置 | ||
1.基于關系觸發詞與GRU模型的關系抽取方法,其特征在于,包括:
對待處理的句子進行句法依存分析,獲取句子中的關系觸發詞;所述關系觸發詞為用來說明實體對構成的實體關系所表達意義的詞語;
將所述關系觸發詞與給定的實體對通過Word2Vec模型轉換成詞向量;
將所述詞向量輸入GRU分類模型進行關系抽取;
其中,對待處理的句子進行句法依存分析,獲取句子中的關系觸發詞,包括:輸入待處理句子s及實體對(e1,e2);
對待處理句子s進行分詞、詞性標注以及句法依存分析,得到標注后的單詞序列W以及依存關系圖G={V,E};其中V={v1,v2,...,vn}表示句子中單詞節點集合,E表示單詞節點之間的句法依存關系的集合,vi表示單詞節點,i∈{1,2,...,n};
計算單詞節點vi到實體對(e1,e2)的依存距離dd和序列距離sd;根據所述依存距離dd和序列距離sd,計算各個單詞對應的評估值;
選擇除實體對之外評估值最小且符合預設條件的單詞作為關系觸發詞;所述預設條件表示詞性是名詞、動詞、形容詞、副詞或介詞;
所述評估值使用依存距離與序列距離的和作為評估值來選擇關系觸發詞;
所述依存距離dd和序列距離sd包括:
采用其到實體對中每個實體的依存距離的幾何平均數作為其到實體對的依存距離,即:
其中,dd(vi,e1)與dd(vi,e2)分別表示單詞節點vi到實體節點e1與實體節點e2的依存距離;
給定單詞序列W={w1,w2,…,wn},若wk為實體單詞e,則單詞wi到實體e的序列距離為:
sd(wi,e)=|i-k|
用單詞在原始序列中到實體對中每個實體的序列距離的平均值作為單詞到實體對的序列距離,計算方式如下:
其中,sd(wi,e1)與sd(wi,e2)分別是單詞wi到實體對e1與e2的序列距離。
2.如權利要求1所述的方法,其特征在于,將所述關系觸發詞與給定的實體對通過Word2Vec模型轉換成詞向量,包括:選擇除實體對之外評估值最小且符合預設條件的t個單詞作為關系觸發詞;
將實體對(e1,e2)加入到t個所述關系觸發詞中,按照句子中的原始序列進行排序;
輸入訓練后的Word2Vec模型轉換成詞向量;所述Word2Vec模型為采用維基百科數據作為訓練數據進行訓練。
3.如權利要求1所述的方法,其特征在于,所述GRU分類模型由單層GRU層、dropout層以及Softmax層構成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910586364.5/1.html,轉載請聲明來源鉆瓜專利網。





