[發明專利]迭代式實體關系抽取方法有效
| 申請號: | 201910546710.7 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110275928B | 公開(公告)日: | 2022-11-22 |
| 發明(設計)人: | 于兵;汪衛;陳雄;馬柯;余榮貴 | 申請(專利權)人: | 復旦大學;上海延華智能科技(集團)股份有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/36 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 張磊 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 迭代式 實體 關系 抽取 方法 | ||
1.迭代式實體關系抽取方法,其特征在于具體步驟如下:
(1):對迭代式實體關系抽取方法進行訓練
(1.1):從實體關系庫中按時間倒序方式,分批次取出固定數量的實體關系集和與其對應的句子;將該句子編碼為詞向量的形式,將句子中的每個詞語的詞性、該詞語與實體詞之間的距離編碼后連接到單詞的詞向量中,將編碼后的結果輸入到實體關系抽取模型中;所述實體關系抽取模型是一個可替換的神經網絡模型,使用PCNN模型進行替代;在模型訓練的過程中根據輸入的詞向量信息、位置信息和詞性信息可以提取句子的語法和語義特征;
(1.2):PCNN模型會提取句子中語法語義特征、詞性特征和距離特征,根據輸入的語法語義特征、詞性特征和距離特征,利用神經網絡模型的卷積神經網絡輸出一個包含以上特征的特征向量,使用該特征向量用來表示當前句子;
(1.3):實體和關系的抽取過程就是從句子中抽取出包含實體和兩個實體見關系的三元組信息,句子中包含的三元組信息可以表示為(實體1,關系,實體2)的形式;所有關系的類別編碼成一個矩陣;將步驟(1.2)得到的表示當前句子的特征向量與關系中的類別信息組成的矩陣相乘輸出一個向量,該向量就可以對當前句子中包含的實體間的關系的預測,預測后得到的關系是一個準關系,即完成實體關系抽取模型訓練階段;在實體關系抽取模型訓練階段,使用預測得到的關系和句子本身真實的關系對網絡神經模型進行梯度下降優化;
(1.4):在步驟(1.3)對實體關系抽取模型訓練的時候,同時對異常關系檢測模型進行訓練,取非實體關系庫中的實例查找是否包含異常關系實例,采用人工方式確認這些異常并系實例,如果是異常關系,不做任何處理,反之,剔除出異常數據集;將確認的異常關系實例放入異常實例檢測網絡中訓練,異常實例網絡訓練也是一個神經網絡,這個神經網絡使用的雙向LSTM后接全連接層和ReLu激活函數實現二分類,從而達到對異常關系檢測模型的訓練;
(2):使用步驟(1)訓練好的模型對新的數據庫中的實體關系進行抽取
(2.1):待抽取的實體關系抽取模型中的句子同樣使用詞向量模型對輸入的句子進行詞向量化,每個單詞編碼為詞向量,同時將單詞的詞性特征編碼為向量,每個詞語與實體詞之間的距離作為距離特征也編碼為向量,將每個單詞的這三個特征向量連接,組成句子的向量矩陣;
(2.2):將步驟(2.1)得到的句子向量矩陣輸入到實體關系抽取模型中,使用步驟(1)訓練好的實體關系抽取模型提取輸入向量矩陣的特征信息,最終的結果輸出一個可以表征待抽取實體關系句子的向量;
(2.3):使用步驟(2.2)得到的可以表征待抽取實體關系句子的向量與所有預定義關系編碼的矩陣相乘,得到待預測句子在預定義關系下的表示;
(2.4):使用softmax輸出待抽取關系的句子在所有預定義關系編碼下的概率,取概率值最大的關系作為抽取到的關系;
(2.5):將步驟(2.4)中抽取到的關系作為異常關系檢測模型中LSTM初始隱藏層的輸入,將步驟(2.1)中得到的向量矩陣作為LSTM的輸入,將這兩部分輸入輸入到異常關系檢測模型中對關系是否為合法的關系進行預測,在這個階段得到的二分類的結果中兩個分類結果的值相差越大越好,使用這個二分類結果的差值決定抽取到的關系是否是一個真正的合法的關系。
2.根據權利要求1所述的迭代式實體關系抽取方法,其特征在于在系統進行訓練的過程中如果有數據集輸入到系統中,需要停止訓練,對當前的訓練現場保存,之后加載之前訓練好并保存的訓練模型參數,對數據集進行實體關系抽取,抽取完畢后繼續加載之前保存的訓練現場繼續進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學;上海延華智能科技(集團)股份有限公司,未經復旦大學;上海延華智能科技(集團)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910546710.7/1.html,轉載請聲明來源鉆瓜專利網。





