[發明專利]迭代式實體關系抽取方法有效
| 申請號: | 201910546710.7 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110275928B | 公開(公告)日: | 2022-11-22 |
| 發明(設計)人: | 于兵;汪衛;陳雄;馬柯;余榮貴 | 申請(專利權)人: | 復旦大學;上海延華智能科技(集團)股份有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/36 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 張磊 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 迭代式 實體 關系 抽取 方法 | ||
本發明涉及一種迭代式實體關系抽取方法,包括對迭代式實體關系抽取方法進行訓練,以及使用訓練好的模型對新的數據庫中的實體關系進行抽取。本發明涉及到兩個神經網絡結構,一個是實體和關系抽取網絡,另一個是異常實例發現網絡,這兩個網絡結構是可以靈活改變的,在這網絡中可以逐步添加一些新的數據特征,而不需要改變其他的結構。本發明人工確認非異常關系實例可以使用一種二分類分類器,這個過程不需要說明當前實例是否是某一種關系,只需要判斷這個實例是否是一種關系就可以了,因此使用一個二分類的分類器可以避免人工干預。
技術領域
本發明涉及知識庫創建過程中的實體和關系抽取方法,具體涉及一種迭代式實體關系抽取方法。
背景技術
在現有的技術中,主要采用神經網絡中的監督學習算法或者遠監督學習算法,在使用這些算法的過程中就需要提取語料的特征,這些特征也是通過自然語言處理工具產生。然后將這些特征輸入到神經網絡中。在訓練數據有限的情況下,使用自然語言提取的特征也就不會豐富,并且在使用自然語言處理工具提取特征還會出現錯誤傳播的現象。使用遠監督學習算法也會出現錯誤的示例,而這些實例也就會加入到知識庫中。
在很多關系抽取中,抽取過程往往都是一次性的,沒有考慮到抽取的迭代過程,如果在監督學習中加入迭代過程,這樣就不會出現訓練集稀少的問題。抽取過程中不可避免地會出現一些錯誤的實體和關系加入到知識庫中,所以需要一種異常數據檢測,在完善知識庫的過程中不斷地將知識庫更加精確。
知識庫的構建對生產和生活中的諸多領域都會產生深遠的影響。其中實體和關系的抽取是知識庫創建過程中的最重要環節之一。在實體和關系抽取的過程中我們希望抽取的實體和關系覆蓋更多的領域,并且在使用的過程中盡可能地滿足不同領域的用戶需求,除此之外還需要更加精確地滿足要求。覆蓋更多的領域就需要有大量的樣本數據,并且不斷地在日益增加的數據中不斷發現新的實體和關系。本方法實現的就是通過迭代的方式不斷發現數據中的實體和關系,并且逐步將知識庫更加的細化和精確。
比如在自動問答系統中,提問的方式各種各樣。有的提問的目標在最開始,有的是在末尾,還有的是中間。所以構建一個比較精確的知識庫可以適應各種問答場景,因為問答中始終是圍繞著一個中心實體或者實體對的關系展開的。并且知識庫不能是一成不變的,還要處于不斷的更新和迭代中,這樣才能將新的知識納入到知識庫中,使用舊的知識不斷發現新的知識,不斷擴充知識庫,這樣才是一個比較完備和魯棒的知識庫系統。
發明內容
本發明的目的是提供一種迭代式實體關系抽取方法,用以解決目前存在的實體和關系抽取方法不能實現迭代化的過程和異常關系和實體檢測的問題。本發明旨在通過將遠監督抽取方法使用不斷迭代的方式,在這個迭代的過程中不斷發現語料中新的特征,不斷地將新的特征加入到訓練語料,通過不斷迭代的方式在語料庫中發現更多的實體和關系的過程。
本發明提出的迭代式實體關系抽取方法,具體步驟如下:
(1):對迭代式實體關系抽取方法進行訓練
(1.1):從實體關系庫中按時間倒序方式,分批次取出固定數量的實體關系集和與其對應的句子;將該句子編碼為詞向量的形式,將句子中的每個詞語的詞性、該詞語與實體詞之間的距離編碼后連接到單詞的詞向量中,將編碼后的結果輸入到實體關系抽取模型中;所述實體關系抽取模型是一個可替換的神經網絡模型,使用PCNN模型進行替代;在模型訓練的過程中,根據輸入的詞向量信息、位置信息和詞性信息可以提取句子中的語法語義特征;
(1.2):PCNN模型提取句子中語法語義特征、詞性特征和距離特征,根據輸入的語法語義特征、詞性特征和距離特征,利用神經網絡模型的卷積神經網絡輸出一個包含以上特征的特征向量,使用該特征向量用來表示當前句子;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學;上海延華智能科技(集團)股份有限公司,未經復旦大學;上海延華智能科技(集團)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910546710.7/2.html,轉載請聲明來源鉆瓜專利網。





