[發明專利]一種基于強化學習算法的實體關系聯合抽取模型構建方法有效
| 申請號: | 201911011199.7 | 申請日: | 2019-10-23 |
| 公開(公告)號: | CN110807069B | 公開(公告)日: | 2022-06-07 |
| 發明(設計)人: | 何霆;孫偲;王華珍;王成;李海波;吳雅婷;許曉泓;廖永新 | 申請(專利權)人: | 華僑大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/36;G06F40/284 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 張松亭;李艾華 |
| 地址: | 362000 福建省*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 算法 實體 關系 聯合 抽取 模型 構建 方法 | ||
本發明公開了一種基于強化學習算法的實體關系聯合抽取模型構建方法,包括:輸入文本,采用聯合抽取標注策略對原始語料中的每條語句的詞語進行實體關系標注;將文本轉化為word2vec向量;預訓練LSTM聯合抽取器;初始化訓練器網絡并打亂袋子順序;計算當前語句獎勵值;計算總期望獎勵值;利用優化函數更新模型參數;如果模型已收斂,對模型進行超參數的調優訓練;如果超參數為最優解,生成最終的實體關系聯合抽取方案。本發明基于策略梯度優化算法構建強化學習模型,能對復雜的自然語言類型原始語料的語句實體關系聯合抽取問題進行有效求解,并能有效提高實體關系抽取的準確率和F1值。
技術領域
本發明涉及知識圖譜構建技術領域,特別涉及一種基于強化學習算法的實體關系聯合抽取模型構建方法。
背景技術
實體和關系的抽取是自然語言處理中知識抽取的關鍵部分和主要環節。傳統的流水線方法首先抽取實體,然后識別實體對之間的關系。這種分離的方式使得兩個任務易于處理,也比較靈活。但事實上,常見的實體抽取和關系抽取這兩項任務有著密切的關系。流水線方法通常會導致一些錯誤的抽取,因為實體抽取中獲取的實體信息可以進一步幫助關系抽取,實體抽取模塊的質量和精度也將影響關系抽取模塊。如果抽取的實體對沒有關系則會帶來不必要的信息,增加了關系抽取的錯誤率,且受噪聲標簽問題的影響較大。在此背景下,聯合抽取方法成為一種有效的求解手段。然而,大多數現有的聯合抽取方法是基于特征的結構化系統,這通常需要復雜的特征工程,并且在某種程度上依賴于其他NLP工具包,這種做法會導致錯誤傳播。但是綜合來看,現有的聯合抽取方法相較于流水線方法能更好的抽取實體和關系。基于此,本專利提出了一種使用策略梯度強化學習算法構建實體關系聯合抽取模型,并且根據現有的策略梯度強化學習算法,網絡輸出的動作可以是一個連續的值,而且該算法可以在一個連續分布上選取動作,這樣可以避免傳統流水線方法和以往聯合抽取方法不能緊密使用實體和關系之間的信息,以及產生多余的其他信息。
發明內容
本發明的目的在于提供一種基于強化學習算法的實體關系聯合抽取模型的構建方法,利用基于強化學習算法的實體關系聯合抽取模型能夠同時抽取實體及其關系,以充分利用實體和關系的聯系信息,提高文本語句的實體關系抽取的準確率,更好地預測復雜文本的實體及其關系,并能有效提高關系抽取的正確率。
為了實現上述目的,本發明的技術方案是:
一種基于強化學習算法的實體關系聯合抽取模型構建方法,采用強化學習算法對輸入的自然語言類型原始語料進行實體和關系的抽取,包括以下步驟:
S1:將原始語料中每條語句的詞語采取聯合抽取標注策略進行標注;標注策略具體表示為:其中該詞在實體中的位置信息標注為{B(實體開始)、I(實體內部)、E(實體結束)、S(單個實體)};關系類型被表示為實體{1,2}的信息,其中{1,2}分別表示為{實體1,實體2};標簽“O”表示除了實體以外的“其他”標簽;
S2:對已標注的語料采用word2vec技術得到語句中詞語的詞向量為ht,將此詞向量ht作為聯合抽取器LSTM網絡輸入層中的輸入值;同時,針對所有語料語句集合S={s1,s2,…,sn},將其具有相同實體對的語句劃分至同一個袋子BK(K∈[1,2,…,N]),從而將原始語料語句集合S形成不同的袋子集合B={B1,B2,…,BN};N表示袋子的個數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華僑大學,未經華僑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911011199.7/2.html,轉載請聲明來源鉆瓜專利網。





