[發明專利]一種面向法律領域的實體關系聯合抽取方法在審
| 申請號: | 202011625471.3 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112749283A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 李參宏 | 申請(專利權)人: | 江蘇網進科技股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30;G06N3/04;G06N3/08;G06Q50/18 |
| 代理公司: | 蘇州佳博知識產權代理事務所(普通合伙) 32342 | 代理人: | 唐毅 |
| 地址: | 215300 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 法律 領域 實體 關系 聯合 抽取 方法 | ||
1.一種面向法律領域的實體關系聯合抽取方法,其特征在于,其包括以下步驟:
步驟S1:獲取法律領域的文本,并對其進行實體關系三元組標注,構建法律領域的語料庫;
步驟S2:將步驟S1中的文本的內容進行向量化處理,得到文本的向量表示;
步驟S3:搭建法律領域人物、涉案物件實體關系聯合抽取模型;具體的步驟:
步驟S31:對于步驟S2中得到的每一個字向量xt,利用編碼層的Bi-LSTM分別獲得前向和后向傳播得到的法律領域的文書的特征信息,分別記為
步驟S32:將拼接得到t時刻編碼層的特征向量,記為
步驟S33:將步驟S32編碼層的特征向量輸入到CRF層,用于對法律文書中的人物、涉案物件實體進行識別;將實體識別的結果和編碼層的輸出作為t時刻解碼層Bi-LSTM的輸入,同理分別計算前向和后向傳播得到法律領域的文書的語義信息,分別記為
步驟S34:將進行拼接,得到最終的語義信息即為在t時刻解碼層Bi-LSTM根據文書上下文的信息解析得到的語義向量;
步驟S35:將步驟S34得到的語義向量作為softmax分類器的輸入,分類得到實體對的關系標簽;
步驟S4:對搭建的實體關系聯合抽取模型進行訓練;
步驟S5:利用關系抽取模型,對待處理的法律領域非結構化文書進行人物、涉案物件關系抽取,得到對應的關系三元組。
2.根據權利要求1所述的一種面向法律領域的實體關系聯合抽取方法,其特征在于:所述步驟S1具體為:
步驟S11:根據不同的案件類型,下載法律文書;
步驟S12:對步驟S11處理后的文書進行人物、涉案物品等實體的標注,并對人物-人物、人物-涉案物品進行關系標注,形成關系三元組;
步驟S13:重復步驟S11至步驟S12,直到所有句子都完成標注,即構造法律領域的語料庫。
3.根據權利要求1所述的一種面向法律領域的實體關系聯合抽取方法,其特征在于:所述步驟S2具體為:
步驟S21:對于法律文書中的每一個句子都以字為基本單位,通過使用one-hot編碼方式,對每個字進行one-hot(獨熱)表示,得到句子的one-hot表示;
步驟S22:將句子的one-hot向量作為word2vec模型的輸入,訓練word2vec模型,利用梯度下降算法不斷更新權重矩陣w;
步驟S23:將步驟S22訓練完成的得到的權重矩陣與每個字的one-hot向量相乘,得到每個字的word embedding,最終得到整個語句的word embedding表示。
4.根據權利要求1所述的一種面向法律領域的實體關系聯合抽取方法,其特征在于:所述步驟S4具體為:
步驟S41:對法律領域語料庫進行隨機劃分,令訓練集和測試集的比例為7:3,train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=0.3);
步驟S42:選擇負對數似然函數作為損失函數,由于該模型是實現法律領域人物、涉案物件等實體關系的聯合抽取,因此該損失函數由實體代價函數和關系代價函數兩部分組成,代價函數如下:
其中|S|表示句子的長度,ei、ri表示模型分類出的字符的實體標簽和關系標簽,θ表示模型的參數集合;
步驟S43:使用隨機梯度下降算法不斷更新共享參數θ;
步驟S44:對模型進行訓練,并保存訓練后的模型。
5.根據權利要求4所述的一種面向法律領域的實體關系聯合抽取方法,其特征在于:所述步驟S5具體為:
步驟S51:以步驟S41中獲得的測試集作為模型的輸入,對模型進行測試;
步驟S22:對步驟S51所得到的關系三元組結果進行性能評價,其評價指標采用精確率、召回率和F1值,其評估方法如下:
其中,TP表示分類正確的數量,FP表示把負類預測為正類的數量,FN表示把正類預測為負類的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇網進科技股份有限公司,未經江蘇網進科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011625471.3/1.html,轉載請聲明來源鉆瓜專利網。





