[發明專利]一種面向法律領域的實體關系聯合抽取方法在審
| 申請號: | 202011625471.3 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112749283A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 李參宏 | 申請(專利權)人: | 江蘇網進科技股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30;G06N3/04;G06N3/08;G06Q50/18 |
| 代理公司: | 蘇州佳博知識產權代理事務所(普通合伙) 32342 | 代理人: | 唐毅 |
| 地址: | 215300 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 法律 領域 實體 關系 聯合 抽取 方法 | ||
本發明公開一種面向法律領域的實體關系聯合抽取方法,其包括以下步驟:獲取法律領域的文本,并對其進行實體關系三元組標注,構建法律領域的語料庫;將步驟文本的內容進行向量化處理,得到文本的向量表示;搭建法律領域人物、涉案物件實體關系聯合抽取模型;對搭建的實體關系聯合抽取模型進行訓練;利用關系抽取模型,對待處理的法律領域非結構化文書進行人物、涉案物件關系抽取,得到對應的關系三元組。本發明有益效果:能夠更加準確挖掘法律領域中人物、涉案物件等實體之間的關系。
技術領域
本發明涉及實體關系聯合抽取領域,尤其涉及一種面向法律領域的實體關系聯合抽取方法。
背景技術
法律領域中存在大量人物、涉案物件等實體,且實體之間關系錯綜復雜,難以對法律領域文書中的知識進行高效整合,因此,挖掘法律領域中人物、涉案物件等實體的關系三元組,從而對法律領域相關文書形成結構化知識表示,進而幫助法律相關的從業人員更準確的掌握案情、分析案情,為智能法律中的類案推送、量刑預測等智能服務提供支撐。
目前關系抽取領域大多是采用的管道式抽取方法,即先抽取實體,再對實體進行兩兩組合進行關系預測。管道式抽取方法易實現,但存在誤差傳播的問題,關系抽取的性能在一定程度上取決于實體抽取的性能,并且管道式抽取會產生大量的冗余數據,難以滿足法律領域,尤其是針對法律領域對案情精準掌握的需求。
因此,有必要提供一種新的抽取方法解決上述問題。
發明內容
為解決上述背景技術中提出的問題。本發明提供了一種面向法律領域的實體關系聯合抽取方法,更加準確挖掘法律領域中人物、涉案物件等各實體之間的關系,可在法律領域對案情精準掌握的需求。
為實現上述目的,本發明提供如下技術方案:一種面向法律領域的實體關系聯合抽取方法,其包括以下步驟:
步驟S1:獲取法律領域的文本,并對其進行實體關系三元組標注,構建法律領域的語料庫;步驟S2:將步驟S1中的文本的內容進行向量化處理,得到文本的向量表示;步驟S3:搭建法律領域人物、涉案物件實體關系聯合抽取模型;具體的步驟:步驟S31:對于步驟S2中得到的每一個字向量xt,利用編碼層的Bi-LSTM分別獲得前向和后向傳播得到的法律領域的文書的特征信息,分別記為步驟S32:將拼接得到t時刻編碼層的特征向量,記為步驟S33:將步驟S13編碼層的特征向量輸入到CRF層,用于對法律文書中的人物、涉案物件實體進行識別;將實體識別的結果和編碼層的輸出作為t時刻解碼層Bi-LSTM的輸入,同理分別計算前向和后向傳播得到法律領域的文書的語義信息,分別記為步驟S34:將進行拼接,得到最終的語義信息即為在t時刻解碼層Bi-LSTM根據文書上下文的信息解析得到的語義向量;步驟S35:將步驟15得到的語義向量作為softmax分類器的輸入,分類得到實體對的關系標簽;步驟S4:對搭建的實體關系聯合抽取模型進行訓練;步驟S5:利用關系抽取模型,對待處理的法律領域非結構化文書進行人物、涉案物件關系抽取,得到對應的關系三元組。
所述步驟S1具體為:
步驟S11:根據不同的法律案件類型,從中國裁判文書網等網站中下載法律文書;步驟S12:對步驟S11處理后的文書進行人物、涉案物品等實體的標注,并對人物-人物、人物-涉案物品進行關系標注,形成關系三元組;步驟S13:重復步驟S11至步驟S12,直到所有句子都完成標注,即構造法律領域的語料庫。
所述步驟S2具體為:步驟S21:對于法律文書中的每一個句子都以字為基本單位,通過使用one-hot編碼方式,對每個字進行one-hot(獨熱)表示,得到句子的one-hot表示;步驟S22:將句子的one-hot向量作為word2vec模型的輸入,訓練word2vec模型,利用梯度下降算法不斷更新權重矩陣w;步驟S23:將步驟S22訓練完成的得到的權重矩陣與每個字的one-hot向量相乘,得到每個字的word embedding,最終得到整個語句的word embedding表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇網進科技股份有限公司,未經江蘇網進科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011625471.3/2.html,轉載請聲明來源鉆瓜專利網。





