[發明專利]一種基于司法裁判文書的人員社交關系抽取方法有效
| 申請號: | 202010205874.6 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN111563374B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 萬懷宇;林友芳;武志昊;韓升;王晶;張碩 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/31;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08;G06Q50/00;G06Q50/18 |
| 代理公司: | 北京紅福盈知識產權代理事務所(普通合伙) 11525 | 代理人: | 陳月福 |
| 地址: | 100044 北京市海淀區上園*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 司法 裁判 文書 人員 社交 關系 抽取 方法 | ||
1.一種基于司法裁判文書的人員社交關系抽取方法,其特征在于,所述抽取方法包括如下步驟:
步驟S1,對所述司法裁判文書中的文本信息進行數據清洗、中文分詞,并去掉停用詞,得到分詞后的裁判文書數據;
步驟S2,基于所述分詞后的裁判文書數據,構建基于預訓練語言模型的詞向量學習模型;
步驟S3,采用所述裁判文書的詞向量學習模型,表示司法實體共現網絡中的每個實體,結合實體關聯關系,提取裁判文書中的句子級語義特征fs作為第一裁判文書特征;
步驟S4,結合實體屬性,抽取第二裁判文書特征;具體包括:
步驟S401,抽取裁判文書中的實體屬性特征;對句子s中的實體ei,從知識庫D中查找實體ei的屬性集合Ai={Ai1,Ai2,......,Aim},然后將Ai中的每個屬性Aij的屬性名Kij和屬性值Vij轉化為向量;對于實體ei,定義其屬性向量的集合KVi={KVi1,KVi2,......,KVim},其中第j個屬性向量表示為KVij=[Kij;Vij];
步驟S402,基于所述實體屬性,抽取裁判文書中的實體特征作為第二裁判文書特征;對于實體ei有屬性向量KVij,首先將屬性值向量Vij通過最大池化操作捕捉重要特征接著,將屬性名向量Kij與S3中的句子級語義特征fs之間通過點乘操作來計算其對該句子中實體關系的重要程度,計算公式如下:
aij=tanh(Kij(W1(fs)T)) (8)
其中W1為參數矩陣;得到屬性的權重分數之后對其進行歸一化,最終各屬性的權重表示gij和實體特征如下:
步驟S5,基于所述第一裁判文書特征和第二裁判文書特征,構建人員社交關系抽取模型;具體包括:
步驟S501,融合第一裁判文書特征和第二裁判文書特征,首先,將句子級語義特征fs與語料級環境特征進行拼接后輸入全連接層,得到語義融合特征;使用語義融合特征和實體特征作為最終分類器的輸入;
步驟S502,將分類器的輸入數據輸入分類器,對裁判文書中的實體關系進行分類;
步驟S6,采用所述人員社交關系抽取模型,對司法裁判文書中的人員社交關系進行抽取。
2.根據權利要求1所述的人員社交關系抽取方法,其特征在于,所述步驟S1包括:
步驟S101,對司法裁判文書中的文本信息進行數據清洗與存儲;
步驟S102,基于清洗后的司法裁判文書數據構建法律專業詞庫和停用詞表。
3.根據權利要求2所述的人員社交關系抽取方法,其特征在于,所述數據清洗,進一步為,刪除裁判文書中內容為空或者描述字段過少、重復的文本數據;檢測并修正裁判文書中的術語縮寫、常見拼寫錯誤;使用空格替換裁判文書中的全部特殊符號。
4.根據權利要求1所述的人員社交關系抽取方法,其特征在于,所述步驟S2包括:
步驟S201,對所述分詞后的裁判文書進行句段分割,得到裁判文書編號、句子編號以及句子內容的三元組;
步驟S202,對所述三元組中的句子內容進行預處理,得到訓練句子語料;
步驟S203,根據所述訓練句子語料對預訓練語言模型進行參數調整,得到詞向量學習模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010205874.6/1.html,轉載請聲明來源鉆瓜專利網。





