[發(fā)明專利]一種基于司法裁判文書的人員社交關(guān)系抽取方法有效

申請?zhí)枺?/td>	202010205874.6	申請日：	2020-03-23
公開（公告）號：	CN111563374B	公開（公告）日：	2022-08-19
發(fā)明（設(shè)計(jì)）人：	萬懷宇;林友芳;武志昊;韓升;王晶;張碩	申請（專利權(quán)）人：	北京交通大學(xué)
主分類號：	G06F40/284	分類號：	G06F40/284;G06F16/31;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08;G06Q50/00;G06Q50/18
代理公司：	北京紅福盈知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11525	代理人：	陳月福
地址：	100044 北京市海淀區(qū)上園***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于司法裁判文書人員社交關(guān)系抽取方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供了一種基于司法裁判文書的人員社交關(guān)系抽取方法，用以解決司法裁判文書中人員社交關(guān)系數(shù)據(jù)處理的問題。所述基于司法裁判文書的人員社交關(guān)系抽取方法，對裁判文書進(jìn)行數(shù)據(jù)清洗、中文分詞以及去停用詞，構(gòu)建基于預(yù)訓(xùn)練語言模型的詞向量學(xué)習(xí)模型，再分別結(jié)合相關(guān)實(shí)體關(guān)聯(lián)關(guān)系和實(shí)體屬性的抽取裁判文書特征并進(jìn)行融合，構(gòu)建關(guān)系抽取模型，抽取裁判文書中相關(guān)人員的社交關(guān)系。本發(fā)明充分挖掘裁判文書數(shù)據(jù)中的實(shí)體關(guān)聯(lián)關(guān)系以及司法實(shí)體的背景信息，支持司法工作人員理清裁判文書中人員之間的社交關(guān)系，挖掘涉案人員潛在的社交關(guān)系，有助于法務(wù)工作者進(jìn)行案件相關(guān)人員的社交關(guān)系發(fā)現(xiàn)，減少了人工調(diào)查的成本。

技術(shù)領(lǐng)域

本發(fā)明屬于司法數(shù)據(jù)處理領(lǐng)域，具體涉及一種基于司法裁判文書的人員社交關(guān)系抽取方法。

背景技術(shù)

隨著計(jì)算機(jī)技術(shù)的發(fā)展，數(shù)據(jù)處理及信息化已滲透進(jìn)每一個領(lǐng)域。在司法信息化改革中，如何利用科學(xué)信息化技術(shù)輔助司法工作人員從海量的司法裁判文書、案件卷宗等文本資料中進(jìn)行信息抽取和整理，已經(jīng)成為司法信息化建設(shè)中的一個研究熱點(diǎn)。司法裁判文書記載了人民法院審理過程和結(jié)果，其中包含大量的相關(guān)人員以及機(jī)構(gòu)等司法實(shí)體。將司法裁判文書中司法實(shí)體之間復(fù)雜的社交關(guān)系抽取出來，有助于司法人員快速了解涉案人員及機(jī)構(gòu)之間的關(guān)系；同時依據(jù)司法裁判文書中的相關(guān)信息以及其他背景信息，挖掘涉案人員潛在的社交關(guān)系，有助于司法工作者理清案件事實(shí)。現(xiàn)有技術(shù)中，尚無專門針對人員社交關(guān)系的數(shù)據(jù)處理。

發(fā)明內(nèi)容

本發(fā)明實(shí)施例提供了一種基于司法裁判文書的人員社交關(guān)系抽取方法，基于預(yù)訓(xùn)練語言模型的詞向量表示模型，提升模型的泛化性能以及復(fù)用性，提高人員社交關(guān)系抽取的準(zhǔn)確率和召回率，支持司法工作人員快速理清裁判文書中人員之間復(fù)雜的社交關(guān)系，挖掘涉案人潛在的社交關(guān)系，為法院等司法機(jī)構(gòu)減少人工調(diào)查的成本，節(jié)省人力物力，推動司法信息化的建設(shè)。

為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案如下：

本發(fā)明實(shí)施例提供了一種基于司法裁判文書的人員社交關(guān)系抽取方法，所述抽取方法包括如下步驟：

步驟S1，對所述司法裁判文書中的文本信息進(jìn)行數(shù)據(jù)清洗、中文分詞，并去掉停用詞，得到分詞后的裁判文書數(shù)據(jù)；

步驟S2，基于所述分詞后的裁判文書數(shù)據(jù)，構(gòu)建基于預(yù)訓(xùn)練語言模型的詞向量學(xué)習(xí)模型；

步驟S3，采用所述裁判文書的詞向量學(xué)習(xí)模型，表示司法實(shí)體共現(xiàn)網(wǎng)絡(luò)中的每個實(shí)體，結(jié)合實(shí)體關(guān)聯(lián)關(guān)系，抽取第一裁判文書特征；

步驟S4，結(jié)合實(shí)體屬性，抽取第二裁判文書特征；

步驟S5，基于所述第一裁判文書特征和第二裁判文書特征，構(gòu)建人員社交關(guān)系抽取模型；

步驟S6，采用所述人員社交關(guān)系抽取模型，對司法裁判文書中的人員社交關(guān)系進(jìn)行抽取。

作為本發(fā)明的一個優(yōu)選實(shí)施例，所述步驟S1包括：

步驟S101，對司法裁判文書中的文本信息進(jìn)行數(shù)據(jù)清洗與存儲；

步驟S102，基于清洗后的司法裁判文書數(shù)據(jù)構(gòu)建法律專業(yè)詞庫和停用詞表。

作為本發(fā)明的一個優(yōu)選實(shí)施例，所述數(shù)據(jù)清洗，進(jìn)一步為，刪除裁判文書中內(nèi)容為空或者描述字段過少、重復(fù)的文本數(shù)據(jù)；檢測并修正裁判文書中的術(shù)語縮寫、常見拼寫錯誤；使用空格替換裁判文書中的全部特殊符號。

作為本發(fā)明的一個優(yōu)選實(shí)施例，所述步驟S2包括：

步驟S201，對所述分詞后的裁判文書進(jìn)行句段分割，得到裁判文書編號、句子編號以及句子內(nèi)容的三元組；

步驟S202，對所述三元組中的句子內(nèi)容進(jìn)行預(yù)處理，得到訓(xùn)練句子語料；

步驟S203，根據(jù)所述訓(xùn)練句子語料對預(yù)訓(xùn)練語言模型進(jìn)行參數(shù)調(diào)整，得到詞向量學(xué)習(xí)模型。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京交通大學(xué)，未經(jīng)北京交通大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010205874.6/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】