[發(fā)明專利]一種基于司法裁判文書的人員社交關(guān)系抽取方法有效
| 申請?zhí)枺?/td> | 202010205874.6 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN111563374B | 公開(公告)日: | 2022-08-19 |
| 發(fā)明(設(shè)計(jì))人: | 萬懷宇;林友芳;武志昊;韓升;王晶;張碩 | 申請(專利權(quán))人: | 北京交通大學(xué) |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/31;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08;G06Q50/00;G06Q50/18 |
| 代理公司: | 北京紅福盈知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11525 | 代理人: | 陳月福 |
| 地址: | 100044 北京市海淀區(qū)上園*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 司法 裁判 文書 人員 社交 關(guān)系 抽取 方法 | ||
本發(fā)明提供了一種基于司法裁判文書的人員社交關(guān)系抽取方法,用以解決司法裁判文書中人員社交關(guān)系數(shù)據(jù)處理的問題。所述基于司法裁判文書的人員社交關(guān)系抽取方法,對裁判文書進(jìn)行數(shù)據(jù)清洗、中文分詞以及去停用詞,構(gòu)建基于預(yù)訓(xùn)練語言模型的詞向量學(xué)習(xí)模型,再分別結(jié)合相關(guān)實(shí)體關(guān)聯(lián)關(guān)系和實(shí)體屬性的抽取裁判文書特征并進(jìn)行融合,構(gòu)建關(guān)系抽取模型,抽取裁判文書中相關(guān)人員的社交關(guān)系。本發(fā)明充分挖掘裁判文書數(shù)據(jù)中的實(shí)體關(guān)聯(lián)關(guān)系以及司法實(shí)體的背景信息,支持司法工作人員理清裁判文書中人員之間的社交關(guān)系,挖掘涉案人員潛在的社交關(guān)系,有助于法務(wù)工作者進(jìn)行案件相關(guān)人員的社交關(guān)系發(fā)現(xiàn),減少了人工調(diào)查的成本。
技術(shù)領(lǐng)域
本發(fā)明屬于司法數(shù)據(jù)處理領(lǐng)域,具體涉及一種基于司法裁判文書的人員社交關(guān)系抽取方法。
背景技術(shù)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)處理及信息化已滲透進(jìn)每一個領(lǐng)域。在司法信息化改革中,如何利用科學(xué)信息化技術(shù)輔助司法工作人員從海量的司法裁判文書、案件卷宗等文本資料中進(jìn)行信息抽取和整理,已經(jīng)成為司法信息化建設(shè)中的一個研究熱點(diǎn)。司法裁判文書記載了人民法院審理過程和結(jié)果,其中包含大量的相關(guān)人員以及機(jī)構(gòu)等司法實(shí)體。將司法裁判文書中司法實(shí)體之間復(fù)雜的社交關(guān)系抽取出來,有助于司法人員快速了解涉案人員及機(jī)構(gòu)之間的關(guān)系;同時依據(jù)司法裁判文書中的相關(guān)信息以及其他背景信息,挖掘涉案人員潛在的社交關(guān)系,有助于司法工作者理清案件事實(shí)。現(xiàn)有技術(shù)中,尚無專門針對人員社交關(guān)系的數(shù)據(jù)處理。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種基于司法裁判文書的人員社交關(guān)系抽取方法,基于預(yù)訓(xùn)練語言模型的詞向量表示模型,提升模型的泛化性能以及復(fù)用性,提高人員社交關(guān)系抽取的準(zhǔn)確率和召回率,支持司法工作人員快速理清裁判文書中人員之間復(fù)雜的社交關(guān)系,挖掘涉案人潛在的社交關(guān)系,為法院等司法機(jī)構(gòu)減少人工調(diào)查的成本,節(jié)省人力物力,推動司法信息化的建設(shè)。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
本發(fā)明實(shí)施例提供了一種基于司法裁判文書的人員社交關(guān)系抽取方法,所述抽取方法包括如下步驟:
步驟S1,對所述司法裁判文書中的文本信息進(jìn)行數(shù)據(jù)清洗、中文分詞,并去掉停用詞,得到分詞后的裁判文書數(shù)據(jù);
步驟S2,基于所述分詞后的裁判文書數(shù)據(jù),構(gòu)建基于預(yù)訓(xùn)練語言模型的詞向量學(xué)習(xí)模型;
步驟S3,采用所述裁判文書的詞向量學(xué)習(xí)模型,表示司法實(shí)體共現(xiàn)網(wǎng)絡(luò)中的每個實(shí)體,結(jié)合實(shí)體關(guān)聯(lián)關(guān)系,抽取第一裁判文書特征;
步驟S4,結(jié)合實(shí)體屬性,抽取第二裁判文書特征;
步驟S5,基于所述第一裁判文書特征和第二裁判文書特征,構(gòu)建人員社交關(guān)系抽取模型;
步驟S6,采用所述人員社交關(guān)系抽取模型,對司法裁判文書中的人員社交關(guān)系進(jìn)行抽取。
作為本發(fā)明的一個優(yōu)選實(shí)施例,所述步驟S1包括:
步驟S101,對司法裁判文書中的文本信息進(jìn)行數(shù)據(jù)清洗與存儲;
步驟S102,基于清洗后的司法裁判文書數(shù)據(jù)構(gòu)建法律專業(yè)詞庫和停用詞表。
作為本發(fā)明的一個優(yōu)選實(shí)施例,所述數(shù)據(jù)清洗,進(jìn)一步為,刪除裁判文書中內(nèi)容為空或者描述字段過少、重復(fù)的文本數(shù)據(jù);檢測并修正裁判文書中的術(shù)語縮寫、常見拼寫錯誤;使用空格替換裁判文書中的全部特殊符號。
作為本發(fā)明的一個優(yōu)選實(shí)施例,所述步驟S2包括:
步驟S201,對所述分詞后的裁判文書進(jìn)行句段分割,得到裁判文書編號、句子編號以及句子內(nèi)容的三元組;
步驟S202,對所述三元組中的句子內(nèi)容進(jìn)行預(yù)處理,得到訓(xùn)練句子語料;
步驟S203,根據(jù)所述訓(xùn)練句子語料對預(yù)訓(xùn)練語言模型進(jìn)行參數(shù)調(diào)整,得到詞向量學(xué)習(xí)模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京交通大學(xué),未經(jīng)北京交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010205874.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





