[發明專利]一種裁判文書的文本信息脫敏方法在審
| 申請號: | 202011036947.X | 申請日: | 2020-09-27 |
| 公開(公告)號: | CN112149180A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 葛季棟;李傳藝;惠天宇;黃云云;周筱羽;駱斌 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06F40/289;G06Q50/18;G06F16/335 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 裁判 文書 文本 信息 方法 | ||
1.一種裁判文書的文本信息脫敏方法,其特征在于包含以下步驟:
步驟(1)用戶輸入預處理;
步驟(2)裁判文書預處理;
步驟(3)應用脫敏規則;
步驟(4)敏感信息隱藏;
步驟(5)輸出脫敏后文書。
2.根據權利要求1所述的一種裁判文書的文本信息脫敏方法,其特征在于步驟(1)中用戶輸入預處理,具體子步驟包括:
步驟(1.1)根據后臺設置的所有可進行脫敏處理的脫敏信息項對用戶輸入的期望進行脫敏處理項進行過濾處理;
步驟(1.2)在系統后臺生成相應文件夾,并在此文件夾中接收保存用戶上傳的一個或多個裁判文書文件用于后續脫敏處理。
3.根據權利要求1所述的一種裁判文書的文本信息脫敏方法,其特征在于步驟(2)中對用戶上傳的裁判文書文件進行預處理,具體子步驟包括:
步驟(2.1)重新調整文書結構,使其更易于進行提取敏感信息的操作處理,具體操作包括但不限于將每行文本格式調整為以句號結尾,重新劃分段落結構等;
步驟(2.2)去除無用字符如句首句末、段首段末的空格等。
4.根據權利要求1所述的一種裁判文書的文本信息脫敏方法,其特征在于步驟(3)中應用后臺根據不同脫敏信息設定的脫敏規則,使用相應正則表達式對裁判文書進行匹配處理,并根據其指定特征詞進行進一步篩選和排除,最終生成所有敏感信息在裁判文書文件中的位置坐標集合。具體子步驟包括:
步驟(3.1)根據并使用用戶輸入的待脫敏項處理文書,按照不同脫敏項需要處理信息的不同將裁判文書在內存中拷貝多個副本,然后針對每一個需要脫敏處理的信息項分別開啟一個線程進行進一步具體處理;
步驟(3.2)使用預先根據以往裁判文書中常見的書寫格式和規范進行設計的相應的正則表達式,對每一項需要脫敏處理的信息進行文本匹配:
步驟(3.3)使用上一步經過正則表達式匹配到的文本部分,根據該敏感信息對應的預先設定的相應特征詞進行保留和過濾,并依據這些關鍵詞對該文本部分進行截取或切割;
步驟(3.4)將經過正則匹配以及特征詞處理之后提取到的敏感信息作為敏感詞,在整個裁判文書中進行搜索查詢,并將查詢到的結果所在的行號和偏移量以位置坐標的形式保存,最終構建包含所有待脫敏信息項信息在裁判文書中的位置坐標集合。
5.根據權利要求1所述的一種裁判文書的文本信息脫敏方法,其特征在于步驟(4)中根據上一步驟中得到的所有待脫敏信息項信息在裁判文書中的位置坐標集合,獲取每個敏感信息的位置坐標,從而在裁判文書文件中對應位置進行文本脫敏替換。具體子步驟包括:
步驟(4.1)逐行讀取原裁判文書文件至內存中,將所有文本行保存為文本行字符串集合;
步驟(4.2)依次提取位置坐標集合中的每一個敏感信息對應的位置坐標,對裁判文書文件的每個文本行進行處理;
步驟(4.3)根據脫敏項信息的位置坐標內容對其對應的文本行相應內容進行文本脫敏替換,即使用預先設定的脫敏字符替換指定內容。
6.根據權利要求1所述的一種裁判文書的文本信息脫敏方法,其特征在于步驟(5)輸出脫敏后文書。最終輸出的裁判文書文件仍為用戶原上傳文件格式,且其具體內容除敏感信息位置使用脫敏字符替換外,其余部分與原文件保持一致。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011036947.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于法條關系的法條推薦方法
- 下一篇:一種基于法條共現的法條推薦方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





