[發明專利]一種面向裁判文書的文本分類方法在審
| 申請號: | 201810596864.2 | 申請日: | 2018-06-11 |
| 公開(公告)號: | CN108984518A | 公開(公告)日: | 2018-12-11 |
| 發明(設計)人: | 許建峰;孫福輝;王曉燕;駱斌;李忠金;雷妙妙 | 申請(專利權)人: | 人民法院信息技術服務中心 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06Q50/18 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 100745 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 裁判 分類 文本分類 分類器 分詞 預處理 詞頻 結構化特征 文本預處理 文書數據庫 正則表達式 詞匯特征 分類結果 模型訓練 特征集合 特征空間 特征提取 文本類別 維度 文檔 標注 文本 輸出 優化 法院 統計 法律 | ||
本發明公開了一種面向裁判文書的文本分類方法。本發明包括以下步驟:步驟1.根據案由從裁判文書數據庫中提取文書,使用正則表達式提取文書段落;步驟2.將待分類的文書段落進行分詞,并統計每個詞的詞頻;步驟3.對分詞后的文檔進行文本預處理;步驟4.使用TF?IDF對預處理后的文本進行特征提取;步驟5.使用SVM分類器對裁判文書進行模型訓練;步驟6.將待分類裁判文書輸入到分類器,利用所述分類器對裁判文書進行分類,從而輸出裁判文書文本類別標注。本發明主要針對法律裁判文書分類任務,根據裁判文書的半結構化特征和法院文書詞匯特征,優化特征集合,降低特征空間的維度,能有效提高裁判文書分類結果的準確性。
技術領域
本發明屬于大數據挖掘技術領域,涉及一種文本分類方法。具體涉及一種面向裁判文書的文本分類方法。
背景技術
最高人民法院緊緊圍繞全面依法治國戰略部署,按照“大數據、大格局、大服務”理念,以服務人民群眾、服務審判執行、服務司法管理為主線,在以往工作基礎上,大力推進人民法院信息化建設,推動司法公開、深化司法為民、提升審判質效、規范司法管理,贏得了社會各界的充分肯定。隨著建設不斷深入、應用不斷推廣,法院信息化工作中的一些深層次的矛盾和問題也逐漸顯現。其中一些問題表現在數據資源整合和數據挖掘分析工作的不足。
2014年6月,人民法院數據集中管理平臺建成并投入使用,它是由最高人民法院建設,對全國各級法院的司法信息資源進行匯聚和管理的軟件系統。目前,數據集中管理平臺在內容上只集中了全國法院近四年的案件信息和部分裁判文書信息。在功能上還不足以支撐全國法院司法數據實現縱向連通、橫向共享的信息交換和智能輔助決策支持,還不能以更高水平輔助領導決策、法官辦案、司法管理和紀檢監察等工作以及為社會公眾提供體現大數據特征的分析服務。總而言之,實現司法大數據資源的共享利用,實現更深層次的數據分析,是全力打造人民法院信息化3.0版的根本途徑。
文本自動分類,已成為一項具有實用價值的關鍵技術,特別是現在面對海量的文本,人工分類已經無能為力。目前,最高人民法院數據集中管理平臺已經收集了超過1600萬份的裁判文書,文本自動分類顯得尤其重要。文本分類(Text Classification)技術是信息檢索和文本挖掘的重要基礎,其主要任務是在預先給定的類別標記集合下,根據文本的內容判定它的類別,對文本類別進行標注。
目前,實現自動文本分類時一般采用向量空間模型(Vector Space Model,VSM)表示文本,當文檔被表示為文檔空間的向量,就可以通過計算向量之間的相似性來度量文檔間的相似性。向量空間模型是由Salton等人于20世紀70年代提出,并成功地應用于著名的SMART文本檢索系統,VSM將對文本內容的處理簡化為向量空間中的向量運算,并且以空間上的相似度來表達語義的相似度。在中文文本分類中,一般選擇文本中的詞作為文本的信息基本單位,即為特征。構成文本的詞的數量是相當大的,從而得到的文本特征向量的維數都會相當大,可以達到幾萬到十幾萬維。理論上來說,較多的特征應該能提供較強的文本識別能力,但是在高維的向量空間下,過多的特征會大大減慢分類器學習的速度。而且在法院的裁判文書中,存在相當多的法律專有詞匯,這些詞匯不僅對于文本分類任務不起作用,還會影響分類效果。
常用的文本分類算法包括KNN、樸素貝葉斯、隨機森林、神經網絡和支持向量機等。其中支持向量機(Support Vector Machine,SVM)是一種較新的機器學習方法,是CorinnaCortes和Vapnik等在1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中。自提出以來,支持向量機在各種應用領域得到了廣泛應用,由于其出色的學習性能,使其成為當前國際機器學習界的研究熱點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民法院信息技術服務中心,未經人民法院信息技術服務中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810596864.2/2.html,轉載請聲明來源鉆瓜專利網。





