[發(fā)明專利]一種面向司法文本數(shù)據(jù)的關鍵詞提取方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910237329.2 | 申請日: | 2019-03-27 |
| 公開(公告)號: | CN110059311B | 公開(公告)日: | 2023-04-28 |
| 發(fā)明(設計)人: | 張云云;王開紅;丁鍇;陳濤;蔣立靚;胡慷;沈曉宇;陳寅峰 | 申請(專利權)人: | 銀江技術股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F40/242;G06F16/36;G06F16/951;G06Q50/18 |
| 代理公司: | 杭州之江專利事務所(普通合伙) 33216 | 代理人: | 張慧英 |
| 地址: | 310012 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 司法 文本 數(shù)據(jù) 關鍵詞 提取 方法 系統(tǒng) | ||
本發(fā)明涉及一種面向司法文本數(shù)據(jù)的關鍵詞提取方法及系統(tǒng),本發(fā)明首先以引入法律名稱和司法相關專業(yè)性詞匯表用于分詞,并且進行人工復檢來構建司法專業(yè)詞匯標注表;然后通過將構建司法專業(yè)詞匯標注詞典和大規(guī)模的用戶詞典,進行分詞,去除停用詞等方法,獲取詞語;并且采集統(tǒng)計各類糾紛與案由的關鍵詞搜索詞匯,共同組成候選關鍵詞;其次,加入標題詞權重和詞語全局性權重值方法修正候選關鍵詞TF_IDF的權值,如果待提取的文檔中未含有候選關鍵詞,那么采用文檔中每個詞的TF_IDF歸一化值作為TextRank算法初始權值輸入,得到最終的詞語權值。本發(fā)明可以較好地匹配司法文本數(shù)據(jù),匹配性高,適用于大部分的司法文本數(shù)據(jù);并且加快了提取速度,同時提取準確度高。
技術領域
本發(fā)明涉及自然語言處理技術領域,尤其涉及一種面向司法文本數(shù)據(jù)的關鍵詞提取方法及系統(tǒng)。
背景技術
隨著計算機技術和互聯(lián)網(wǎng)技術的高速發(fā)展,各行業(yè)領域都逐步邁入了信息化的行列,因此,司法領域也走上了信息化建設的道路。據(jù)統(tǒng)計,中國裁判文書網(wǎng)上可查詢5千多萬份文書,且每天以3萬左右的規(guī)模遞增,另外還有各大司法所人民調解系統(tǒng)中的各類矛盾糾紛案例。然而,面對日益增長的海量司法文本數(shù)據(jù),用戶需要花費很多時間在閱讀案件信息和關鍵詞信息獲取,例如,2018年12月新聞中報道的“634頁法院一審判決書”,面對如此厚的判決書,等真正看完,上訴期都過期了。那么通過對司法文本數(shù)據(jù)中特征性較強的、便于作為分類/標識/統(tǒng)計的關鍵詞進行提取,并做整理和語義抽取,可以為案件貼上相應維度的標簽,在類案搜索推薦、相似案例統(tǒng)計等工作中很大程度上提高匹配的準確度和提升匹配的時間性能。
近年,在關鍵詞提取方面已經(jīng)做了大量的研究。如專利號CN201810007166.4提出了一種基于規(guī)則的醫(yī)患糾紛案件關鍵詞提取方法,主要依賴于關鍵詞類別建立醫(yī)患糾紛關鍵詞提取規(guī)則模板,然后將案件模塊化,定義各模塊化的關鍵詞集合,通過關鍵詞提取規(guī)則生成關鍵詞偽表達式進程提取;專利號CN201710605900.2提出了一種基于word2vec與詞共現(xiàn)相結合的文本關鍵詞抽取方法,主要是采用word2vec生成的詞向量進行聚類,再結合詞共現(xiàn)等基本特征提取文本關鍵詞。
然而在上述的關鍵詞提取方法,特別是針對司法文本數(shù)據(jù)的關鍵詞方法中,都存在一定的局限性。主要原因是:(1)司法文本數(shù)據(jù)具有很多專業(yè)性詞匯,不能直接使用分詞工具,需要構建特定的司法專業(yè)詞匯表;(2)不僅要考慮詞匯的局部高頻性,還要從全局出發(fā),考慮詞匯重要性;(3)適合大部分的司法文本數(shù)據(jù),如所有的裁判文書、各類人民調解矛盾糾紛案例及協(xié)議書等。
發(fā)明內(nèi)容
本發(fā)明為克服上述的不足之處,目的在于提供一種面向司法文本數(shù)據(jù)的關鍵詞提取方法及系統(tǒng),本發(fā)明首先以引入法律名稱和司法相關專業(yè)性詞匯表用于分詞,并且進行人工復檢來構建司法專業(yè)詞匯標注表;然后通過將構建司法專業(yè)詞匯標注詞典和大規(guī)模的用戶詞典,進行分詞,去除停用詞等方法,獲取詞語;并且采集統(tǒng)計各類糾紛與案由的關鍵詞搜索詞匯,共同組成候選關鍵詞;其次,加入標題詞權重和詞語全局性權重值方法修正候選關鍵詞TF_IDF的權值,如果待提取的文檔中未含有候選關鍵詞,那么采用文檔中每個詞的TF_IDF歸一化值作為TextRank算法初始權值輸入,得到最終的詞語權值。本發(fā)明可以較好地匹配司法文本數(shù)據(jù),匹配性高,適用于大部分的司法文本數(shù)據(jù);并且加快了提取速度,同時提取準確度高。
本發(fā)明是通過以下技術方案達到上述目的:一種面向司法文本數(shù)據(jù)的關鍵詞提取方法,包括如下步驟:
(1)采集并預處理司法文本數(shù)據(jù),對司法文本數(shù)據(jù)進行分詞、停用詞去除,獲取詞語;
(2)構建關鍵詞詞典,并設置關鍵詞詞典標注詞初始權值winitial;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于銀江技術股份有限公司,未經(jīng)銀江技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910237329.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





