[發明專利]一種依存句法分析關系抽取模型的司法案件知識圖譜構建方法在審
| 申請號: | 201910706329.2 | 申請日: | 2019-08-01 |
| 公開(公告)號: | CN110597999A | 公開(公告)日: | 2019-12-20 |
| 發明(設計)人: | 陳建峽;張偉;黃煜俊;馬忠寶;張杰 | 申請(專利權)人: | 湖北工業大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F17/27 |
| 代理公司: | 42220 武漢帥丞知識產權代理有限公司 | 代理人: | 劉丹;朱必武 |
| 地址: | 430068 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 依存句法分析 關系抽取 三元組 裁判 圖譜 取出 大規模語料庫 信息抽取技術 詞性標注 非結構化 命名實體 實體關系 司法案件 圖譜構建 結構化 可視化 分詞 構建 數據庫 直觀 移植 轉換 便利 司法 展示 | ||
本發明公開一種依存句法分析關系抽取模型的司法案件知識圖譜構建方法。該方法首先對非結構化的裁判文書通過信息抽取技術轉換為結構化的數據,然后對其進行分詞、詞性標注以及命名實體識別處理,接著通過依存句法分析關系抽取模型抽取出實體關系三元組。最后把三元組形式的數據批量導入到Neo4j圖數據庫,利用Neo4j實現裁判文書知識圖譜的構建并對其進行可視化展示。依存句法分析關系抽取模型能有效的抽取出實體之間的關系并適用于不同的大規模語料庫,具有較好的移植適用性。裁判文書知識圖譜直觀明了,能讓用戶便捷高效地掌握信息,為司法工作提供極大地便利。
技術領域
本發明屬于人工智能領域的自然語言處理技術領域,主要研究信息抽取和知識圖譜技術問題,特別是涉及實體關系抽取的依存句法分析關系抽取模型的司法案件知識圖譜構建方法。
背景技術
司法領域是一個比較龐大的知識體系,領域知識也比較復雜,隨著司法案件數據量的不斷增大,數據之間的關系也越來越復雜,只能處理簡單數據關系的傳統關系型數據庫已無法勝任,知識圖譜的興起便是為了解決該難題。知識圖譜是用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。近年來,知識圖譜獲得迅猛的發展,目前已成為分析學科領域熱點和前沿的有力工具。
2012年5月份Google公司就首先提出了“知識圖譜”的概念,旨在提升其搜索引擎性能而建立的知識庫。Zhang等人認為知識圖譜可以應用于展示領域知識整體結構、可視化分析檢索結果;CiteSpaceⅡ軟件是一款針對所采集到的數據進行知識圖譜分析,專門用于在科學文獻中識別并顯示科學發展新趨勢和新動態的軟件;Wang等人借助CiteSpaceⅡ軟件繪制了國際刑事司法研究領域的知識圖譜,并作可視化分析,發現在國際刑事司法研究方面存在著注重理論與實證的兩種趨勢。
目前,國內知識圖譜的研究內容主要集中在知識圖譜的構建和知識表示學習與推理的方法。Wang等人通過知識圖譜梳理了我國近年來司法鑒定學科的研究熱點與演進趨勢,客觀地展示其研究成果,為相關人員提供直觀的參考依據。
自然語言處理中的信息抽取是將半結構化數據的司法案件形成結構化信息,包括實體、實體間關系以及屬性,幫助用戶快速便捷地獲取所需信息。而實體關系抽取作為信息抽取的子任務,通過依存句法分析關系抽取技術,分析句子中各個成分之間的依賴關系,進而揭示句子的句法結構,同時分析句子所包含的句法成分和這些句法成分之間的關系,抽取出主要成分之間的語義關系。依存句法分析關系抽取技術能有效的抽取出實體之間的關系并適用于不同的大規模語料庫,具有較好的移植適用性。
綜上所述,面向司法領域司法案件知識圖譜的研究還是比較匱乏。為此,本發明提出了一種依存句法分析模型的司法案件知識圖譜構建方法,采用依存句法分析模型對司法案件文本進行分詞、詞性標注、命名實體識別和依存句法分析等處理,獲得例如原告、被告、案件類型等關鍵信息,再利用Neo4j圖數據庫對其進行整理和編譯,將其整合成為結構化語義網絡構建司法案件知識圖譜,最終實現特定查詢的功能并優化了信息獲取的速度。
發明內容
本發明的目的在于提供一種依存句法分析關系抽取模型的司法案件知識圖譜構建方法。包括對司法案件文本進行預處理。預處理主要包括三方面內容,分別是:分詞、詞性標注和命名實體識別。調用分詞模塊,對于輸入的司法案件文本句子的子序列,會給句子中每個字標注一個詞邊界的標記,開始邊界和結束邊界中的內容就是一個詞,這樣便達到分詞的效果;接著調用詞性標注模塊,依次對分詞之后的結果進行詞性的標注,標注的結果作為后續命名實體識別模塊的輸入;最后調用命名實體識別模塊將依存句法分析關系抽取所需的關鍵實體從處理后的司法案件文本中抽取出來。然后,將三元組形式的數據信息錄入到Neo4j圖數據庫,利用Neo4j實現司法案件知識圖譜的構建并對其進行可視化展示。
為了達到上述目的,本發明所采用的技術方案是:一種依存句法分析關系抽取模型的司法案件知識圖譜構建方法,其特征在于,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北工業大學,未經湖北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910706329.2/2.html,轉載請聲明來源鉆瓜專利網。





