[發明專利]基于法律數據的知識圖譜構建方法及系統有效
| 申請號: | 201711006520.3 | 申請日: | 2017-10-25 |
| 公開(公告)號: | CN107908671B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 杜向陽;梁雁圓 | 申請(專利權)人: | 南京擎盾信息科技有限公司;杜向陽;梁雁圓 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06Q50/18 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 葉涓涓 |
| 地址: | 210000 江蘇省南京市雨*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 法律 數據 知識 圖譜 構建 方法 系統 | ||
1.基于法律數據的知識圖譜構建方法,其特征在于,包括如下步驟:
步驟1,構建法律詞典
首先下載以及人工標注法律種子詞庫,同時訓練法律文本語料得到法律詞向量;然后計算與詞向量相似的候選法律詞,計算相似度公式為:其中W1,W2為法律詞匯的詞向量;最后篩選有效的候選法律詞;
步驟2,提取法律短語
通過互信息和信息熵分別提取組合詞語,綜合這兩種方式計算的分數,使用加權平均的方式做排序篩選 出短語候選組;
其中,
互信息計算公式為:X和Y為兩個法律詞,P(X,Y)為X和Y的聯合概率,P(X)、P(Y)為X和Y的概率;
信息熵具體計算公式如下:
其中,EL(W)、ER(W)分別是當前詞的左熵和右熵,P(aW|W)為當前詞左邊出現詞的條件概率,P(Wb|W)為當前詞右邊出現詞的條件概率;
步驟3,預處理法律文本
將步驟1、步驟2中構建的法律詞典、法律短語作為分詞工具的擴展詞,對原始法律文本數據進行分詞、詞性標注、句法分析,完成法律語料文本的預處理;
步驟4,初步構建法律知識
定義法律知識圖譜中法律實體、法律關系、三元組、概念層次圖,標注相關的法律數據語料;
步驟5,識別法律實體
對已標注的法律文本數據,進行實體特征的抽取,并將抽取的特征通過模型計算,實現法律實體自動識別,模型計算過程如下:
句子沿著標簽的路徑,計算出概率轉移矩陣和網絡的分數表示為:
其中,為模型的輸入層,即輸入的句子表示;[h(θ)]i,t為句子的第i個標簽的第t個詞;[P]i,j為轉移概率矩陣表示對于一對連續的時間步長從第i個狀態轉換到第j個狀態的轉變矩陣;神經網絡可訓練的參數記為θ;模型所有參數可表示為
步驟6、識別法律關系
對法律專家標注的法律文本數據,使用法律關系規則模板,從文本中學習法律文本的關系表達式,采用機器學習與模板規則結合的方法提取法律關系;
步驟7、構造法律知識鏈
基于原始法律文本,采用步驟5和步驟6識別到的法律實體和法律關系,使用基于法律實體詞和法律關系的法律事理圖譜推理引擎來識別法律知識鏈。
2.根據權利要求1所述的基于法律數據的知識圖譜構建方法,其特征在于,所述步驟6包括如下具體過程:
6.1、抽取法律文本的依存句法特征,制定關系抽取模板;
6.2、對法律語料進行預處理,進行語義特征、關系類別特征的抽取;
6.3、將抽取得到的特征值代入到關系抽取模型進行關系抽取;
6.4、將6.3抽取得到的關系做為候選關系組,并將候選關系組做類型過濾。
3.基于法律數據的知識圖譜構建系統,其特征在于,用于實現權利要求1或2所述的基于法律數據的知識圖譜構建方法,包括:法律基礎詞典構建模塊、法律基礎知識庫構建模塊、法律實體自動識別模塊、法律關系自動識別模塊、法律知識鏈自動生成模塊;
所述法律基礎詞典構建模塊用于構建和擴充法律基礎詞典,實現所述基于法律數據的知識圖譜構建方法中步驟1-3;所述法律基礎知識庫構建模塊用于構建法律專家知識庫,制定法律專家知識模板,實現所述基于法律數據的知識圖譜構建方法中步驟4;所述法律實體自動識別模塊用于自動識別法律文本的法律實體,并向法律知識鏈自動生成模塊推送法律實體,實現所述基于法律數據的知識圖譜構建方法中步驟5;法律關系自動識別模塊用于自動識別法律文本的法律關系,并向法律知識鏈自動生成模塊推送推送法律關系,實現所述基于法律數據的知識圖譜構建方法中步驟6;法律知識鏈自動生成模塊用于通過法律實體自動識別模塊和法律關系自動識別模塊推送的實體和關系,生成候選知識鏈,實現所述基于法律數據的知識圖譜構建方法中步驟7。
4.根據權利要求3所述的基于法律數據的知識圖譜構建系統,其特征在于,還包括法律知識圖譜應用服務模塊,其用于提供系統中的應用接口。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京擎盾信息科技有限公司;杜向陽;梁雁圓,未經南京擎盾信息科技有限公司;杜向陽;梁雁圓許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711006520.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





