[發明專利]基于法律知識圖譜的語義搜索方法、裝置和電子設備有效
| 申請號: | 202011597968.9 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112632226B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 朵思惟;余梓飛;于鋒杰;薛晨云 | 申請(專利權)人: | 天津匯智星源信息技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/36;G06F40/211;G06F40/216;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 孫曉鳳 |
| 地址: | 300384 天津市濱海新區華苑產*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 法律知識 圖譜 語義 搜索 方法 裝置 電子設備 | ||
1.一種基于法律知識圖譜的語義搜索方法,其特征在于,包括:
響應于接收到用戶輸入的對法律問題的描述,對所述描述進行預處理;
通過預定的關系抽取模型,從經過預處理的所述描述中提取出實體-關系-實體三元組,以構建語義搜索圖;
基于預定的法律法規類型,通過預先建立的分類模型對經過預處理的所述描述進行分類,得到類別標簽;
在預先基于法律知識相關文件構建的法律知識圖譜中搜索到與所述類別標簽對應的目標節點,并將所述法律知識圖譜中以所述目標節點為根節點的部分法律知識圖譜與所述語義搜索圖進行子圖匹配,得到一個或多個匹配子圖,在所述語義搜索圖中給定一個節點v,在所述部分法律知識圖譜中找到對應的節點u,計算節點v和節點u的相似度,
在所述語義搜索圖中給定一個關系rel,在所述部分法律知識圖譜中找到對應的關系L,計算所述關系rel與所述關系L的相似度,
通過所述節點相似度和所述關系相似度計算所述語義搜索圖和所述部分法律知識圖譜的相似度得分,根據所述相似度得分輸出匹配子圖;
輸出所述一個或多個匹配子圖中的至少一個目標子圖作為針對所述描述的法律答案。
2.根據權利要求1所述的語義搜索方法,其特征在于,所述關系抽取模型包括CASREL模型。
3.根據權利要求1或2所述的語義搜索方法,其特征在于,所述響應于接收到用戶輸入的對法律問題的描述,對所述描述進行預處理,包括下列中至少一個:
通過正則表達式去除所述描述的標點符號和/或特殊符號;
通過中文分詞算法WMSeg對所述描述進行分詞;
將所述描述中的繁簡字體進行統一化;
通過標準表達方式對所述描述進行同義詞歸一化;
通過Soft-Masked BERT模型對所述描述進行文本糾錯處理。
4.根據權利要求1或2所述的語義搜索方法,其特征在于,所述通過預定的關系抽取模型,從經過預處理的所述描述中提取出實體-關系-實體三元組,以構建語義搜索圖,包括:
基于完整的訓練模型BERT對所述描述進行編碼,獲取所述描述中每個詞的特征表示;
對所述特征表示進行解碼,構建分類器預測所述實體的 位置,識別出所述實體對應的主語;
根據所述主語提取所有可能與所述主語對應的關系,并根據所述關系識別出相應的賓語,得到實體-關系-實體三元組。
5.根據權利要求1或2所述的語義搜索方法,其特征在于,所述基于預定的法律法規類型,通過預先建立的分類模型對經過預處理的所述描述進行分類,得到類別標簽,包括:
基于預訓練模型BERT對所述描述進行特征向量表示得到特征向量,將所述特征向量輸入到Softmax回歸模型基于法律法規類型進行分類,得到所述描述的類別標簽。
6.根據權利要求1所述的語義搜索方法,其特征在于,根據所述相似度得分對所述匹配子圖進行排序,選取得分最高的預定數量個所述匹配子圖作為目標子圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津匯智星源信息技術有限公司,未經天津匯智星源信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011597968.9/1.html,轉載請聲明來源鉆瓜專利網。





