[發(fā)明專利]數(shù)據(jù)檢索方法、裝置、設備及可讀存儲介質有效
| 申請?zhí)枺?/td> | 201910245265.0 | 申請日: | 2019-03-28 |
| 公開(公告)號: | CN110334178B | 公開(公告)日: | 2023-06-20 |
| 發(fā)明(設計)人: | 吳壯偉 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/31;G06F16/35;G06F16/36;G06F16/903;G06F16/951;G06F40/295;G06Q50/18 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 王文 |
| 地址: | 518033 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數(shù)據(jù) 檢索 方法 裝置 設備 可讀 存儲 介質 | ||
1.一種數(shù)據(jù)檢索方法,應用于法律文書數(shù)據(jù)檢索,其特征在于,所述數(shù)據(jù)檢索方法包括以下步驟:
構建法律文書數(shù)據(jù)庫,所述法律文書數(shù)據(jù)庫中包含有多個法律知識點文檔;
對所述法律文書數(shù)據(jù)庫中各法律知識點文檔進行主題劃分,每一個法律知識點文檔對應一個或多個主題標簽;
當接收到數(shù)據(jù)檢索請求時,根據(jù)用戶選擇的主題標簽,對所述法律知識點文檔進行篩選,得到候選文檔;
根據(jù)用戶輸入的檢索關鍵詞,采用基于有序的非完全匹配檢索算法,對候選文檔進行全文檢索;
所述構建法律文書數(shù)據(jù)庫包括:
通過網絡爬蟲技術,采集指定法律網站的法律文書數(shù)據(jù);
當所述法律文書數(shù)據(jù)對應的法律知識點為法條法規(guī)時,基于預置的命名實體識別模型,抽取所述法律文書數(shù)據(jù)中法條法規(guī)的命名實體對象,以及基于抽取到的命名實體對象,識別所述法律文書數(shù)據(jù)中各法條法規(guī)對應的罪責內容,并將所述罪責內容保存為對應命名實體對象的實體屬性;
當所述法律文書數(shù)據(jù)對應的法律知識點為判決案件時,基于預置的命名實體識別模型,抽取所述法律文書數(shù)據(jù)中判決案件的命名實體對象,以及基于抽取到的命名實體對象,識別所述法律文書數(shù)據(jù)中各判決案件對應的案件事由和判決結果,并將所述案件事由和判決結果保存為對應命名實體對象的實體屬性;
將從所述法律文書數(shù)據(jù)中抽取到的所述法律知識點保存為文檔格式,得到法律知識點文檔;
基于預設字段,以各法律知識點文檔中的文本信息為字段內容,構建法律文書數(shù)據(jù)庫;
所述根據(jù)用戶輸入的檢索關鍵詞,采用基于有序的非完全匹配檢索算法,對候選文檔進行全文檢索包括:
對用戶輸入的檢索關鍵詞進行處理,得到由多個關鍵詞組成并帶有詞序的關鍵詞組;
分別對每一候選文檔中的字符或字符串進行字符拼接,以形成文檔字符串,并將所述文檔字符串傳入內存中;
基于所述關鍵詞組,采用基于有序的非完全匹配檢索算法,對每一候選文檔對應的文檔字符串進行全文檢索;
所述基于所述關鍵詞組,采用基于有序的非完全匹配檢索算法,對每一候選文檔對應的文檔字符串進行全文檢索包括:
依序以所述關鍵詞組中的關鍵詞為檢索式,采用基于有序的非完全匹配檢索算法,分別對每一候選文檔對應的文檔字符串進行全文檢索,并將每一次檢索結果的并集作為最終檢索結果;
計算最終檢索結果中各文檔的推薦值,并基于所述推薦值的數(shù)值大小,對最終檢索結果中的文檔進行排序;
其中,所述基于有序的非完全匹配檢索算法包括:
A、若在當前文檔字符串中檢索到關鍵詞,則在當前文檔字符串中繼續(xù)檢索下一詞序對應的關鍵詞;
B、若在同一文檔字符串中依序檢索到關鍵詞組中所有關鍵詞,則記錄所有相鄰關鍵詞之間的相差字符數(shù)以及所有關鍵詞同時重復出現(xiàn)的次數(shù);
C、若在當前文檔字符串中未檢索到關鍵詞,則繼續(xù)對下一文檔字符串進行全文檢索;
D、若當前文檔字符串中包含所有關鍵詞,則將當前文檔字符串對應的候選文檔作為本次檢索結果;
E、采用如下公式計算文檔的推薦值:
M=wT*(-T)+wn*(n);
其中,M表示文檔的推薦值,T表示文檔中所有相鄰關鍵詞之間的相差字符數(shù)之和,n表示文檔中所有關鍵詞同時重復出現(xiàn)的次數(shù),wT、wn為權重系數(shù)且均為常數(shù)值。
2.如權利要求1所述的數(shù)據(jù)檢索方法,其特征在于,所述對所述法律文書數(shù)據(jù)庫中各法律知識點文檔進行主題劃分包括:
對所述法律文書數(shù)據(jù)庫中各法律知識點文檔對應的字段內容進行預處理,所述預處理包括去除停用詞和標點符號處理;
對預處理后的各法律知識點文檔分別進行切詞,得到各法律知識點文檔分別對應的多個單詞;
基于切詞得到的單詞,構建各法律知識點文檔中各單詞對應的詞向量;
將各法律知識點文檔對應的詞向量輸入預設主題模型進行主題劃分,輸出每一法律知識點文檔的詞向量在所有文檔主題上的概率分布;
將概率分布排列在前的預置個數(shù)文檔主題對應的同一法律知識點文檔的詞向量輸入預設分類模型進行分類,輸出對應法律知識點文檔的主題標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910245265.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





