[發明專利]基于語義匹配的證據文檔檢索方法、系統及存儲介質有效
| 申請號: | 202110061517.1 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112818093B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 李虹琳;葉思濤 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/279 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 袁文婷;張娓娓 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 匹配 證據 文檔 檢索 方法 系統 存儲 介質 | ||
本發明涉及人工智能,提供一種基于語義匹配的證據文檔檢索方法、系統及存儲介質,其中的方法包括:對待檢索證據文檔進行段落劃分,以將所述待檢索證據文檔劃分為至少一個文本段落;確定段落劃分后的所述待檢索證據文檔中的與用戶查詢問題相關的所有文本段落,記為相關文本段落組;自所述相關文本段落組內確定召回文本段落,并對所述召回文本段落進行召回;基于預設的閱讀理解模型對所述召回文本段落進行處理,以提取所述召回文本段落內的與所述用戶查詢問題對應的最終答案字段。本發明提供的技術方案既能夠解決現有的證據文檔檢索方法檢索精度低且用戶體驗效果差的問題。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種基于語義匹配的證據文檔檢索方法、系統及存儲介質。
背景技術
在案件審理過程中,考慮法院場景里,法官在庭審前的閱卷流程及后續開庭審理過程中可能會產生一些關于所審理案件的詳細案件信息的查詢需求(例如根據當事人的訴請和抗辯查詢當事人提交的證據材料的具體內容),業內部分供應商曾推出過旨在解決此類查詢需求的檢索產品。
然而,此類檢索產品往往是基于字符串的完全匹配或部分模糊匹配技術在待檢索文檔中匹配用戶輸入的查詢關鍵字并返回所有命中的文本片段,該方案存在如下缺陷或不足:
1、僅僅考慮了查詢的字面匹配而未考慮語義匹配,返回結果里只存在于查詢字面匹配的文本片段,可能會忽略部分與查詢語義相似的文本片段,從而造成最終結果的缺失。
2、僅僅考慮了檢索任務中的召回環節(召回環節是檢索的第一階段,指的是根據用戶輸入問題和文段之間的一部分相關性,從海量文本中快速找到一小部分潛在相關文段的過程),而未考慮篩選、排序環節(現有的檢索都是基于關鍵字的檢索,只是根據問題和候選文段是否有關鍵字完全匹配這一個特征進行召回,且不對召回結果做排序,完全按照出現的先后順序顯示給用戶,這樣很可能造成真正滿足要求的文段排序靠后,顯示效果對用戶不友好),可能導致返回的文本片段數量過大且未能體現各個返回文本片段與查詢的相似程度,用戶體驗不佳。
基于以上技術問題,亟需一種檢索精度高、用戶體驗效果好的證據內容檢索方法。
發明內容
本發明提供一種基于語義匹配的證據文檔檢索方法、系統、電子裝置以及計算機存儲介質,其主要目的在于解決現有的證據文檔檢索方法檢索精度低且用戶體驗效果差的問題。
為實現上述目的,本發明提供一種基于語義匹配的證據文檔檢索方法,該方法包括如下步驟:
對待檢索證據文檔進行段落劃分,以將所述待檢索證據文檔劃分為至少一個文本段落;
確定段落劃分后的所述待檢索證據文檔中的與用戶查詢問題相關的所有文本段落,記為相關文本段落組;
自所述相關文本段落組內確定與所述用戶查詢問題具有預設相關度的文本段落作為召回文本段落,并對所述召回文本段落進行召回;
基于預設的閱讀理解模型對所述召回文本段落進行處理,以提取所述召回文本段落內的與所述用戶查詢問題對應的最終答案字段。
優選地,對所述待檢索證據文檔進行段落劃分,以將所述待檢索證據文檔劃分為至少一個文本段落的過程包括:
以預設尺寸的窗口每次滑動預設固定步長的方式對所述待檢索證據文檔進行截取,以將所述待檢索證據文檔劃分為至少一個文本段落;或者,
根據所述待檢索證據文檔內的子標題對所述待檢索證據文檔進行段落劃分,以將所述待檢索證據文檔劃分為至少一個文本段落。
優選地,若所述待檢索證據文檔為圖片式pdf文檔,則在對所述待檢索證據文檔進行段落劃分之前,需要先對所述待檢索證據文檔進行文字識別,以將所述待檢索證據文檔轉換為word格式文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110061517.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種定頻太空能系統和控制方法
- 下一篇:一種功能性全谷物混合豆乳及其生產方法





