[發明專利]一種電子文檔篩選查詢方法及系統在審
| 申請號: | 202310920071.2 | 申請日: | 2023-07-26 |
| 公開(公告)號: | CN116662521A | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 單良;王亞平;路陽;江偉歡;劉偉家;鄭楠 | 申請(專利權)人: | 廣東省建設工程質量安全檢測總站有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/216;G06F40/284;G06F40/30;G06F16/33 |
| 代理公司: | 廣州渣津專利代理事務所(特殊普通合伙) 44516 | 代理人: | 申宏輝 |
| 地址: | 510000 廣東省廣州市天河區先*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子 文檔 篩選 查詢 方法 系統 | ||
1.一種電子文檔篩選查詢方法,其特征在于,所述方法包括:
連接業務管理系統,確定檢索域;
基于所述檢索域獲取目標文檔集,跨域關聯構建檢索數據庫,所述檢索數據庫由多個檢索數據子庫構成,各檢索數據子庫存在數據類型差異,所述檢索數據庫實時更新;
基于查詢需求,確定主關鍵詞集合與從關鍵詞集合,配置關鍵詞矩陣,所述從關鍵詞集合由所述主關鍵詞集合多元化處理獲?。?/p>
結合相似度匹配算法,遍歷所述多個檢索數據子庫對所述關鍵詞矩陣進行匹配,生成相似度矩陣,其中,關鍵詞出現頻次為附加生成信息;
設定相似度閾值,基于所述相似度閾值對所述相似度矩陣進行判定,確定單項關鍵詞匹配結果,其中,匹配成功標識為1,匹配失敗標識為0;
基于所述單項關鍵詞匹配結果,對所述相似度矩陣逐矩陣列求和生成相似度匹配結果,所述相似度匹配結果表征匹配的關鍵詞集合與所述檢索數據庫中單項文檔的綜合相似度;
基于所述相似度匹配結果進行文檔映射,確定文檔查詢結果。
2.如權利要求1所述的方法,其特征在于,所述配置關鍵詞矩陣,方法包括:
基于所述查詢需求,提煉多個主關鍵詞,作為所述主關鍵詞集合;
配置多元化處理調幅;
基于所述多元化處理調幅,對所述主關鍵詞集合進行上位化處理,確定第一從屬關鍵詞集合;
基于所述多元化處理調幅,對所述主關鍵詞集合進行下位化處理,確定第二從屬關鍵詞集合;
對所述主關鍵詞集合進行轉換處理,確定第三從屬關鍵詞集合;
基于所述第一從屬關鍵詞集合、所述第二從屬關鍵詞集合與所述第三從屬關鍵詞集合,確定從關鍵詞集合,所述從關鍵詞集合帶有主相關度標識;
將關鍵詞序列作為矩陣行,將關鍵詞類目作為矩陣列,基于所述主關鍵詞集合與所述從關鍵詞集合搭建所述關鍵詞矩陣。
3.如權利要求2所述的方法,其特征在于,所述生成相似度矩陣,方法包括:
基于所述關鍵詞矩陣,提取所述主關鍵詞集合;
遍歷所述多個檢索數據子庫,對所述基于所述主關鍵詞集合進行相似度匹配,確定一項相似度矩陣;
若所述一項相似度矩陣為空,提取所述從關鍵詞集合并遍歷所述多個檢索數據子庫進行相似度匹配,確定二項相似度矩陣;
若所述二項相似度矩陣為空,基于所述主關鍵詞集合,遍歷所述多個檢索數據子庫進行語義識別,獲取三項相似度矩陣。
4.如權利要求3所述的方法,其特征在于,獲取相似度矩陣計算公式,方法包括:
;
其中,表征關鍵詞出現頻次,表征主相關度,為待進行匹配分析的關鍵詞矩陣,為列矩陣,為所述檢索數據庫中的文檔矩陣,為行矩陣,表示第M個關鍵詞與第N項文檔的相似度,M、N為量值,表征關鍵詞項數與文檔項數,針對所述一項相似度矩陣,=1。
5.如權利要求4所述的方法,其特征在于,獲取矩陣列求和公式,方法包括:
;
其中,為M個關鍵詞與第j項文檔的相似度匹配結果,表示第i個關鍵詞與第j項文檔的相似度,iM,jN。
6.如權利要求1所述的方法,其特征在于,于所述多個檢索數據子庫中對所述關鍵詞矩陣進行匹配,之前,方法包括:
配置多元數據處理規則;
基于所述數據處理規則,對所述多個檢索數據子庫執行規則匹配與數據預處理,確定預處理數據庫;
基于所述預處理數據庫,進行所述關鍵詞矩陣的匹配執行。
7.如權利要求1所述的方法,其特征在于,所述確定文檔查詢結果,方法包括:
對所述相似度匹配結果進行正序列化調整,生成相似度序列,所述相似度序列由大到小排列;
獲取查詢需求項數;
基于所述查詢需求項數對所述相似度序列進行截取,反向匹配映射文檔,集成作為查詢文檔集合;
基于所述查詢文檔集,確定所述文檔查詢結果,所述文檔查詢結果具有文檔優先級。
8.一種電子文檔篩選查詢系統,其特征在于,所述系統包括:
確定檢索域模塊,所述確定檢索域模塊用于連接業務管理系統,確定檢索域;
檢索數據庫構建模塊,所述檢索數據庫構建模塊基于所述檢索域獲取目標文檔集,跨域關聯構建檢索數據庫,所述檢索數據庫由多個檢索數據子庫構成,各檢索數據子庫存在數據類型差異,所述檢索數據庫實時更新;
關鍵詞矩陣模塊,所述關鍵詞矩陣模塊用于基于查詢需求,確定主關鍵詞集合與從關鍵詞集合,配置關鍵詞矩陣,所述從關鍵詞集合由所述主關鍵詞集合多元化處理獲?。?/p>
相似度矩陣模塊,所述相似度矩陣模塊用于結合相似度匹配算法,遍歷所述多個檢索數據子庫對所述關鍵詞矩陣進行匹配,生成相似度矩陣,其中,關鍵詞出現頻次為附加生成信息;
關鍵詞匹配結果模塊,所述關鍵詞匹配結果模塊用于設定相似度閾值,基于所述相似度閾值對所述相似度矩陣進行判定,確定單項關鍵詞匹配結果,其中,匹配成功標識為1,匹配失敗標識為0;
相似度匹配結果模塊,所述相似度匹配結果模塊基于所述單項關鍵詞匹配結果,對所述相似度矩陣逐矩陣列求和生成相似度匹配結果,所述相似度匹配結果表征匹配的關鍵詞集合與所述檢索數據庫中單項文檔的綜合相似度;
文檔查詢結果模塊,所述文檔查詢結果模塊基于所述相似度匹配結果進行文檔映射,確定文檔查詢結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東省建設工程質量安全檢測總站有限公司,未經廣東省建設工程質量安全檢測總站有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310920071.2/1.html,轉載請聲明來源鉆瓜專利網。





