[發明專利]表搜索方法、裝置、設備及存儲介質在審
| 申請號: | 202211201173.0 | 申請日: | 2022-09-29 |
| 公開(公告)號: | CN115438048A | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 陳先麗;王陽;劉屹;李楠;王皖麟;孫猛 | 申請(專利權)人: | 招商局金融科技有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2453;G06F16/248;G06F16/215 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區華富街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索 方法 裝置 設備 存儲 介質 | ||
1.一種表搜索方法,其特征在于,所述方法包括:
獲取用戶輸入,對所述用戶輸入進行類型識別,根據類型識別的結果判斷所述用戶輸入為文本輸入還是表輸入;
當所述用戶輸入為文本輸入時,對所述用戶輸入進行數據清洗,得到清洗數據,從所述清洗數據中抽取實體,得到輸入實體;
對所述輸入實體及預設的表數據庫中的表進行向量計算,得到所述輸入實體的第一表示向量以及所述表數據庫中表的第二表示向量;
對所述第一表示向量以及所述第二表示向量進行相似度計算,根據相似度計算的結果從所述表數據庫中選取匹配表;
當所述用戶輸入為表輸入時,分別對所述用戶輸入以及所述表數據庫中的每個表進行表列名識別和內容識別,并根據表列名識別的結果及內容識別的結果計算每個表的表列名相關度及內容相關度;
根據所述表列名相關度及所述內容相關度進行綜合打分,得到綜合相關度,通過所述綜合相關度從所述表數據庫中選取匹配表。
2.如權利要求1所述的表搜索方法,其特征在于,所述對所述用戶輸入進行類型識別,根據類型識別的結果判斷所述用戶輸入為文本輸入還是表輸入,包括:
提取所述用戶輸入的數據格式,得到目標數據格式;
利用所述目標數據格式在預設的文本數據格式集合及預設的表數據格式集合中進行同類檢索,得到匹配類型;
若所述匹配類型屬于所述文本數據格式集合,則判定所述用戶輸入為文本輸入;
若所述匹配類型屬于所述表數據格式集合,則判定所述用戶輸入為表輸入。
3.如權利要求1所述的表搜索方法,其特征在于,所述對所述用戶輸入進行數據清洗,得到清洗數據,包括:
根據預設的文本規則對所述用戶輸入進行句法分析,得到干擾數據;
對所述干擾數據進行過濾及數據糾正,得到清洗數據。
4.如權利要求1所述的表搜索方法,其特征在于,所述從所述清洗數據中抽取實體,得到輸入實體,包括:
對所述清洗數據進行詞性分析及分詞處理,得到輸入分詞以及對應的詞性;
獲取預設的停用詞性標簽,根據所述詞性標簽所述輸入分詞的詞性對所述輸入分詞進行篩選,得到標準分詞;
利用所述標準分詞在預設的實體數據庫中進行檢索,并將檢索到的標準分詞作為輸入實體。
5.如權利要求1所述的表搜索方法,其特征在于,所述對所述輸入實體及預設的表數據庫中的表進行向量計算,得到所述輸入實體的第一表示向量以及所述表數據庫中表的第二表示向量,包括:
對所述輸入實體進行詞向量轉換,得到所述輸入實體對應的詞向量;
對所述詞向量進行加權平均,得到所述輸入實體的第一表示向量;
獲取所述表數據庫中的表所對應的表字段,對所述表字段進行向量轉換,得到所述表字段對應的表字段向量;
根據所述表字段的詞頻及表頻率生成所述表字段對應的權重系數,并根據所述表字段向量及所述權重系數進行向量綜合計算,得到所述表數據庫中表的第二表示向量。
6.如權利要求5所述的表搜索方法,其特征在于,所述根據所述表字段向量及所述權重系數進行向量綜合計算,得到所述表數據庫中表的第二表示向量,包括:
利用下式根據所述表字段向量及所述權重系數進行向量綜合計算:
其中,為所述表數據庫中的表所對應的第j個表字段,j=1,2,3,…,N(N為自然數);w(tj)為第j個表字段的權重系數;為所述表數據庫中表的第二表示向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于招商局金融科技有限公司,未經招商局金融科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211201173.0/1.html,轉載請聲明來源鉆瓜專利網。





