[發(fā)明專利]表搜索方法、裝置、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202211201173.0 | 申請日: | 2022-09-29 |
| 公開(公告)號: | CN115438048A | 公開(公告)日: | 2022-12-06 |
| 發(fā)明(設(shè)計)人: | 陳先麗;王陽;劉屹;李楠;王皖麟;孫猛 | 申請(專利權(quán))人: | 招商局金融科技有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2453;G06F16/248;G06F16/215 |
| 代理公司: | 深圳市沃德知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區(qū)華富街*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 搜索 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明涉及數(shù)據(jù)處理技術(shù),揭露了一種表搜索方法、裝置、電子設(shè)備以及存儲介質(zhì),所述方法包括:對獲取的用戶輸入進(jìn)行類型識別,對類型識別結(jié)果為文本輸入的進(jìn)行數(shù)據(jù)清洗,對清洗數(shù)據(jù)抽取實(shí)體得到的輸入實(shí)體進(jìn)行向量計算得到第一表示向量,對預(yù)設(shè)的表數(shù)據(jù)庫中的表進(jìn)行向量計算得到第二表示向量,根據(jù)第一及第二表示向量相似度計算的結(jié)果從表數(shù)據(jù)庫中選取匹配表;若類型識別結(jié)果為表輸入,分別根據(jù)對用戶輸入及表數(shù)據(jù)庫中的每個表進(jìn)行表列名識別及內(nèi)容識別的結(jié)果計算每個表的表列名相關(guān)度及內(nèi)容相關(guān)度;根據(jù)表列名相關(guān)度及內(nèi)容相關(guān)度進(jìn)行綜合打分得到的綜合相關(guān)度從表數(shù)據(jù)庫中選取匹配表。本發(fā)明可以提高用戶輸入的表搜索效率及準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種表搜索方法、裝置、電子設(shè)備及計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
面對海量的數(shù)據(jù),用戶往往需要從中精準(zhǔn)搜索到有效數(shù)據(jù),表作為重要的數(shù)據(jù)存儲方式之一,便成為用戶搜索對象的載體。在使用過程中,表中既存在有效數(shù)據(jù)又含有大量的干擾數(shù)據(jù),因此快速識別用戶輸入、精準(zhǔn)匹配數(shù)據(jù)并滿足用戶需求有助于提高表搜索的高效性和精準(zhǔn)性?,F(xiàn)有的表搜索技術(shù)由于支持搜索的對象單一,缺乏完善的匹配機(jī)制,導(dǎo)致了基于用戶輸入的表搜索效率低以及準(zhǔn)確率低的問題,從而很難滿足用戶對所需數(shù)據(jù)的高效獲取。
發(fā)明內(nèi)容
本發(fā)明提供一種表搜索方法、裝置、電子設(shè)備及計算機(jī)可讀存儲介質(zhì),其主要目的在于解決基于用戶輸入的表搜索效率低以及準(zhǔn)確率低的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種表搜索方法,包括:
獲取用戶輸入,對所述用戶輸入進(jìn)行類型識別,根據(jù)類型識別的結(jié)果判斷所述用戶輸入為文本輸入還是表輸入;
當(dāng)所述用戶輸入為文本輸入時,對所述用戶輸入進(jìn)行數(shù)據(jù)清洗,得到清洗數(shù)據(jù),從所述清洗數(shù)據(jù)中抽取實(shí)體,得到輸入實(shí)體;
對所述輸入實(shí)體及預(yù)設(shè)的表數(shù)據(jù)庫中的表進(jìn)行向量計算,得到所述輸入實(shí)體的第一表示向量以及所述表數(shù)據(jù)庫中表的第二表示向量;
對所述第一表示向量以及所述第二表示向量進(jìn)行相似度計算,根據(jù)相似度計算的結(jié)果從所述表數(shù)據(jù)庫中選取匹配表;
當(dāng)所述用戶輸入為表輸入時,分別對所述用戶輸入以及所述表數(shù)據(jù)庫中的每個表進(jìn)行表列名識別和內(nèi)容識別,并根據(jù)表列名識別的結(jié)果及內(nèi)容識別的結(jié)果計算每個表的表列名相關(guān)度及內(nèi)容相關(guān)度;
根據(jù)所述表列名相關(guān)度及所述內(nèi)容相關(guān)度進(jìn)行綜合打分,得到綜合相關(guān)度,通過所述綜合相關(guān)度從所述表數(shù)據(jù)庫中選取匹配表。
可選地,所述對所述用戶輸入進(jìn)行類型識別,根據(jù)類型識別的結(jié)果判斷所述用戶輸入為文本輸入還是表輸入,包括:
提取所述用戶輸入的數(shù)據(jù)格式,得到目標(biāo)數(shù)據(jù)格式;
利用所述目標(biāo)數(shù)據(jù)格式在預(yù)設(shè)的文本數(shù)據(jù)格式集合及預(yù)設(shè)的表數(shù)據(jù)格式集合中進(jìn)行同類檢索,得到匹配類型;
若所述匹配類型屬于所述文本數(shù)據(jù)格式集合,則判定所述用戶輸入為文本輸入;
若所述匹配類型屬于所述表數(shù)據(jù)格式集合,則判定所述用戶輸入為表輸入。
可選地,所述對所述用戶輸入進(jìn)行數(shù)據(jù)清洗,得到清洗數(shù)據(jù),包括:
根據(jù)預(yù)設(shè)的文本規(guī)則對所述用戶輸入進(jìn)行句法分析,得到干擾數(shù)據(jù);
對所述干擾數(shù)據(jù)進(jìn)行過濾及數(shù)據(jù)糾正,得到清洗數(shù)據(jù)。
可選地,所述從所述清洗數(shù)據(jù)中抽取實(shí)體,得到輸入實(shí)體,包括:
對所述清洗數(shù)據(jù)進(jìn)行詞性分析及分詞處理,得到輸入分詞以及對應(yīng)的詞性;
獲取預(yù)設(shè)的停用詞性標(biāo)簽,根據(jù)所述詞性標(biāo)簽所述輸入分詞的詞性對所述輸入分詞進(jìn)行篩選,得到標(biāo)準(zhǔn)分詞;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于招商局金融科技有限公司,未經(jīng)招商局金融科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211201173.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗(yàn)設(shè)備、驗(yàn)證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點(diǎn)設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





