[發(fā)明專利]信息檢索方法、裝置、設(shè)備及介質(zhì)有效
| 申請?zhí)枺?/td> | 202110076199.6 | 申請日: | 2021-01-20 |
| 公開(公告)號: | CN112860848B | 公開(公告)日: | 2022-03-25 |
| 發(fā)明(設(shè)計)人: | 嚴(yán)為絨;喬建秀;劉元震 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/338;G06K9/62 |
| 代理公司: | 深圳市賽恩倍吉知識產(chǎn)權(quán)代理有限公司 44334 | 代理人: | 孫芬;劉麗華 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信息 檢索 方法 裝置 設(shè)備 介質(zhì) | ||
本發(fā)明涉及人工智能領(lǐng)域,提供一種信息檢索方法、裝置、設(shè)備及介質(zhì),能夠基于Pointwise和Pairwise相結(jié)合的LTR排序模型,并使用BERT深度學(xué)習(xí)和三元組TripleLoss損失函數(shù)等對召回結(jié)果做更精細(xì)化的排序,通過計算查詢問題與召回的所有文檔之間的相關(guān)性對文檔進行排序,以返回給用戶更優(yōu)的排序結(jié)果。此外,本發(fā)明還涉及區(qū)塊鏈技術(shù),目標(biāo)模型可存儲于區(qū)塊鏈節(jié)點中。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種信息檢索方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù)
信息檢索領(lǐng)域中,在基于機器學(xué)習(xí)排序模型(Learning to Rank,LTR)來解決文檔排序問題時,主要依賴復(fù)雜的手工特征構(gòu)建過程。
針對上述問題,目前搜索、推薦和廣告算法等相關(guān)業(yè)務(wù)中都開始引入BERT模型來實現(xiàn)排序任務(wù),將問題和文檔的表示映射到向量空間中,通過神經(jīng)網(wǎng)絡(luò)來計算相似度,從而避免了復(fù)雜的手工特征構(gòu)建過程。
然而,原生態(tài)的BERT模型本身對句子的表征能力不強,并且,在計算文本語義相似度時,原生態(tài)BERT需要輸入兩個句子,導(dǎo)致句對回歸計算開銷大,同時,采用單獨學(xué)習(xí)排序特征的方式,排序效果也有待提高。
發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提供一種信息檢索方法、裝置、設(shè)備及介質(zhì),能夠基于Pointwise和Pairwise相結(jié)合的LTR排序模型,并使用BERT深度學(xué)習(xí)和三元組TripleLoss損失函數(shù)等對召回結(jié)果做更精細(xì)化的排序,通過計算查詢問題與召回的所有文檔之間的相關(guān)性對文檔進行排序,以返回給用戶更優(yōu)的排序結(jié)果。
一種信息檢索方法,所述信息檢索方法包括:
響應(yīng)于信息檢索指令,根據(jù)所述信息檢索指令獲取訓(xùn)練數(shù)據(jù);
從所述訓(xùn)練數(shù)據(jù)中識別問題數(shù)據(jù)及文檔數(shù)據(jù),并對所述問題數(shù)據(jù)及所述文檔數(shù)據(jù)進行拼接處理,得到樣本序列;
調(diào)用初始網(wǎng)絡(luò),并根據(jù)所述樣本序列對所述初始網(wǎng)絡(luò)進行預(yù)訓(xùn)練,得到中間模型;
計算所述文檔數(shù)據(jù)與所述問題數(shù)據(jù)間的相似度,根據(jù)所述文檔數(shù)據(jù)與所述問題數(shù)據(jù)間的相似度將所述文檔數(shù)據(jù)拆分為正樣本及負(fù)樣本;
根據(jù)所述問題數(shù)據(jù)、所述正樣本及所述負(fù)樣本構(gòu)建三元組;
構(gòu)建目標(biāo)損失函數(shù);
根據(jù)所述三元組及所述目標(biāo)損失函數(shù)訓(xùn)練所述中間模型,得到目標(biāo)模型;
當(dāng)接收到待查詢問題及對應(yīng)的至少一個查詢文檔時,將所述待查詢問題及所述至少一個查詢文檔輸入至所述目標(biāo)模型,得到所述至少一個查詢文檔的排序結(jié)果,并將所述排序結(jié)果確定為所述待查詢問題的查詢結(jié)果。
根據(jù)本發(fā)明優(yōu)選實施例,所述根據(jù)所述信息檢索指令獲取訓(xùn)練數(shù)據(jù)包括:
解析所述信息檢索指令的方法體,得到所述信息檢索指令所攜帶的信息;
獲取與領(lǐng)域?qū)?yīng)的預(yù)設(shè)標(biāo)簽;
根據(jù)所述預(yù)設(shè)標(biāo)簽構(gòu)建正則表達式;
利用所述正則表達式在所述信息檢索指令所攜帶的信息中進行遍歷,并將遍歷到的數(shù)據(jù)確定為目標(biāo)領(lǐng)域;
連接配置數(shù)據(jù)庫,并從所述配置數(shù)據(jù)庫中搜索與所述目標(biāo)領(lǐng)域?qū)?yīng)的數(shù)據(jù)作為所述訓(xùn)練數(shù)據(jù)。
根據(jù)本發(fā)明優(yōu)選實施例,采用下述公式對所述問題數(shù)據(jù)及所述文檔數(shù)據(jù)進行拼接處理,得到樣本序列:
Xi=[CLS,Qm,SEP,Dj,SEP]
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110076199.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





