[發(fā)明專利]一種文本檢索方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202111609947.9 | 申請(qǐng)日: | 2021-12-27 |
| 公開(kāi)(公告)號(hào): | CN114003698B | 公開(kāi)(公告)日: | 2022-04-01 |
| 發(fā)明(設(shè)計(jì))人: | 郭湘;黃鵬;江嶺 | 申請(qǐng)(專利權(quán))人: | 成都曉多科技有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06K9/62 |
| 代理公司: | 成都睿道專利代理事務(wù)所(普通合伙) 51217 | 代理人: | 薛波 |
| 地址: | 610000 四川省成都*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 檢索 方法 系統(tǒng) 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種文本檢索方法,其特征在于,包括如下步驟:
S1.利用Bert結(jié)構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型作為編碼器,通過(guò)編碼器對(duì)一批標(biāo)注過(guò)后的相似句進(jìn)行自注意力和局部掩碼處理,具體包括:將一批經(jīng)過(guò)標(biāo)注處理的相似句輸入Bert中,利用注意力層進(jìn)行局部掩碼;
S2.對(duì)網(wǎng)絡(luò)最后一層的最終編碼進(jìn)行最大池化和平均池化并對(duì)兩個(gè)結(jié)果進(jìn)行拼接,通過(guò)softmax函數(shù)以及交叉熵計(jì)算編碼器的損失函數(shù),根據(jù)損失函數(shù)指導(dǎo)編碼器的訓(xùn)練;
S3.給定輸入,通過(guò)數(shù)據(jù)增強(qiáng)的方式構(gòu)造正樣本,將以及輸入編碼器進(jìn)行擬合訓(xùn)練,得到兩個(gè)表示向量和;
S4.分別計(jì)算所述表示向量與批內(nèi)其他向量的相似度,以該相似度作為檢索匹配分?jǐn)?shù)對(duì)候選文本進(jìn)行排序,通過(guò)softmax函數(shù)以及交叉熵計(jì)算模型的最終損失函數(shù),根據(jù)最終損失函數(shù)指導(dǎo)網(wǎng)絡(luò)參數(shù)的迭代訓(xùn)練;
S5.基于訓(xùn)練好的模型進(jìn)行文本檢索。
2.如權(quán)利要求1所述的文本檢索方法,其特征在于,所述預(yù)訓(xùn)練語(yǔ)言模型采用Bert、Roberta或tiny_bert其中之一。
3.如權(quán)利要求1所述的文本檢索方法,其特征在于,所述將一批經(jīng)過(guò)標(biāo)注處理的相似句輸入Bert中,利用注意力層進(jìn)行局部掩碼,表達(dá)式如下:
上式中,,其中分別表示的向量序列,表示網(wǎng)絡(luò)層,表示上一層的輸出,表示可訓(xùn)練的參數(shù),表示的向量?jī)蓛勺鰞?nèi)積,表示編碼的維度數(shù)量,表示歸一化函數(shù),表示是否進(jìn)行,指矩陣,
4.如權(quán)利要求1所述的文本檢索方法,其特征在于,所述對(duì)網(wǎng)絡(luò)最后一層的最終編碼進(jìn)行最大池化和平均池化并對(duì)兩個(gè)結(jié)果進(jìn)行拼接的表達(dá)式如下:
上式中,表示權(quán)重參數(shù),表示網(wǎng)絡(luò)最后一層的最終編碼,表示最大池化操作,表示平均池化操作;
所述通過(guò)softmax函數(shù)以及交叉熵計(jì)算編碼器的損失函數(shù)的表達(dá)式如下:
上式中,表示交叉熵?fù)p失函數(shù),表示相似句子對(duì)對(duì)應(yīng)的真實(shí)標(biāo)簽。
5.如權(quán)利要求1所述的文本檢索方法,其特征在于,所述數(shù)據(jù)增強(qiáng)的方式包括但不限于同義詞替換、句子截?cái)唷⒎聪蚍g、增加標(biāo)點(diǎn)符號(hào)、刪除不重要的單詞和語(yǔ)序重排其中的一種。
6.如權(quán)利要求1所述的文本檢索方法,其特征在于,所述通過(guò)數(shù)據(jù)增強(qiáng)的方式采用同義詞替換,其中,所述通過(guò)數(shù)據(jù)增強(qiáng)的方式構(gòu)造正樣本包括:
對(duì)進(jìn)行切詞,并從中挑選出現(xiàn)在同義詞數(shù)據(jù)集中的詞組成集;
生成一個(gè)小于集長(zhǎng)度的隨機(jī)數(shù),利用均勻分布從集中進(jìn)行同義詞替換,表達(dá)式如下:
上式中,表示集的長(zhǎng)度。
7.如權(quán)利要求1所述的文本檢索方法,其特征在于,所述通過(guò)softmax函數(shù)以及交叉熵計(jì)算模型的最終損失函數(shù),所得到的最終損失函數(shù)表示為:
上式中,表示指標(biāo),僅當(dāng)
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都曉多科技有限公司,未經(jīng)成都曉多科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111609947.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





