[發(fā)明專利]一種文本檢索方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202111609947.9 | 申請(qǐng)日: | 2021-12-27 |
| 公開(kāi)(公告)號(hào): | CN114003698B | 公開(kāi)(公告)日: | 2022-04-01 |
| 發(fā)明(設(shè)計(jì))人: | 郭湘;黃鵬;江嶺 | 申請(qǐng)(專利權(quán))人: | 成都曉多科技有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06K9/62 |
| 代理公司: | 成都睿道專利代理事務(wù)所(普通合伙) 51217 | 代理人: | 薛波 |
| 地址: | 610000 四川省成都*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 檢索 方法 系統(tǒng) 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供了一種文本檢索方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì),步驟如下:利用預(yù)訓(xùn)練語(yǔ)言模型作為編碼器,通過(guò)編碼器對(duì)一批標(biāo)注過(guò)后的相似句對(duì)進(jìn)行自注意力和掩碼處理;對(duì)最終編碼進(jìn)行池化處理,根據(jù)交叉熵?fù)p失函數(shù)指導(dǎo)訓(xùn)練;通過(guò)數(shù)據(jù)增強(qiáng)為輸入構(gòu)造正樣本,將及輸入編碼器,得到表示向量和;計(jì)算表示向量與批內(nèi)其他向量的相似度,根據(jù)相似度對(duì)候選文本排序,通過(guò)最終損失函數(shù)指導(dǎo)網(wǎng)絡(luò)參數(shù)的迭代訓(xùn)練;基于訓(xùn)練好的模型進(jìn)行文本檢索。本申請(qǐng)通過(guò)加入有標(biāo)注樣本的有監(jiān)督訓(xùn)練,可增強(qiáng)模型的泛化能力;基于注意力掩碼機(jī)制,模型本身會(huì)有相似度文本推理能力;基于對(duì)比學(xué)習(xí),用無(wú)監(jiān)督的方式使得模型具有文本檢索的能力。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,具體而言,涉及一種文本檢索方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
在當(dāng)前互聯(lián)網(wǎng)下,搜索已經(jīng)成為人們了解世界的主要方式,而搜索最核心的則是文本的相關(guān)性的判定。之前的文本相似性的判定,主要通過(guò)標(biāo)注相似文本對(duì),讓模型進(jìn)行有監(jiān)督的訓(xùn)練,比如傳統(tǒng)的雙塔模型DSSM, ESIM等等都是如此,然而上述方法至少存在以下缺點(diǎn):(1)標(biāo)注會(huì)消耗大量的人力,不適用于大規(guī)模的文本檢索任務(wù),比如百度搜索;(2)不適用領(lǐng)域外數(shù)據(jù),因?yàn)槠鋽?shù)據(jù)分布和標(biāo)注不相符;(3)模型更新會(huì)非常困難,自然語(yǔ)言日新月異,涉及到新詞時(shí),就需要再標(biāo)注,再訓(xùn)練才能夠完成文本檢索。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種文本檢索方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì),只需少量標(biāo)注數(shù)據(jù)用于有監(jiān)督學(xué)習(xí),并用對(duì)比學(xué)習(xí)的方式在大批量的數(shù)據(jù)集上進(jìn)行無(wú)監(jiān)督訓(xùn)練,適用于全領(lǐng)域文本檢索,旨在解決背景技術(shù)中所指出的問(wèn)題。
本發(fā)明的實(shí)施例通過(guò)以下技術(shù)方案實(shí)現(xiàn):一種文本檢索方法,包括如下步驟:
S1.利用預(yù)訓(xùn)練語(yǔ)言模型作為編碼器,通過(guò)編碼器對(duì)一批標(biāo)注過(guò)后的相似句進(jìn)行自注意力和局部掩碼處理;
S2.對(duì)網(wǎng)絡(luò)最后一層的最終編碼進(jìn)行最大池化和平均池化并對(duì)兩個(gè)結(jié)果進(jìn)行拼接,通過(guò)softmax函數(shù)以及交叉熵計(jì)算編碼器的損失函數(shù),根據(jù)損失函數(shù)指導(dǎo)編碼器的訓(xùn)練;
S3.給定輸入,通過(guò)數(shù)據(jù)增強(qiáng)的方式構(gòu)造正樣本,將以及輸入編碼器進(jìn)行擬合訓(xùn)練,得到兩個(gè)表示向量和;
S4.分別計(jì)算所述表示向量與批內(nèi)其他向量的相似度,以該相似度作為檢索匹配分?jǐn)?shù)對(duì)候選文本進(jìn)行排序,通過(guò)softmax函數(shù)以及交叉熵計(jì)算模型的最終損失函數(shù),根據(jù)最終損失函數(shù)指導(dǎo)網(wǎng)絡(luò)參數(shù)的迭代訓(xùn)練;
S5.基于訓(xùn)練好的模型進(jìn)行文本檢索。
進(jìn)一步地,所述預(yù)訓(xùn)練語(yǔ)言模型采用Bert、Roberta或tiny_bert其中之一。
根據(jù)一種優(yōu)選實(shí)施方式,所述預(yù)訓(xùn)練語(yǔ)言模型采用Bert結(jié)構(gòu),其中,所述通過(guò)編碼器對(duì)一批標(biāo)注過(guò)后的相似句進(jìn)行自注意力和局部掩碼處理包括:
將一批經(jīng)過(guò)標(biāo)注處理的相似句輸入Bert中,利用注意力層進(jìn)行局部掩碼,表達(dá)式如下:
上式中,,其中分別表示的向量序列,表示網(wǎng)絡(luò)層,表示上一層的輸出,表示可訓(xùn)練的參數(shù),表示的向量?jī)蓛勺鰞?nèi)積,表示編碼的維度數(shù)量,表示歸一化函數(shù),表示是否進(jìn)行,指矩陣,
根據(jù)一種優(yōu)選實(shí)施方式,所述對(duì)網(wǎng)絡(luò)最后一層的最終編碼進(jìn)行最大池化和平均池化并對(duì)兩個(gè)結(jié)果進(jìn)行拼接的表達(dá)式如下:
上式中,表示權(quán)重參數(shù),表示網(wǎng)絡(luò)最后一層的最終編碼,表示最大池化操作,表示平均池化操作;
所述通過(guò)softmax函數(shù)以及交叉熵計(jì)算編碼器的損失函數(shù)的表達(dá)式如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都曉多科技有限公司,未經(jīng)成都曉多科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111609947.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





