[發(fā)明專利]文本匹配方法、裝置、存儲(chǔ)介質(zhì)和程序產(chǎn)品在審
| 申請(qǐng)?zhí)枺?/td> | 202111458767.5 | 申請(qǐng)日: | 2021-12-02 |
| 公開(公告)號(hào): | CN114297338A | 公開(公告)日: | 2022-04-08 |
| 發(fā)明(設(shè)計(jì))人: | 石志林 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/335;G06N3/08 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 熊永強(qiáng);賈允 |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 匹配 方法 裝置 存儲(chǔ) 介質(zhì) 程序 產(chǎn)品 | ||
1.一種文本匹配方法,其特征在于,所述方法包括:
獲取目標(biāo)矩陣結(jié)構(gòu)和待匹配文本的待匹配文本特征;其中,所述目標(biāo)矩陣結(jié)構(gòu)包括多個(gè)具有相同節(jié)點(diǎn)數(shù)的矩陣層,單層矩陣層中包括多個(gè)節(jié)點(diǎn),單個(gè)節(jié)點(diǎn)對(duì)應(yīng)若干個(gè)候選文本;
針對(duì)所述目標(biāo)矩陣結(jié)構(gòu)中的各矩陣層,通過目標(biāo)文本匹配模型對(duì)所述待匹配文本特征進(jìn)行概率分布預(yù)測(cè)處理,得到所述各矩陣層對(duì)應(yīng)的概率分布結(jié)果;其中,所述概率分布結(jié)果表征所述待匹配文本特征針對(duì)單個(gè)矩陣層中各節(jié)點(diǎn)的概率分布;
基于所述概率分布結(jié)果分別對(duì)所述各矩陣層中的節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)篩選處理,得到所述待匹配文本特征在所述各矩陣層中對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn);
將所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)的候選文本確定為與所述待匹配文本匹配的目標(biāo)文本;
其中,所述目標(biāo)文本匹配模型是以候選文本作為訓(xùn)練樣本,根據(jù)無監(jiān)督學(xué)習(xí)方法對(duì)基于所述目標(biāo)矩陣結(jié)構(gòu)構(gòu)建的初始預(yù)測(cè)模型,進(jìn)行針對(duì)目標(biāo)矩陣結(jié)構(gòu)的各矩陣層的概率分布預(yù)測(cè)和所述候選文本的節(jié)點(diǎn)表示更新的迭代訓(xùn)練得到的。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)文本匹配模型包括多個(gè)匹配子模型,所述匹配子模型與所述矩陣層一一對(duì)應(yīng);
所述針對(duì)所述目標(biāo)矩陣結(jié)構(gòu)中的各矩陣層,通過目標(biāo)文本匹配模型對(duì)所述待匹配文本特征進(jìn)行概率分布預(yù)測(cè)處理,得到所述各矩陣層對(duì)應(yīng)的概率分布結(jié)果包括:
將所述待匹配文本特征作為所述目標(biāo)矩陣結(jié)構(gòu)的第一層矩陣層對(duì)應(yīng)的匹配子模型的輸入,以進(jìn)行所述待匹配文本特征的概率分布預(yù)測(cè)處理,得到所述第一層矩陣層對(duì)應(yīng)的概率分布值和概率分布特征;
將所述第一層矩陣層對(duì)應(yīng)的概率分布特征與所述待匹配文本特征進(jìn)行拼接處理,得到第一拼接特征;
以所述第一拼接特征作為第二層矩陣層對(duì)應(yīng)的匹配子模型的輸入,以進(jìn)行所述第一拼接特征的概率分布預(yù)測(cè)處理,得到所述第二層矩陣層對(duì)應(yīng)的概率分布值和概率分布特征;
重復(fù)執(zhí)行將輸入當(dāng)前層矩陣層對(duì)應(yīng)的匹配子模型的拼接特征,與所述當(dāng)前矩陣層對(duì)應(yīng)的匹配子模型輸出的概率分布特征進(jìn)行拼接處理,得到更新的拼接特征,以及以更新的拼接特征作為下一層矩陣層對(duì)應(yīng)的匹配子模型的輸入,以進(jìn)行所述更新的拼接特征的概率分布預(yù)測(cè)處理,得到所述下一層矩陣層對(duì)應(yīng)的概率分布值和概率分布特征的步驟,至得到所述目標(biāo)矩陣結(jié)構(gòu)的最后一層矩陣層對(duì)應(yīng)的概率分布值和概率分布特征。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述概率分布結(jié)果分別對(duì)所述各矩陣層中的節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)篩選處理,得到所述待匹配文本特征在所述各矩陣層中對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)包括:
基于各矩陣層對(duì)應(yīng)的概率分布值,分別對(duì)所述各矩陣層各自的節(jié)點(diǎn)進(jìn)行節(jié)點(diǎn)概率排序;
基于所述節(jié)點(diǎn)概率排序,分別從所述各矩陣層各自的節(jié)點(diǎn)中篩選出預(yù)設(shè)數(shù)量的節(jié)點(diǎn),得到所述各矩陣層各自對(duì)應(yīng)的目標(biāo)節(jié)點(diǎn)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述獲取目標(biāo)矩陣結(jié)構(gòu)和待匹配文本的待匹配文本特征之前,所述方法還包括:
構(gòu)建具有預(yù)設(shè)的矩陣長(zhǎng)度和矩陣寬度的矩陣,得到所述目標(biāo)矩陣結(jié)構(gòu);所述預(yù)設(shè)寬度為所述目標(biāo)矩陣結(jié)構(gòu)包括的矩陣層數(shù);
獲取多個(gè)候選文本;
初始化所述多個(gè)候選文本在所述目標(biāo)矩陣結(jié)構(gòu)的各矩陣層中的節(jié)點(diǎn)表示,得到所述多個(gè)候選文本中每個(gè)候選文本在各矩陣層中的節(jié)點(diǎn)表示。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述初始化所述多個(gè)候選文本在所述目標(biāo)矩陣結(jié)構(gòu)的各矩陣層中的節(jié)點(diǎn)表示包括:
針對(duì)所述目標(biāo)矩陣結(jié)構(gòu)的每層矩陣層,基于預(yù)設(shè)分配方式將所述多個(gè)候選文本分配至所述矩陣層中的各節(jié)點(diǎn),得到所述多個(gè)候選文本中每個(gè)候選文本在在各矩陣層中的節(jié)點(diǎn)表示。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
構(gòu)建所述目標(biāo)矩陣結(jié)構(gòu)的各矩陣層各自對(duì)應(yīng)的預(yù)測(cè)子模型;
建立各預(yù)測(cè)子模型間的連接關(guān)系,得到所述初始預(yù)測(cè)模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111458767.5/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





