[發明專利]對象匹配方法、模型訓練方法、產品匹配方法和存儲介質在審
| 申請號: | 202210435314.9 | 申請日: | 2022-04-24 |
| 公開(公告)號: | CN114860874A | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 陳犇;金林波;蔣文 | 申請(專利權)人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/166;G06F40/295;G06N3/08 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 謝湘寧;李靜茹 |
| 地址: | 311121 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對象 匹配 方法 模型 訓練 產品 存儲 介質 | ||
本申請公開了一種對象匹配方法、模型訓練方法、產品匹配方法和存儲介質。其中,該方法包括:獲取對象搜索請求和目標對象的描述信息;利用語義匹配模型對多個檢索關鍵詞和描述信息進行語義匹配,得到對象搜索請求與目標對象的目標匹配結果。本申請在模型的訓練過程中借助對抗訓練提升模型對關鍵詞堆疊文本冗余信息的抗干擾能力,而且,在對抗訓練的過程中融合了對比學習增強模型對正負樣本的區分,提升對象搜索請求和目標對象的描述信息的表征能力,從而可以達到提高語義匹配模型對細微語義的識別能力并提高魯棒性,進而達到提高模型識別準確率的技術效果,解決了現有技術中語義匹配模型識別準確率較低的技術問題。
技術領域
本申請涉及語義識別領域,具體而言,涉及一種對象匹配方法、模型訓練方法、產品匹配方法和存儲介質。
背景技術
語義匹配作為搜索領域的重要部分,可以使得每次用戶的搜索結果與用戶輸入的搜索文本相關,為達到較好的用戶搜索體驗效果,通常采用基于Transformer(Transformer是一個基于注意力機制的模型)的預訓練模型進行語義匹配。
但是,基于Transformer的預訓練模型通常是在大規模通用預料上所訓練得到的,不能很好的適配考慮細微語義差異的場景,例如,在線購物場景中,用戶輸入的搜索文本為“300ml健身水杯”的情況下,搜索結果會將各種容積的水杯排列在前,顯示給用戶,而并不關注水杯的容積是300ml。并且,用戶輸入的搜索文本通常并非完整的句子,而是關鍵詞的疊加,一些語序的變化,可能會造成模型匹配出錯誤的結果。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本申請實施例提供了一種對象匹配方法、模型訓練方法、產品匹配方法和存儲介質,以至少解決相關技術中的語義匹配準確率低的技術問題。
根據本申請實施例的一個方面,提供了一種對象匹配方法,包括:獲取對象搜索請求和目標對象的描述信息,其中,對象搜索請求由多個檢索關鍵詞疊加生成;利用語義匹配模型對多個檢索關鍵詞和描述信息進行語義匹配,得到對象搜索請求與目標對象的目標匹配結果,其中,語義匹配模型通過訓練樣本的第一匹配結果和對抗樣本的第二匹配結果對預訓練模型進行訓練得到,對抗樣本通過在訓練樣本上疊加噪聲數據生成,第一匹配結果通過第一匹配模型對訓練樣本進行處理所得到,第二匹配結果通過第二匹配模型對對抗樣本進行處理所得到,第一匹配模型和第二匹配模型分別采用兩個不同的丟棄率對預訓練模型中的部分神經元進行丟棄所得到。
根據本申請實施例的另一方面,還提供了一種對象匹配方法,包括:云服務器接收客戶端發送的對象搜索請求,其中,對象搜索請求由多個檢索關鍵詞疊加生成;云服務器基于對象搜索請求獲取目標對象的描述信息;云服務器利用語義匹配模型對多個檢索關鍵詞和描述信息進行語義匹配,得到對象搜索請求與目標對象的目標匹配結果,其中,語義匹配模型通過訓練樣本的第一匹配結果和對抗樣本的第二匹配結果對預訓練模型進行訓練得到,對抗樣本通過在訓練樣本上疊加噪聲數據生成,第一匹配結果通過第一匹配模型對訓練樣本進行處理所得到,第二匹配結果通過第二匹配模型對對抗樣本進行處理所得到,第一匹配模型和第二匹配模型分別采用兩個不同的丟棄率對預訓練模型中的部分神經元進行丟棄所得到;云服務器輸出目標匹配結果至客戶端。
根據本申請實施例的另一方面,還提供了一種產品匹配方法,包括:獲取產品搜索請求和目標產品的標題信息,其中,產品搜索請求由多個檢索關鍵詞疊加生成;利用語義匹配模型對多個檢索關鍵詞和標題信息進行語義匹配,得到產品搜索請求與目標產品的目標匹配結果,其中,語義匹配模型通過訓練樣本的第一匹配結果和對抗樣本的第二匹配結果對預訓練模型進行訓練得到,對抗樣本通過在訓練樣本上疊加噪聲數據生成,第一匹配結果通過第一匹配模型對訓練樣本進行處理所得到,第二匹配結果通過第二匹配模型對對抗樣本進行處理所得到,第一匹配模型和第二匹配模型分別采用兩個不同的丟棄率對預訓練模型中的部分神經元進行丟棄所得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴(中國)有限公司,未經阿里巴巴(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210435314.9/2.html,轉載請聲明來源鉆瓜專利網。





