[發明專利]搜索詞和商品的相關性預測方法、設備和存儲介質有效
| 申請號: | 202010699655.8 | 申請日: | 2020-07-20 |
| 公開(公告)號: | CN111737418B | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 王江偉 | 申請(專利權)人: | 北京每日優鮮電子商務有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F16/9535;G06Q30/06 |
| 代理公司: | 北京華專卓海知識產權代理事務所(普通合伙) 11664 | 代理人: | 王一 |
| 地址: | 100102 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索詞 商品 相關性 預測 方法 設備 存儲 介質 | ||
本公開的實施例提供了搜索詞和商品的相關性預測方法、設備和存儲介質,其中,所述方法包括:接收當前用戶輸入的搜索詞,確定所述搜索詞的語義向量,所述語義向量用于表征所述搜索詞在詞典的語義向量空間中的位置;利用預先訓練的搜索推薦模型,確定所述搜索詞的語義向量對應的至少一個搜索結果項,所述搜索結果項為包括所述搜索詞,以及與所述搜索詞的相關性大于預設閾值的商品名和品類名的語義向量;確定所述搜索結果項在詞典的語義向量空間中的位置,并確定對應的商品信息;將所述商品信息推薦給所述當前用戶。以此方式,通過有監督學習,可以更好的學習出詞的向量表達,使得預測的相關性結果更加準確。
技術領域
本公開的實施例一般涉及搜索技術領域,并且更具體地,涉及搜索詞和商品的相關性預測方法、設備和存儲介質。
背景技術
當前主要的技術是選用所有的商品名作為語料,使用淺層的神經網絡,從商品名的上下文中學習到每一個詞的向量表達來表示其語義。在此基礎上,通過平均或求和等聚合方法,分別計算出搜索詞和商品名的向量表達,作為其語義表示。然后,計算兩個向量的余弦距離作為相關性分數。
但是,現有技術的效果依賴于語料的豐富程度,在電商領域商品標題一般較短,為短文本場景,包含的上下文信息比較少,在文本語料有限的場景下,很難學習到詞粒度的向量表達,從而也不能有效表達搜索詞和商品名的語義,當用戶通過搜索詞搜索意向商品時,推薦的搜索結果項準確性較低。
發明內容
有鑒于此,根據本公開的實施例,提供了一種滿足提高搜索結果項準確性,進而提高用戶體驗的搜索詞和商品的相關性預測方案。
在本公開的第一方面,提供了一種搜索詞和商品的相關性預測方法,包括:
接收當前用戶輸入的搜索詞,確定所述搜索詞的語義向量,所述語義向量用于表征所述搜索詞在詞典的語義向量空間中的位置;
利用預先訓練的搜索推薦模型,確定所述搜索詞的語義向量對應的至少一個搜索結果項,所述搜索結果項為包括所述搜索詞,以及與所述搜索詞的相關性大于預設閾值的商品名和品類名的語義向量;
確定所述搜索結果項在詞典的語義向量空間中的位置,并確定對應的商品信息;
將所述商品信息推薦給所述當前用戶。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,還包括詞典的語義向量空間的搭建過程,具體包括:
獲取用戶的歷史搜索行為日志中的搜索詞、商品名和品類名;
對搜索詞、商品名和品類名進行逐行編碼,生成語義向量空間,其中搜索詞、商品名和品類名的編碼為各自對應的行號。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述搜索推薦模型通過以下方式訓練得到:
獲取預設時間段內的用戶的行為日志,所述行為日志包括用戶的搜索請求和用戶對根據搜索請求返回的商品信息的響應動作;
將點擊率高于預設閾值的商品信息對應的搜索詞、以及商品信息中的商品名和品類名作為訓練正樣本;
將點擊率低于預設閾值的商品信息對應的搜索詞、以及商品信息中的商品名和品類名作為第一子訓練負樣本;
按照預設條件從所述訓練正樣本所屬品類和上級品類中選取商品信息對應的搜索詞、以及商品信息中的商品名和品類名作為第二子訓練負樣本;
將所述第一子訓練負樣本和所述第二子訓練負樣本進行融合,生成訓練負樣本;
在所述訓練正樣本和所述訓練負樣本中關聯加入品類特征,生成特征訓練正樣本和特征訓練負樣本,并映射為語義向量空間中的語義向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京每日優鮮電子商務有限公司,未經北京每日優鮮電子商務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010699655.8/2.html,轉載請聲明來源鉆瓜專利網。





