[發明專利]一種搜索召回方法及裝置有效
| 申請號: | 201811533531.1 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN111400577B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 王濤;李林琳;司羅 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F40/295 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 李丹;栗若木 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 召回 方法 裝置 | ||
1.一種搜索召回方法,包括:
獲取待識別商品標題的品類詞實體正樣例和品類詞實體負樣例,作為候選品類詞實體;
利用第二數量的預先獲得的品類詞實體的正樣例樣本和負樣例樣本訓練生成短語切分模型;
將候選品類詞實體輸入所述短語切分模型,獲取第一品類詞實體;
按照設置的過濾策略對第一品類詞實體進行過濾得到待識別商品標題的品類詞實體;
其中,所述訓練生成短語切分模型包括:根據短語質量策略對所述正樣例樣本和所述負樣例樣本分別計算短語質量得分,根據詞性質量策略對所述正樣例樣本和所述負樣例樣本分別計算詞性質量得分;將所有得分輸入預先設置的最大化整體得分目標函數,使用動態規劃算法計算得到目標函數的參數,以學習得到所述短語切分模型;其中,短語質量得分,用于衡量一個詞序列構成短語的概率;詞性質量得分,用于考察語法層面的信息;
所述過濾策略包括以下至少一項:所述第一品類詞實體是否被用戶在搜索引擎中大量搜索過,如果所述第一品類詞實體出現在用戶搜索信息庫中且出現次數超過預先設置的次數閾值,則對所述第一品類詞實體進行加分;所述第一品類詞實體是否在屬性填寫中被商品賣家主動填寫過,如果所述第一品類詞實體出現在商品賣家主動填寫的屬性庫中,則對所述第一品類詞實體進行加分;所述第一品類詞實體是否出現在類目名稱中,如果所述第一品類詞實體出現在類目名稱中,則對所述第一品類詞實體進行加分;計算所述第一品類詞實體的類目分布的詞頻/逆文檔頻率TF/IDF得分,得分越高則表明該第一品類詞實體越可能是完整的詞,對所述第一品類詞實體進行加分。
2.根據權利要求1所述的搜索召回方法,所述方法還包括獲取命名實體識別NER模型,包括:
從多語言商品庫中獲取第一數量的商品標題樣本,通過標注獲取每個商品標題樣本的正樣例樣本和負樣例樣本;
將正樣例樣本和負樣例樣本輸入預先設置的條件隨機場CRF模型進行訓練,確定模型的參數以得到所述NER模型。
3.根據權利要求2所述的搜索召回方法,其中,所述獲取品類詞實體正樣例包括:
將所述待識別商品標題輸入所述NER模型,經過所述NER模型的處理得到的品類詞實體作為所述品類詞實體正樣例。
4.根據權利要求1所述的搜索召回方法,其中,所述獲取品類詞實體正樣例包括:
通過對所述待識別商品標題進行標注來獲取所述品類詞實體正樣例。
5.根據權利要求1所述的搜索召回方法,其中,所述獲取品類詞實體負樣例包括:
利用N元N-Gram模型對所述待識別商品標題進行分析,獲取所述品類詞實體負樣例。
6.根據權利要求1所述的搜索召回方法,其中,所述獲取第一品類詞實體,可以包括:
將獲取的每個所述候選品類詞實體輸入所述短語切分模型,分別計算短語質量得分和詞性質量得分;
按照得分從高到低排序后,將第一數目個得分高的品類詞實體作為所述第一品類詞實體。
7.根據權利要求2所述的搜索召回方法,其中,所述多語言商品庫包括以下至少一種語言:英語、泰語、印度語、越語、中文、菲律賓語。
8.一種計算機可讀存儲介質,存儲有計算機可執行指令,所述計算機可執行指令用于執行權利要求1~權利要求7任一項所述的搜索召回方法。
9.一種用于搜索召回的裝置,包括存儲器和處理器,其中,存儲器中存儲有以下可被處理器執行的指令:用于執行權利要求1~權利要求7任一項所述的搜索召回方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811533531.1/1.html,轉載請聲明來源鉆瓜專利網。





