[發(fā)明專利]一種搜索召回方法及裝置有效
| 申請?zhí)枺?/td> | 201811533531.1 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN111400577B | 公開(公告)日: | 2023-06-30 |
| 發(fā)明(設(shè)計)人: | 王濤;李林琳;司羅 | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F40/295 |
| 代理公司: | 北京安信方達知識產(chǎn)權(quán)代理有限公司 11262 | 代理人: | 李丹;栗若木 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 搜索 召回 方法 裝置 | ||
本申請公開了一種搜索召回方法及裝置,本申請通過短語切分模型和過濾策略對待識別商品標題的處理,提高了品類詞挖掘的準確率,而且,通過自動化過程,大大提高了挖掘效率,也大大降低了人工成本。
技術(shù)領(lǐng)域
本申請涉及但不限于計算機技術(shù),尤指一種搜索召回方法及裝置。
背景技術(shù)
品類詞實體包括電商標題或詢問(query)中描述的對應商品實體的名稱,比如:mp3player、cat?eye、sport?shoe、圍巾等。
相關(guān)技術(shù)中挖掘品類詞實體的方法主要是借助于賣家主動填寫的屬性信息。一方面,這些屬性值都是賣家主動填寫的,質(zhì)量參差不齊,這種通過從屬性中抽取描述產(chǎn)品類型的屬性值來獲取品類詞實體的方法,對賣家填寫信息依賴較大,賣家未填寫的部分是覆蓋不到的,造成了品類詞實體挖掘不全面、不準確;另一方面,抽取的詞需要大量的人工審核后才能得到真正需要的品類詞實體,無形中增大了成本。而且,對于如服務于東南亞買賣家的電商平臺,包含英、泰、印、越、菲等5種主要語言,每種語言在平臺都會有對應的搜索入口,在東南亞的買家在平臺上購物時,買家通常會優(yōu)先使用自己熟悉的語言,如泰語、印尼語等輸入檢索關(guān)鍵詞,搜索展示時,需要根據(jù)每種語言返回相關(guān)的商品,也就是說在多語言環(huán)境下搜索召回是有一定問題的。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N搜索召回方法及裝置,能夠提高品類詞全面挖掘的準確率,降低成本。
本發(fā)明實施例提供了一種搜索召回方法,包括:
獲取待識別商品標題的品類詞實體正樣例和品類詞實體負樣例,作為候選品類詞實體;
將候選品類詞實體輸入短語切分模型,獲取第一品類詞實體;
按照設(shè)置的過濾策略對第一品類詞實體進行過濾得到待識別商品標題的品類詞實體。
可選地,所述方法還包括獲取命名實體識別NER模型,包括:
從多語言商品庫中獲取第一數(shù)量的商品標題樣本,通過標注獲取每個商品標題樣本的正樣例樣本和負樣例樣本;
將正樣例樣本和負樣例樣本輸入預先設(shè)置的條件隨機場CRF模型進行訓練,確定模型的參數(shù)以得到所述NER模型。
可選地,所述獲取品類詞實體正樣例包括:
將所述待識別商品標題輸入所述NER模型,經(jīng)過所述NER模型的處理得到的品類詞實體作為所述品類詞實體正樣例。
可選地,所述獲取品類詞實體正樣例包括:
通過對所述待識別商品標題進行標注來獲取所述品類詞實體正樣例。
可選地,所述獲取品類詞實體負樣例包括:
利用N元N-Gram模型對所述待識別商品標題進行分析,獲取所述品類詞實體負樣例。
可選地,所述方法還包括:利用第二數(shù)量的預先獲得的品類詞實體的正樣例樣本和負樣例樣本訓練生成所述短語切分模型;其中,訓練生成短語切分模型包括:
根據(jù)短語質(zhì)量策略對所述正樣例樣本和所述負樣例樣本分別計算短語質(zhì)量得分,根據(jù)詞性質(zhì)量策略對所述正樣例樣本和所述負樣例樣本分別計算詞性質(zhì)量得分;
將所有得分輸入預先設(shè)置的最大化整體得分目標函數(shù),使用動態(tài)規(guī)劃算法計算得到目標函數(shù)的參數(shù),以學習得到所述短語切分模型;
其中,短語質(zhì)量得分,用于衡量一個詞序列構(gòu)成短語的概率;詞性質(zhì)量得分,用于考察語法層面的信息。
可選地,所述獲取第一品類詞實體,可以包括:
將獲取的每個所述候選品類詞實體輸入所述短語切分模型,分別計算短語質(zhì)量得分和詞性質(zhì)量得分;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811533531.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





