[發明專利]用戶查詢上下位關系提取的方法、裝置、電子設備和介質有效
| 申請號: | 201710260844.3 | 申請日: | 2017-04-20 |
| 公開(公告)號: | CN108733702B | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 張俊浩;江雪;徐夙龍 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;趙靜 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 查詢 下位 關系 提取 方法 裝置 電子設備 介質 | ||
本發明實施例提供一種用戶查詢上下位關系提取的方法、裝置、電子設備和介質,能夠在電商領域,進行上下位關系的用戶查詢的提取,從而為商品和廣告的召回提供有效的支撐。該方法包括:構造候選用戶查詢對;利用預先根據觀察指標設置的特征,將所述候選用戶查詢對表示為特征向量;在對所述候選用戶查詢對中預設數量的用戶查詢對進行人工標注之后,利用監督學習訓練分類器;利用訓練好的分類器判斷所述候選用戶查詢對中剩余的用戶查詢對是否符合上下位關系,輸出符合上下位關系的用戶查詢對作為提取結果。
技術領域
本發明涉及計算機技術領域,尤其涉及一種用戶查詢上下位關系提取的方法、裝置、電子設備和介質。
背景技術
上下位關系通常被當作一種詞匯語義關系來研究。語義相似的詞匯之間有著不同的關系類型,而上下位關系是指某個詞匯的語義包含另一個詞匯的語義,則語義被包含的詞匯稱為下位詞,另一個詞稱為上位詞。比如“動物”是“貓”的上位,“貓”是“動物”的下位。
在電商領域,用戶的搜索用戶查詢(query,即用戶的查詢條件,通常為一個短句)通常是針對某產品的描述。用戶查詢之間也存在上下位關系,比如用戶查詢“蘋果手機”是用戶查詢“智能手機”的下位,下位用戶查詢是上位用戶查詢的一個特化。當用戶輸入用戶查詢時,可以利用該用戶查詢的下位用戶查詢去檢索商品和廣告,檢索到的商品或廣告符合下位用戶查詢的語義,自然也符合上位用戶查詢的語義,檢索結果對于用戶來說是可以接受的。由此可以看出,在電商領域中,提取具有上下位關系的用戶查詢會對商品和廣告的召回有較大的幫助。
現有技術中,針對上下位關系提取的研究主要包括如下幾個方面:
針對詞匯上下位關系提取的方法主要有:1.基于兩個詞匯在同一個句子里共現時的路徑特征,利用模板或者分類器判斷是否為上下位關系;2.基于詞匯每次出現的上下文特征,包括基于分布式包含假設計算兩個特征向量之間的有向包含程度,和基于兩個詞匯的上下文特征向量直接訓練分類器。
在網頁搜索領域,有較少的研究分析用戶查詢的上下位關系。用戶查詢相比詞匯具有更豐富的語義,上位用戶查詢所含的多個詞匯的語義在下位用戶查詢中必須有相似表達或者特化的表達。比如“三星大屏手機”與“三星大屏幕智能機”構成上下位關系,但“三星大屏手機”與“三星4G手機”不構成上下位關系。現有技術中針對用戶查詢上下位關系的提取的研究比較成熟的是通過分析用戶的點擊數據得到用戶查詢的上下位關系。在分析用戶的點擊數據時,涉及以下3個假設:1.如果兩個用戶查詢相關,則兩個用戶查詢對應的點擊網頁集合需要有交集或者存在相似性;2.如果用戶查詢qi是用戶查詢qj的上位,則qj的大部分點擊網頁與qi的點擊網頁相似,而qi的點擊網頁只有部分與qj的點擊網頁相似;3.如果用戶查詢是下位,則它的點擊網頁的內容上一致性更高。通過假設1生成候選上下位用戶查詢對,通過假設2可設計一個包含關系,通過假設3可設計一個用戶查詢的泛化程度,然后利用這兩個指標設計閾值判斷候選上下位用戶查詢對是否為真。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
1、在網頁搜索領域和電商平臺領域,用戶查詢會話中的上下文用戶查詢并不足以準確刻畫用戶查詢的語義,同時用戶查詢之間不具有路徑特征,因此基于詞匯的上下位關系提取技術并不能直接適用于電商平臺領域用戶查詢的上下位提取;
2、而目前網頁搜索領域中,提取用戶查詢上下位關系時使用的特征較少,且在電商平臺上嚴格的網頁內容的一致性較難判斷(例如商品頁展示的商品的各種屬性要一致才可判斷內容的一致性)。由于缺乏針對電商平臺這個特殊場景上的技術優化,因此很難在保證預測候選用戶查詢對為正時有較高準確率(分類器判斷為正例的樣本中真實為正例的比例)的情況下,同時有較高的真實正例的召回率(真實為正例的樣本被分類器判斷為正例的比例)。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710260844.3/2.html,轉載請聲明來源鉆瓜專利網。





