[發明專利]用戶查詢上下位關系提取的方法、裝置、電子設備和介質有效
| 申請號: | 201710260844.3 | 申請日: | 2017-04-20 |
| 公開(公告)號: | CN108733702B | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 張俊浩;江雪;徐夙龍 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;趙靜 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 查詢 下位 關系 提取 方法 裝置 電子設備 介質 | ||
1.一種用戶查詢上下位關系提取的方法,其特征在于,包括:
構造候選用戶查詢對;
利用預先根據觀察指標設置的特征,將所述候選用戶查詢對表示為特征向量;
在對所述候選用戶查詢對中預設數量的用戶查詢對進行人工標注之后,利用監督學習訓練分類器;
利用訓練好的分類器判斷所述候選用戶查詢對中剩余的用戶查詢對是否符合上下位關系,輸出符合上下位關系的用戶查詢對作為提取結果;
其中,所述觀察指標包括以下一種或幾種:
觀察指標一:上位用戶查詢展示的自然結果數大于下位用戶查詢展示的自然結果數;
觀察指標二:上位用戶查詢展示的自然結果集合包含下位用戶查詢展示的自然結果集合的程度,大于下位用戶查詢展示的自然結果集合包含上位用戶查詢展示的自然結果集合的程度;
觀察指標三:上位用戶查詢與下位用戶查詢展示的自然結果集合重疊數量越大,上位用戶查詢展示的自然結果集合包含關系置信度越高;
觀察指標四:上位用戶查詢點擊的自然結果數大于下位用戶查詢點擊的自然結果數;
觀察指標五:上位用戶查詢點擊的自然結果集合包含下位用戶查詢點擊的自然結果集合的程度,大于下位用戶查詢點擊的自然結果集合包含上位用戶查詢點擊的自然結果集合的程度;
觀察指標六:上位用戶查詢與下位用戶查詢點擊的自然結果集合的重疊數量越大,上位用戶查詢點擊的自然結果集合包含關系置信度越高。
2.根據權利要求1所述的方法,其特征在于,構造候選用戶查詢對包括:
對用戶查詢進行聚類;
然后將類內用戶查詢兩兩組合,構成候選用戶查詢對。
3.根據權利要求2所述的方法,其特征在于,對用戶查詢進行聚類包括:
根據用戶的Session數據構建圖,其中,以用戶查詢作為圖的節點,然后對在窗口內的共現次數超過預設閾值的用戶查詢節點進行連接作為圖的邊,邊權為以下四個值的乘積:用戶查詢共現次數、用戶查詢進行切詞后詞匯集合的相似度、用戶查詢的embedding向量相似度、用戶查詢點擊的自然結果集合的相似度;以及
利用標簽傳播算法對圖上的用戶查詢節點進行聚類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710260844.3/1.html,轉載請聲明來源鉆瓜專利網。





