[發明專利]訪問意圖挖掘方法及裝置有效
| 申請號: | 201810719792.6 | 申請日: | 2018-07-03 |
| 公開(公告)號: | CN110737823B | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 沈璠;王曉元;馬宇峰;葉峻 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/955 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訪問 意圖 挖掘 方法 裝置 | ||
1.一種訪問意圖挖掘方法,其特征在于,包括:
獲取用戶在網站上的至少一個訪問行為;所述訪問行為中包括:用戶此次訪問的第一個頁面地址,和/或,用戶此次訪問所采用的檢索詞;
根據所述頁面地址和/或所述檢索詞,查詢預設的意圖庫,獲取所述頁面地址對應的訪問意圖,和/或,所述檢索詞對應的訪問意圖;所述意圖庫中包括:各個頁面地址對應的訪問意圖,以及各個檢索詞對應的訪問意圖;
根據所述頁面地址對應的訪問意圖,和/或,所述檢索詞對應的訪問意圖,確定所述用戶對所述網站的訪問意圖;
還包括:
獲取預設歷史時間段內所述用戶在所述網站上的檢索行為;所述檢索行為包括:檢索詞與目標頁面地址的對應關系;所述目標頁面地址,為所述用戶在頁面上輸入所述檢索詞后所打開的頁面的地址;
針對所述檢索行為,獲取所述檢索行為中的所有檢索詞,從所有檢索詞中提取意圖詞;
針對每個目標頁面地址,獲取與所述目標頁面地址對應的至少一個檢索詞,從所述至少一個檢索詞中提取關鍵詞;
在存在與所述關鍵詞匹配的意圖詞時,將所述關鍵詞確定為所述目標頁面地址對應的訪問意圖,以及將所述關鍵詞確定為所述至少一個檢索詞對應的訪問意圖,生成所述意圖庫;
其中,所述生成所述意圖庫之后,還包括:
獲取歷史意圖庫;
針對所述歷史意圖庫中的任意一個檢索詞與訪問意圖的歷史對應關系,判斷所述意圖庫中是否存在與所述歷史對應關系檢索詞相同,和/或,訪問意圖相同的對應關系;
若存在與所述歷史對應關系檢索詞相同,且訪問意圖不同的第一對應關系,則判斷所述歷史對應關系中的訪問意圖與所述第一對應關系中的訪問意圖是否存在包含與被包含關系;
若存在包含與被包含關系,則選擇其中一個訪問意圖作為所述第一對應關系中更新后的訪問意圖;
若所述意圖庫中不存在所述第一對應關系,且不存在與所述歷史對應關系檢索詞相同,且訪問意圖相同的第二對應關系,則將所述歷史對應關系添加到所述意圖庫中。
2.根據權利要求1所述的方法,其特征在于,所述從所有檢索詞中提取意圖詞,包括:
針對所有檢索詞中的每個檢索詞,獲取所述檢索詞的相關信息;所述相關信息包括以下信息中的任意一個或者多個:詞頻、詞性、詞長度;
根據所述檢索詞的相關信息,確定所述檢索詞是否為意圖詞。
3.根據權利要求1所述的方法,其特征在于,所述生成所述意圖庫之后,還包括:
針對每個檢索詞與訪問意圖的對應關系,獲取采用所述檢索詞去搜索與所述訪問意圖對應的頁面地址的用戶數量;
對對應的用戶數量小于預設數量閾值的對應關系進行刪除處理;
針對每個訪問意圖,獲取所述訪問意圖對應的至少一個檢索詞;
獲取所述至少一個檢索詞與意圖詞之間的最大相似度;
在所述至少一個檢索詞與意圖詞之間的最大相似度不滿足預設相似度條件時,刪除所述訪問意圖與所述至少一個檢索詞的對應關系。
4.根據權利要求1所述的方法,其特征在于,所述根據所述頁面地址對應的訪問意圖,和/或,所述檢索詞對應的訪問意圖,確定所述用戶對所述網站的訪問意圖,包括:
根據所述頁面地址對應的訪問意圖,和/或,所述檢索詞對應的訪問意圖,統計各個訪問意圖的數量;
將對應的數量滿足預設意圖數量閾值的訪問意圖,確定為所述用戶對所述網站的訪問意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810719792.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用戶興趣挖掘方法、裝置、設備和存儲介質
- 下一篇:內容查詢方法和裝置





