[發明專利]一種搜索引擎壞例的挖掘方法和裝置有效
| 申請號: | 201210273635.X | 申請日: | 2012-08-02 |
| 公開(公告)號: | CN103577464B | 公開(公告)日: | 2018-07-10 |
| 發明(設計)人: | 張鑫;阮星華;李卓 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索引擎 特征向量 挖掘 置信度 樣本 抽取 方法和裝置 搜索 行為序列 聚類 日志 預處理過程 會話 預設 發現 | ||
1.一種搜索引擎壞例badcase的挖掘方法,其特征在于,該方法包括:
S1、預處理過程:
S11、從會話session日志中抽取一定數量的session作為樣本,并從樣本的各session中抽取描述搜索質量的特征向量;其中,session包含用戶在query下的一系列行為信息;
S12、利用各session的特征向量對所述樣本進行聚類;
S13、確定聚類得到的各類別的置信度,所述置信度代表搜索質量低的程度;
S2、挖掘過程:
S21、在待挖掘的session日志中確定同一query下的行為序列,并從所述行為序列中抽取描述搜索質量的特征向量;
S22、通過計算query的特征向量與各類別的特征向量之間的距離,確定query所屬的類別;
S23、如果query所屬類別的置信度超過預設的高閾值,則確定搜索引擎對該query存在badcase。
2.根據權利要求1所述的方法,其特征在于,步驟S12和步驟S21中所述抽取描述搜索質量的特征向量為:抽取搜索后首次點擊的時間間隔、最后一次點擊與初次搜索的時間間隔、用戶更改query后搜索持續時間、首次點擊的位置、最后一次點擊的位置、搜索后的總點擊次數、用戶在搜索后是否緊隨著更換了一個相似query進行搜索、在搜索結果中翻頁的次數中的一種或任意組合的特征,將抽取的特征進行歸一化后構成所述描述搜索質量的特征向量。
3.根據權利要求1所述的方法,其特征在于,所述步驟S12具體為:基于各session的特征向量之間的距離采用k-means聚類的方式對所述樣本進行聚類。
4.根據權利要求1所述的方法,其特征在于,所述步驟S13具體為:根據用戶在各類別中標出的搜索質量低的session在各類別中所占的比例,確定各類別的置信度。
5.根據權利要求1所述的方法,其特征在于,所述步驟S22具體包括:計算query的特征向量分別與各類別的特征向量之間的距離,將距離最近的類別確定為query所屬的類別。
6.根據權利要求1所述的方法,其特征在于,所述S23還包括:如果query所屬類別的置信度低于預設的低閾值,則確定搜索引擎對該query不存在badcase;
如果query所屬類別的置信度在所述預設的高閾值和低閾值之間,則采用其他決策規則進一步判斷;
所述預設的高閾值大于所述預設的低閾值。
7.根據權利要求6所述的方法,其特征在于,所述采用其他決策規則進一步判斷包括:
計算session日志中該query對應的被點擊URL與全網搜索中該query對應的被點擊URL之間的重合度,重合度高于預設第一重合度閾值的,確定搜索引擎對該query不存在badcase,重合度低于預設第二重合度閾值的,確定搜索引擎對該query存在badcase,所述第一重合度閾值大于或等于第二重合度閾值;或者,
判斷該query下用戶的停留時長是否超過預設的停留時長閾值,如果是,則確定搜索引擎對該query不存在badcase,否則確定搜索引擎對該query存在badcase;或者,
判斷同一用戶在該query之后查詢的query是否與該query相關聯,如果是,則確定搜索引擎對該query存在badcase,否則確定搜索引擎對該query不存在badcase。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210273635.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種食品用抗菌塑料
- 下一篇:有機半導體材料、其制備方法和應用





