[發明專利]一種搜索引擎壞例的挖掘方法和裝置有效

申請號：	201210273635.X	申請日：	2012-08-02
公開（公告）號：	CN103577464B	公開（公告）日：	2018-07-10
發明（設計）人：	張鑫;阮星華;李卓	申請（專利權）人：	百度在線網絡技術(北京)有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京鴻德海業知識產權代理事務所(普通合伙) 11412	代理人：	袁媛
地址：	100085 北京***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	搜索引擎特征向量挖掘置信度樣本抽取方法和裝置搜索行為序列聚類日志預處理過程會話預設發現
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供了一種搜索引擎壞例（badcase）的挖掘方法和裝置，其中方法包括：預處理過程：從會話（session）日志中抽取一定數量的session作為樣本，并從樣本的各session中抽取描述搜索質量的特征向量；利用各session的特征向量對樣本進行聚類；確定聚類得到的各類別的置信度，置信度代表搜索質量低的程度；挖掘過程：在待挖掘的session日志中確定同一query下的行為序列，并從行為序列中抽取描述搜索質量的特征向量；通過計算query的特征向量與各類別的特征向量之間的距離，確定query所屬的類別；如果query所屬類別的置信度超過預設的高閾值，則確定搜索引擎對該query存在badcase。本發明能夠實現搜索引擎badcase的自動挖掘，從而及時準確地發現搜索引擎的badcase。

【技術領域】

本發明涉及計算機應用技術領域，特別涉及一種搜索引擎壞例（badcase）的挖掘方法和裝置。

【背景技術】

隨著計算機技術的不斷發展，網絡已經成為人們獲取信息的主要渠道。其中搜索引擎能夠通過分析理解用戶查詢需求和意圖，在全網范圍內搜索與用戶query最匹配的網頁。然而，由于互聯網有海量的網頁，網頁在內容形式上差異很大，同時用戶需求的表達方式也多種多樣，因此搜索引擎最大的難度就在于不論用戶怎樣的查詢都能夠返回相關性最好的結果。

搜索引擎內部是由諸多復雜耦合的相關性策略組合而成的，其數量和復雜程度以及相互制約關系已經到了無法完整描述的組合爆炸程度，一個策略的升級會優化部分相關性特征，同時也會影響甚至降低其他的相關性特征。換句話說，在用戶層面，一些升級會提高部分query的搜索質量（即用戶滿意度），同時可能會降低一些未知query的搜索質量，這種對搜索質量的降低情況就是搜索引擎的壞例（bad case）。

搜索引擎對內部策略的升級是十分頻繁的，因此也會十分頻繁的引入badcase，目前badcase的發現主要是通過人工評估，即人工搜索多個熱門query和隨機query，判斷這些query的搜索質量。這種方式效率低下，而且只能發現少量碰巧遇到的badcase，不能及時準確地發現badcase，必然難以及時作為搜索引擎改進的決策參考。

【發明內容】

有鑒于此，本發明提供了一種搜索引擎badcase的挖掘方法和裝置，以便于及時準確地發現搜索引擎的badcase。

具體技術方案如下：

一種搜索引擎壞例badcase的挖掘方法，該方法包括：

S1、預處理過程：

S11、從會話session日志中抽取一定數量的session作為樣本，并從樣本的各session中抽取描述搜索質量的特征向量；

S12、利用各session的特征向量對所述樣本進行聚類；

S13、確定聚類得到的各類別的置信度，所述置信度代表搜索質量低的程度；

S2、挖掘過程：

S21、在待挖掘的session日志中確定同一query下的行為序列，并從所述行為序列中抽取描述搜索質量的特征向量；

S22、通過計算query的特征向量與各類別的特征向量之間的距離，確定query所屬的類別；

S23、如果query所屬類別的置信度超過預設的高閾值，則確定搜索引擎對該query存在badcase。