[發明專利]一種挖掘搜索引擎未召回類糾錯詞的方法及裝置在審
| 申請號: | 201310111569.0 | 申請日: | 2013-04-01 |
| 公開(公告)號: | CN104102633A | 公開(公告)日: | 2014-10-15 |
| 發明(設計)人: | 阮星華 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 挖掘 搜索引擎 召回 糾錯 方法 裝置 | ||
技術領域
本發明涉及互聯網搜索技術領域,特別涉及一種挖掘搜索引擎未召回類糾錯詞的方法及裝置。
背景技術
搜索引擎搜索詞糾錯是一種有效的用戶搜索詞糾正和引導方法。當用戶在搜索時,由于拼寫錯誤、記憶不清而不能提供完整和準確的搜索詞的時候,搜索引擎能夠通過糾錯、校正用戶的輸入或者將用戶引導到正確的搜索詞上,使得用戶獲得有用的查詢結果,如圖1(a)、圖1(b)、圖1(c)所示,例如用戶本來想搜索“中關村”,但是輸入錯誤的“中觀村”、“眾關村”或者“zhong關村”,搜索引擎都能夠給出正確的糾錯詞“中關村”。
如果搜索引擎給出的糾錯詞不正確,例如將不需要糾錯的搜索詞做糾錯,或者需要糾錯的搜索詞沒有正確糾錯,那么不僅無法引導給用戶需要的結果,往往還會造成適得其反的負面效果。因此針對搜索引擎糾錯的效果進行驗證(包括準確率和召回率),以及挖掘出糾錯效果不好的搜索引擎糾錯失敗的案例以供后續改進就變得非常重要。
搜索引擎糾錯失敗的情況可以分為如下三種類型:
(1)用戶輸入的是正確的搜索詞,但是搜索引擎卻做了糾錯,給了不合適的糾錯詞;
(2)用戶輸入的是錯誤的搜索詞,但是搜索引擎給出的糾錯詞也不正確;
(3)用戶輸入的是錯誤的搜索詞,但是搜索引擎沒有給出糾錯詞,也就是業界所說的糾錯詞未召回的情況,例如,用戶輸入“萬里長征永不倒”查詢結果如圖2(a)所示,搜索引擎沒有給出糾錯詞,實際上用戶想要檢索的應該是“萬里長城永不倒”,用“萬里長城永不倒”檢索能夠檢索到更多更好的結果,如圖2(b)所示。
對于其中的(1)和(2)兩種情況,通過對帶有糾錯詞信息的用戶Session(會話)日志進行建模分析能夠有效地發現。而對于第(3)種搜索引擎未召回類糾錯詞的情況,現有技術中尚未有針對性的解決辦法。
發明內容
本發明旨在至少在一定程度上解決上述技術問題之一或至少提供一種有用的商業選擇。
為此,本發明的第一個目的在于提出一種挖掘搜索引擎未召回類糾錯詞的方法,通過對用戶搜索詞序列和搜索結果的建模分析,能夠自動地發現未召回類糾錯詞。本發明的第二個目的在于提出一種挖掘搜索引擎未召回類糾錯詞的裝置。
為達到上述目的,本發明第一方面的實施例提出了一種挖掘搜索引擎未召回類糾錯詞的方法,包括以下步驟:搜索引擎獲取用戶的會話日志,其中,所述會話日志至少包括第一會話和第二會話,所述第一會話和第二會話中分別包括第一搜索詞和第二搜索詞;所述搜索引擎獲得所述第一搜索詞和第二搜索詞之間的關聯關系信息;所述搜索引擎根據所述關聯關系信息判斷所述第一搜索詞是否為未召回類糾錯詞。
根據本發明實施例的挖掘搜索引擎未召回類糾錯詞的方法,通過樣本的訓練之后能夠自動的進行未召回類糾錯詞判斷,大大節省了尋找未召回類糾錯詞的人力,并且,通過對用戶搜索詞序列和搜索結果的建模分析,能夠自動地發現未召回類糾錯詞,召回效率遠高于以往的人工查找。
在本發明的一個實施例中,所述關聯關系信息包括所述第一搜索詞和第二搜索詞之間的編輯距離信息,所述第一搜索詞和第二搜索詞之間的分詞數量變化信息,以及所述第一搜索詞和第二搜索詞之間的包含關系信息。
在本發明的一個實施例中,所述關聯關系信息還包括所述第一搜索詞和第二搜索詞之間的差異比例。
在本發明的一個實施例中,所述搜索引擎根據所述關聯關系信息判斷所述第一搜索詞是否為未召回類糾錯詞,進一步包括:所述搜索引擎根據所述關聯關系信息計算所述第一搜索詞是未召回類糾錯詞的概率,當所述概率大于預設閾值時,所述搜索引擎判斷所述第一搜索詞是未召回類糾錯詞。
在本發明的一個實施例中,所述方法還包括:所述搜索引擎分別獲取所述第一搜索詞對應的第一搜索結果和所述第二搜索詞對應的第二搜索結果;所述搜索引擎根據所述第一搜索結果的數量與所述第二搜索結果的數量之比判斷所述第一搜索詞是否為未召回類糾錯詞。
在本發明的一個實施例中,所述方法還包括:所述搜索引擎獲取所述用戶對所述第一搜索結果的第一點擊記錄和所述用戶對所述第二搜索結果的第二點擊記錄;所述搜索引擎根據所述第一點擊記錄與所述第二點擊記錄判斷所述第一搜索詞是否為未召回類糾錯詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310111569.0/2.html,轉載請聲明來源鉆瓜專利網。





