[發明專利]一種尋址類查詢詞的挖掘方法及系統有效
| 申請號: | 201210533948.4 | 申請日: | 2012-12-11 |
| 公開(公告)號: | CN103873601B | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 阮星華 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;H04L29/12 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 尋址 查詢 挖掘 方法 系統 | ||
本發明提供了一種尋址類查詢詞的挖掘方法及系統,該方法包括:對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名,并依據所述主域URL對應的查詢詞生成所述主域名的查詢詞集合;對所述查詢詞集合中的查詢詞進行切詞,并統計得到的分詞的出現次數,確定出現次數最多的分詞中最長的分詞為所述主域名對應的核心詞;確定所述查詢詞集合中包含所述核心詞且被查詢次數最高的查詢詞為所述主域名對應的尋址類查詢詞。根據本發明提供的技術方案,能夠自動挖掘生成尋址類查詢詞集合,提高尋址類Bad Case挖掘召回率。
【技術領域】
本發明涉及互聯網領域的搜索技術,尤其涉及一種尋址類查詢詞的挖掘方法及系統。
【背景技術】
搜索引擎的查詢詞可以分為尋址類查詢詞、信息類查詢詞和事務類查詢詞。按照Andrei Broder的研究,這三種查詢詞的比例分別是:12.3%、62%和25.7%。尋址類查詢詞指的是用戶需要查詢某個網站地址時提供的查詢詞,例如,淘寶網、蘑菇街、中國平安官方網站等,對于這類查詢詞用戶的搜索需求非常明確,就是希望找到對應的官方網站地址,因此搜索引擎需要將對應的官方網站地址放在搜索結果的靠前位置,如前三位。但是,實際情況下中會出現如下官方網站地址沒有排到首位而不能滿足用戶搜索需求的情況:
1、官方網站地址沒有出現在搜索結果的第一位;
2、官方網站地址沒有出現在首頁;
3、官方網站地址沒有被搜索引擎收錄;
4、出現虛假的官方網站地址;
上述情況稱為搜索引擎的尋址類Bad Case,尋址類Bad Case指的是用戶的查詢詞是尋址類查詢詞,但是搜索引擎沒有給出對應的官方網站地址或者給出的官方網站地址在搜索結果中比較靠后,從而導致搜索引擎對于尋址類查詢詞給出的搜索結果不能滿足用戶需求。
目前,尋址類Bad Case的挖掘方法是一種半自動的挖掘方法,需要人工提供尋址類查詢詞集合和對應的官方網站地址,然后自動抓取集合中尋址類查詢詞的搜索結果,判斷對應的官方網站地址是否在搜索結果中、是否排在比較靠前的位置等。這種挖掘方法的缺點是:尋址類查詢詞集合需要人工配置,浪費人力且效率較低,配置的尋址類查詢詞的數量有限,導致尋址類BadCase挖掘召回率較低,從而導致搜索結果不能滿足用戶需求,需要用戶的頻繁操作,搜索效率較低,同樣給搜索引擎增加負擔。尋址類Bad Case挖掘召回率指的是從一個集合中找出真正尋址類Bad Case的比例,例如,實際中存在有100個尋址類BadCase,利用上述方法只能找到其中的60個尋址類BadCase,則尋址類Bad Case挖掘召回率為60%。
【發明內容】
本發明提供了一種尋址類查詢詞的挖掘方法及系統,能夠自動挖掘生成尋址類查詢詞集合,提高尋址類Bad Case挖掘召回率。
本發明的具體技術方案如下:
根據本發明一優選實施例,一種尋址類查詢詞的挖掘方法,包括:
對用戶點擊日志中記錄的域名相同的主域URL進行歸一化處理,生成對應的主域名,并依據所述主域URL對應的查詢詞生成所述主域名的查詢詞集合;
對所述查詢詞集合中的查詢詞進行切詞,并統計得到的分詞的出現次數,確定出現次數最多的分詞中最長的分詞為所述主域名對應的核心詞;
確定所述查詢詞集合中包含所述核心詞且被查詢次數最高的查詢詞為所述主域名對應的尋址類查詢詞。
上述方法中,該方法還包括:
依據預設的時間區間參數從用戶點擊日志中提取最近的用戶點擊日志,并依據預設的字段序號從提取的用戶點擊日志中獲取查詢詞和點擊的URL;
依據預設的主域URL格式對所述點擊的URL進行篩選,得到點擊的URL中的主域URL。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210533948.4/2.html,轉載請聲明來源鉆瓜專利網。





