[發明專利]一種挖掘具有相似需求的查詢的方法及裝置在審
| 申請號: | 201110376378.8 | 申請日: | 2011-11-23 |
| 公開(公告)號: | CN103136210A | 公開(公告)日: | 2013-06-05 |
| 發明(設計)人: | 黃際洲;趙世奇 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 挖掘 具有 相似 需求 查詢 方法 裝置 | ||
【技術領域】
本發明涉及自然語言處理技術,特別涉及一種挖掘具有相似需求的查詢的方法及裝置。
【背景技術】
隨著搜索引擎的廣泛使用,搜索引擎技術得到了長足發展。如今的搜索引擎,已經不僅僅停留在為用戶提供與檢索詞匹配的檢索結果上,而是越來越關注如何才能更好地滿足用戶需求。
假如用戶輸入“qq個性簽名”,搜索引擎不僅給出與用戶輸入的查詢一致的結果,還給出與用戶的查詢需求相似的檢索結果,如給出“qq個性簽名傷感”、“qq個性簽名搞笑”、“qq個性簽名幸福”、“qq個性簽名可愛”等具有相似需求的查詢所對應的檢索結果,搜索引擎就可以幫助用戶更快地做出判斷和選擇,從而減少用戶的檢索次數,提升用戶的搜索體驗,讓用戶更快、更準地獲得所需信息。而要讓搜索引擎能夠根據用戶輸入的查詢,返回所有與用戶輸入的查詢具有相似需求的檢索結果,就需要對用戶具有相似需求的查詢進行挖掘。此外,對具有相似需求的查詢進行挖掘,還可以為搜索引擎的其他應用提供資源,例如為生成與檢索需求相關的查詢模版提供語料,或者將相似需求的查詢作為訓練語料,訓練與需求類型相關的分類器等等。
【發明內容】
本發明所要解決的技術問題是提供一種挖掘具有相似需求的查詢的方法及裝置,以提高搜索引擎滿足用戶需求的能力,從而減少用戶的檢索次數,節約搜索流量。
本發明為解決技術問題而采用的技術方案是提供一種挖掘具有相似需求的查詢的方法,包括:A.從搜索日志中獲取種子查詢;B.在搜索日志中提取所述種子查詢對應的頁面地址,計算所述種子查詢對應的頁面地址與所述種子查詢之間的第一相關度,并根據計算的第一相關度從所述種子查詢對應的頁面地址中選取滿足預設第一要求的頁面地址作為挖掘地址;C.在搜索日志中提取所述挖掘地址對應的查詢,計算所述挖掘地址對應的查詢與所述挖掘地址之間的第二相關度,并根據計算的第二相關度從所述挖掘地址對應的查詢中選取滿足預設第二要求的查詢作為具有相似需求的查詢。
根據本發明之一優選實施例,從搜索日志中獲取種子查詢的方式至少包括以下方式之一:(一)獲取搜索日志中人工標注的種子查詢;(二)將搜索日志中與預設的查詢模版匹配的查詢作為種子查詢;(三)將搜索日志中與人工標注的頁面地址對應的查詢作為種子查詢;(四)將搜索日志中與預設的頁面地址模版匹配的頁面地址所對應的查詢作為種子查詢。
根據本發明之一優選實施例,查詢q對應的頁面地址u與q之間的第一相關度由搜索日志中記錄的q引起u被點擊的次數決定,或者,頁面地址u對應的查詢q與u之間的第二相關度由搜索日志中記錄的q引起u被點擊的次數決定。
根據本發明之一優選實施例,查詢q對應的頁面地址u與q之間的第一相關度或頁面地址u對應的查詢q與u之間的第二相關度采用以下方式之一進行計算:
(一)similarity(q,u)=count(q,u);
(二)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110376378.8/2.html,轉載請聲明來源鉆瓜專利網。





