[發明專利]一種基于搜索建議詞進行搜索的方法以及裝置有效
| 申請號: | 201310485798.9 | 申請日: | 2013-10-16 |
| 公開(公告)號: | CN103544267B | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 崔代超 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 趙娟 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 搜索 建議 進行 方法 以及 裝置 | ||
技術領域
本發明涉及互聯網數據處理的技術領域,特別是涉及一種基于搜索建議詞進行搜索的方法,以及,一種基于搜索建議詞進行搜索的裝置。
背景技術
這些年全球最大的搜索引擎谷歌推出了搜索建議的服務:即在用戶在輸入部分關鍵詞時搜索引擎馬上給出相關聯想詞。搜索建議可以大大減少用戶輸入成本、糾正輸入錯誤、進行輸入提示等,它的出現讓人們可以更快、更準確的進行搜索,如今已被各大搜索引擎采用。
現有的搜索建議的實現主要通過以下機制:搜索引擎收集此用戶搜索歷史數據(主要是搜索關鍵詞和搜索次數),當用戶在搜索框開始輸入時,搜索引擎會根據用戶已輸入部分在歷史搜索數據文件中進行相關性匹配,得到搜索建議,在進行除雜、排重等一系列處理后,并根據搜索熱度等因素對搜索建議詞進行排序。
另外一種機制是建立在以往群體用戶搜索歷史的基礎上的,即基于眾多搜索請求者的經驗型建議:用戶得到的搜索建議是被最多人搜過的關鍵詞。因此,這幾種搜索建議機制有其天然的缺陷:
首先時效性差:只有在很多人搜過、形成一定的數據積累后才可能被當作搜索建議提供給他人;同時召回低:對某些搜索數量少的關鍵詞,搜索引擎一般不能給出建議。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種基于搜索建議詞進行搜索的方法和相應的一種基于搜索建議詞進行搜索的裝置。
依據本發明的一個方面,提供了一種基于搜索建議詞進行搜索的方法,包括:
接收輸入的關鍵詞;
從映射表中獲取與所述關鍵詞匹配的搜索建議詞;
根據所述搜索建議詞發起搜索請求的選項。
可選地,所述從映射表中獲取與所述關鍵詞匹配的搜索建議詞的步驟包括:
將所述輸入的關鍵詞映射為一個或多個第一分詞;
從映射表中獲取與所述一個或多個第一分詞匹配的搜索建議詞;其中,所述映射表存儲有每個第一分詞與對應的搜索建議詞之間的映射關系,所述搜索建議詞為依據一個或多個第一分詞與對應的一個或多個關聯第二分詞生成;所述第一分詞為預設的熱點主題詞;所述關聯第二分詞為同現率高于預設閾值的第二分詞;所述第二分詞為將包含第一分詞的多個網頁標題進行分詞后除第一分詞外的一個或多個其余分詞;所述同現率為所述第一分詞與所述各第二分詞同時出現在一個索引表中的概率。
可選地,所述映射表通過以下方式生成:
抓取網頁信息,所述網頁信息包括網頁標題;
獲取包含所述一個或多個第一分詞的網頁標題,并對所述網頁標題進行分詞,得到分詞列表;
將所述分詞列表中除一個或多個第一分詞外的一個或多個其余分詞作為第二分詞;
分別建立所述一個或多個第一分詞的索引表,所述索引表包括第一分詞所屬的各網頁標題,以及,每個網頁標題進行分詞后第二分詞;
計算所述一個或多個第一分詞與各第二分詞的同現率;
將同現率大于預設閾值的第二分詞作為關聯第二分詞;
分別組合所述一個或多個第一分詞與所述關聯第二分詞,得到每個第一分詞的搜索建議詞;
生成所述第一分詞與所述搜索建議詞的映射關系,建立映射表。
可選地,所述同現率采用如下方式計算:
當所述第一分詞為一個時,提取所述第一分詞對應的索引表;
分別獲取所述索引表中各個第二分詞出現的次數,以及所述索引表的記錄總數;
分別計算所述第二分詞出現的次數與所述索引表的記錄總數的比值,得到所述第一分詞與各個第二分詞的同現率。
可選地,所述同現率采用如下方式計算:
當所述第一分詞為多個時,分別提取所述多個第一分詞對應的多個索引表;
提取與所述多個第一分詞同時出現的第二分詞作為候選分詞;
分別計算各個索引表中所述第一分詞與所述候選分詞的同現率,所述同現率為所述索引表中各個候選分詞出現的次數與所述索引表中的記錄總數的比值;
分別為所述多個第一分詞與所述各個候選分詞的同現率配置對應的多個權重;
分別計算多個配置了權重的同現率的平均值,作為所述多個第一分詞與所述候選分詞的同現率。
可選地,所述同現率采用如下方式計算:
當所述第一分詞為多個時,分別提取所述多個第一分詞對應的多個索引表;
采用所述多個索引表確定主分詞,所述主分詞為記錄總數最多的索引表對應的第一分詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310485798.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像形成裝置
- 下一篇:陣列基板、顯示裝置及其驅動方法





