[發明專利]一種基于搜索建議詞進行搜索的方法以及裝置有效
| 申請號: | 201310485798.9 | 申請日: | 2013-10-16 |
| 公開(公告)號: | CN103544267B | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 崔代超 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 趙娟 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 搜索 建議 進行 方法 以及 裝置 | ||
1.一種基于搜索建議詞進行搜索的方法,包括:
接收輸入的關鍵詞;
從映射表中獲取與所述關鍵詞匹配的搜索建議詞;
根據所述搜索建議詞發起搜索請求的選項
其中,所述從映射表中獲取與所述關鍵詞匹配的搜索建議詞的步驟包括:
將所述輸入的關鍵詞映射為一個或多個第一分詞;
從映射表中獲取與所述一個或多個第一分詞匹配的搜索建議詞;其中,所述映射表存儲有每個第一分詞與對應的搜索建議詞之間的映射關系,所述搜索建議詞為依據一個或多個第一分詞與對應的一個或多個關聯第二分詞生成;所述第一分詞為預設的熱點主題詞;所述關聯第二分詞為同現率高于預設閾值的第二分詞;所述第二分詞為將包含第一分詞的多個網頁標題進行分詞后除第一分詞外的一個或多個其余分詞;所述同現率為所述第一分詞與所述第二分詞同時出現在一個索引表中的概率;
所述同現率采用如下的一種或多種方式計算:
當所述第一分詞為多個時,分別提取所述多個第一分詞對應的多個索引表;
提取與所述多個第一分詞同時出現的第二分詞作為候選分詞;
分別計算各個索引表中所述第一分詞與所述候選分詞的同現率,所述同現率為所述索引表中各個候選分詞出現的次數與所述索引表中的記錄總數的比值;
分別為所述多個第一分詞與所述各個候選分詞的同現率配置對應的多個權重;
分別計算多個配置了權重的同現率的平均值,作為所述多個第一分詞與所述候選分詞的同現率;
和/或,
當所述第一分詞為多個時,分別提取所述多個第一分詞對應的多個索引表;
采用所述多個索引表確定主分詞,所述主分詞為記錄總數最多的索引表對應的第一分詞;
計算所述主分詞與其對應的索引表中各個第二分詞的同現率,所述同現率為所述索引表中各個第二分詞出現的次數與所述索引表中的記錄總數的比值。
2.如權利要求1所述的方法,其特征在于,所述映射表通過以下方式生成:
抓取網頁信息,所述網頁信息包括網頁標題;
獲取包含所述一個或多個第一分詞的網頁標題,并對所述網頁標題進行分詞,得到分詞列表;
將所述分詞列表中除一個或多個第一分詞外的一個或多個其余分詞作為第二分詞;
分別建立所述一個或多個第一分詞的索引表,所述索引表包括第一分詞所屬的各網頁標題,以及,每個網頁標題進行分詞后第二分詞;
計算所述一個或多個第一分詞與各第二分詞的同現率;
將同現率大于預設閾值的第二分詞作為關聯第二分詞;
分別組合所述一個或多個第一分詞與所述關聯第二分詞,得到每個第一分詞的搜索建議詞;
生成所述第一分詞與所述搜索建議詞的映射關系,建立映射表。
3.如權利要求1-2任一項所述的方法,其特征在于,所述同現率采用如下方式計算:
當所述第一分詞為一個時,提取所述第一分詞對應的索引表;
分別獲取所述索引表中各個第二分詞出現的次數,以及所述索引表的記錄總數;
分別計算所述第二分詞出現的次數與所述索引表的記錄總數的比值,得到所述第一分詞與各個第二分詞的同現率。
4.如權利要求2所述的方法,其特征在于,所述網頁信息還包括網頁標題對應的網頁時效與網頁熱度,所述組合所述第一分詞與所述關聯第二分詞,得到每個第一分詞的搜索建議詞的步驟包括:
分別按照所述網頁時效與網頁熱度為所述關聯第二分詞配置權重;
按照所述權重對所述關聯第二分詞進行排序;
依次組合所述排序的一個或多個關聯第二分詞與所述一個或多個第一分詞,生成一個或多個搜索建議詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310485798.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像形成裝置
- 下一篇:陣列基板、顯示裝置及其驅動方法





