[發明專利]一種搜索建議詞生成的方法以及裝置有效
| 申請號: | 201310485782.8 | 申請日: | 2013-10-16 |
| 公開(公告)號: | CN103544266B | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 崔代超 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 趙娟 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 建議 生成 方法 以及 裝置 | ||
技術領域
本發明涉及互聯網數據處理的技術領域,特別是涉及一種搜索建議詞生成的方法,以及,一種搜索建議詞生成的裝置。
背景技術
這些年全球最大的搜索引擎谷歌推出了搜索建議的服務:即在用戶在輸入部分關鍵詞時搜索引擎馬上給出相關聯想詞。搜索建議可以大大減少用戶輸入成本、糾正輸入錯誤、進行輸入提示等,它的出現讓人們可以更快、更準確的進行搜索,如今已被各大搜索引擎采用。
現有的搜索建議的實現主要通過以下機制:搜索引擎收集此用戶搜索歷史數據(主要是搜索關鍵詞和搜索次數),當用戶在搜索框開始輸入時,搜索引擎會根據用戶已輸入部分在歷史搜索數據文件中進行相關性匹配,得到搜索建議,在進行除雜、排重等一系列處理后,并根據搜索熱度等因素對搜索建議詞進行排序。
另外一種機制是建立在以往群體用戶搜索歷史的基礎上的,即基于眾多搜索請求者的經驗型建議:用戶得到的搜索建議是被最多人搜過的關鍵詞。因此,這幾種搜索建議機制有其天然的缺陷:首先時效性差:只有在很多人搜過、形成一定的數據積累后才可能被當作搜索建議提供給他人;同時召回低:對某些搜索數量少的關鍵詞,搜索引擎一般不能給出建議。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種搜索建議詞生成的方法和相應的一種搜索建議詞生成的裝置。
依據本發明的一個方面,提供了一種搜索建議詞生成的方法,包括:
接收搜索字符串;
將所述搜索字符串映射為一個或多個第一分詞;
獲取一個或多個與所述第一分詞相關聯的關聯第二分詞;
依據所述一個或多個第一分詞與所述一個或多個關聯第二分詞組合成一個或多個搜索建議詞。
可選地,所述方法還包括:
推送所述一個或多個搜索建議詞。
可選地,所述獲取一個或多個與所述第一分詞相關聯的關聯第二分詞的步驟包括:
將抓取到的包含所述第一分詞的多個網頁標題進行分詞,得到分詞列表;
將所述分詞列表中除所述第一分詞外的一個或多個其余分詞作為第二分詞;
分別計算所述一個或多個第一分詞與所述第二分詞的同現率;
提取所述同現率高于預設閾值的第二分詞作為關聯第二分詞。
可選地,所述將所述搜索字符串映射為一個或多個第一分詞的步驟包括:
提取所述搜索字符串所映射的一個第一分詞;
或者,
當接收到的搜索字符串為復合詞時,將所述搜索字符串拆分為多個搜索子詞;
提取所述多個搜索子詞所映射的多個第一分詞。
可選地,所述計算所述一個或多個第一分詞與所述第二分詞的同現率的步驟包括:
當所述搜索字符串被映射為一個第一分詞時,提取所述第一分詞對應的預置索引表;其中,所述預置索引表包括所述第一分詞所屬的網頁標題,以及,每個網頁標題對應的所有第二分詞;
分別獲取每個預置索引表中各個第二分詞出現的次數,以及所述索引表的記錄總數;
分別計算所述第二分詞出現的次數與所述索引表的記錄總數的比值,得到所述第一分詞與各個第二分詞的同現率。
可選地,所述計算所述一個或多個第一分詞與所述第二分詞的同現率的步驟包括:
當所述搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應的多個預置索引表;其中,所述各個預置索引表中包括所述第一分詞所屬的網頁標題,以及,每個網頁標題對應的第二分詞;
提取與所述多個第一分詞同時出現的第二分詞作為候選分詞;
分別計算各個索引表中所述第一分詞與所述候選分詞的同現率,所述同現率為所述索引表中各個候選分詞出現的次數與所述索引表中的記錄總數的比值;
分別為所述多個第一分詞與所述各個候選分詞的同現率配置對應的多個權重;
分別計算多個配置了權重的同現率的平均值,作為所述多個第一分詞與所述候選分詞的同現率。
可選地,所述計算所述一個或多個第一分詞與所述第二分詞的同現率的步驟包括:
當所述搜索字符串被映射為多個第一分詞時,分別提取所述多個第一分詞對應的多個預置索引表;其中,所述各個預置索引表中包括所述第一分詞所屬的網頁標題,以及,每個網頁標題對應的第二分詞;
采用所述多個索引表確定主分詞,所述主分詞為記錄總數最多的索引表對應的第一分詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310485782.8/2.html,轉載請聲明來源鉆瓜專利網。





