[發明專利]確定搜索詞權重值方法及裝置、搜索結果生成方法及裝置有效
| 申請號: | 201010207880.1 | 申請日: | 2010-06-18 |
| 公開(公告)號: | CN102289436A | 公開(公告)日: | 2011-12-21 |
| 發明(設計)人: | 郭祥 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明;王寶筠 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 搜索詞 權重 方法 裝置 搜索 結果 生成 | ||
技術領域
本申請涉及計算機應用領域,特別是涉及一種確定搜索詞權重值的方法及裝置、搜索結果生成方法及裝置。
背景技術
信息搜索系統是一種能夠為用戶提供信息檢索服務的系統,以互聯網中常用的搜索引擎為例,作為應用在互聯網領域的搜索系統,搜索引擎目前已經成為用戶上網必不可少的輔助工具之一。從用戶的角度看,搜索引擎一般提供一個包含搜索框的頁面,用戶在搜索框輸入查詢串,通過瀏覽器提交給搜索引擎后,搜索引擎就會返回與用戶輸入的查詢串內容相匹配的信息。
對于用戶輸入的搜索請求,可以由一個或多個搜索詞組成。當用戶輸入的搜索請求由多個搜索詞組成時,搜索系統首先對用戶輸入的搜索請求進行分詞,得到多個搜索詞,再以搜索詞為單位匹配數據庫中的信息。然后,系統按照各搜索詞的重要性對各搜索詞分別匹配到的信息進行排序,返回搜索結果展現給用戶。
現有技術中,對于各搜索詞重要性的劃分往往是統計各搜索詞的詞頻得到的。具體的,系統定期對數據庫中保存的用戶的歷史搜索信息進行統計,得到各搜索詞出現的頻率,作為搜索詞對應的詞頻。詞頻較高的搜索詞被認為是比較重要的;而詞頻偏低的搜索詞則被認為是不太重要的。
通過對現有技術的研究,發明人發現現有技術中采用詞頻確定各搜索詞的重要性存在的問題是:首先,詞頻統計時會包括大量的噪音詞,影響統計結果;其次,根據歷史搜索信息統計詞頻,使得查詢次數不多但很有價值的搜索詞很容易被忽視。這導致利用現有技術得到的各搜索詞的重要性對搜索結果的排序不是十分合理,增加了用戶的查詢時間,甚至導致用戶重新輸入搜索詞進行搜索,增加了服務器的負擔和能耗。
發明內容
為解決上述技術問題,本申請提供了一種確定搜索詞權重值的方法及裝置、一種搜索結果生成方法及裝置,可以更為合理的確定用戶輸入的搜索請求中各搜索詞的重要性。
本申請提供一種確定搜索詞權重值的方法,包括以下步驟:
接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;
統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;
從數據庫中提取屬性詞表,優化所述類目分布詞表;
根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。
本申請還提供一種搜索結果生成方法,包括以下步驟:
接收輸入的搜索請求,獲取所述搜索請求中各搜索詞對應的權重值;
將各搜索詞對應的匹配信息按照各搜索詞對應的權重值排序;
其中,各搜索詞對應的權重值通過下述步驟得到:
接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;
統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;所述類目分布詞表包括:搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;
從數據庫中提取屬性詞表,優化所述類目分布詞表;具體為:依次判斷所述類目分布詞表中各搜索詞是否屬于所述屬性詞表,如果是,濾除所述搜索詞對應的搜索概率低于預設的第一閾值的搜索類目;如果否,將所述搜索詞對應的各搜索類目的搜索概率平均化;
根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。
本申請還提供一種確定搜索詞權重值的裝置,包括:
日志生成模塊,用于接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;
詞表生成模塊,用于統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;所述類目分布詞表包括:搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;
詞表優化模塊,用于從數據庫中提取屬性詞表,優化所述類目分布詞表;
權重計算模塊,用于根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。
本申請還提供一種搜索結果生成裝置,包括:
日志生成模塊,用于接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;
詞表生成模塊,用于統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;所述類目分布詞表包括:搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;
詞表優化模塊,用于從數據庫中提取屬性詞表,優化所述類目分布詞表;
權重計算模塊,用于根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值;
權重提取模塊,用于接收輸入的搜索請求,獲取所述搜索請求中各搜索詞對應的權重值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010207880.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:帶鋼清洗設備
- 下一篇:一種碳鋼酸洗液及其應用





