[發明專利]搜索引擎的數據處理方法及裝置在審
| 申請號: | 201310659121.2 | 申請日: | 2013-12-06 |
| 公開(公告)號: | CN103646070A | 公開(公告)日: | 2014-03-19 |
| 發明(設計)人: | 王學蕾 | 申請(專利權)人: | 北京趣拿軟件科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 吳貴明;張永明 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索引擎 數據處理 方法 裝置 | ||
1.一種搜索引擎的數據處理方法,其特征在于,包括:
獲取歷史用戶使用搜索引擎的日志記錄,其中,所述日志記錄包括:用戶行為數據、搜索對象屬性數據以及搜索結果的特征數據;
根據所述用戶行為數據和所述搜索對象屬性數據進行線性回歸計算,生成用戶的搜索偏好值;
將所述用戶的搜索偏好值與每個搜索結果的特征數據進行匹配處理,得到所述用戶的搜索偏好與所有搜索結果的匹配度;
提取所有搜索結果的匹配度中滿足預定條件匹配度,獲取所述歷史用戶的搜索結果。
2.根據權利要求1所述的方法,其特征在于,根據所述用戶行為數據和所述搜索對象屬性數據進行線性回歸計算,生成用戶的搜索偏好值的步驟包括:
通過如下公式計算得到所述用戶的搜索偏好值Q:Q=Ax+By,其中,x為所述用戶行為數據,y為所述搜索對象屬性數據,A、B為常數;
其中,在所述用戶行為數據包括多個行為參數xi,所述搜索對象屬性數據包括多個屬性參數yi的情況下,Q=Ax1+Ax2+Axi+……+By1+By2+Byi+……,i為自然數。
3.根據權利要求1或2所述的方法,其特征在于,在根據所述用戶行為數據和所述搜索對象屬性數據進行線性回歸計算,生成用戶的搜索偏好值之后,所述方法還包括:
通過單個用戶的偏好值與所有用戶的總體偏好值的總體平均值進行求除的結果對所述用戶的搜索偏好值進行修正處理,生成所述搜索偏好值的可信度;
判斷所述搜索偏好值的可信度是否小于等于可信度閾值;其中,
在所述搜索偏好值的可信度小于等于可信度閾值的情況下,根據所述用戶行為數據進行聚類處理,并根據聚類結果返回執行線形回歸計算,生成修正后的搜索偏好值;
在所述搜索偏好值的可信度大于可信度閾值的情況下,保存當前的搜索偏好值。
4.根據權利要求1所述的方法,其特征在于,將所述用戶的搜索偏好值與每個搜索結果的特征數據進行匹配處理,得到所述用戶的搜索偏好與所有搜索結果的匹配度的步驟包括:
獲取所述每個搜索結果的特征數據對應的文本向量;
獲取所述用戶的搜索偏好值對應的數據向量;
將所述每個搜索結果的特征數據對應的文本向量分別與所述搜索偏好值對應的數據向量進行余弦計算,得到每個文本向量與所述數據向量之間的距離值;
保存所述距離值,得到所述用戶的搜索偏好與所有搜索結果的匹配度。
5.根據權利要求4所述的方法,其特征在于,在得到所述用戶的搜索偏好與所有搜索結果的匹配度之前,所述方法還包括:
根據所述搜索結果的類型對所述搜索結果的特征數據進行聚類處理,得到修正后的所述搜索結果的偏好。
6.根據權利要求1所述的方法,其特征在于,在獲取歷史用戶使用搜索引擎的日志記錄之前,所述方法還包括:
讀取當前登錄用戶的特征信息;
使用所述當前登錄用戶的特征信息在數據庫中進行查詢,得到與當前登錄用戶具有相同特征信息的歷史登陸用戶;
其中,將所述歷史登陸用戶的歷史日志記錄作為所述日志記錄。
7.根據權利要求6所述的方法,其特征在于,在提取所有搜索結果的匹配度中滿足預定條件匹配度,獲取所述歷史用戶的搜索結果之后,所述方法還包括:
按照所述匹配度對所有的搜索結果進行排序,得到所述每個搜索結果的排序結果;
在搜索引擎中按照所述排序結果顯示每個搜索結果。
8.根據權利要求1所述的方法,其特征在于,在獲取所述日志記錄之后,所述方法還包括:對所述日志記錄中的用戶行為數據、搜索對象屬性數據以及搜索結果的特征數據進行以下任意一種或多種處理方式:歸一處理、去噪處理、篩選處理。
9.一種搜索引擎的數據處理裝置,其特征在于,包括:
獲取模塊,用于獲取歷史用戶使用搜索引擎的日志記錄,其中,所述日志記錄包括:用戶行為數據、搜索對象屬性數據以及搜索結果的特征數據;
處理模塊,用于根據所述用戶行為數據和所述搜索對象屬性數據進行線性回歸計算,生成用戶的搜索偏好值;
匹配模塊,用于將所述用戶的搜索偏好值與每個搜索結果的特征數據進行匹配處理,得到所述用戶的搜索偏好與所有搜索結果的匹配度;
提取模塊,用于提取所有搜索結果的匹配度中滿足預定條件匹配度,獲取所述歷史用戶的搜索結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京趣拿軟件科技有限公司,未經北京趣拿軟件科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310659121.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:芯片故障定位方法、裝置及系統
- 下一篇:一種半導體P、N類型非接觸測試傳感器





