[發(fā)明專利]一種基于用戶行為的搜索方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201310068715.6 | 申請(qǐng)日: | 2013-03-05 |
| 公開(kāi)(公告)號(hào): | CN104035927B | 公開(kāi)(公告)日: | 2020-03-03 |
| 發(fā)明(設(shè)計(jì))人: | 閆澤華 | 申請(qǐng)(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/955 |
| 代理公司: | 北京鴻德海業(yè)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 用戶 行為 搜索 方法 系統(tǒng) | ||
1.一種基于用戶行為的搜索方法,其特征在于,該方法包括:
基礎(chǔ)搜索服務(wù)器依據(jù)用戶在搜索引擎中輸入的搜索詞生成搜索結(jié)果頁(yè);
排序服務(wù)器依據(jù)所述搜索詞在預(yù)先生成的映射關(guān)系中獲取對(duì)應(yīng)的標(biāo)簽,利用與所述搜索結(jié)果頁(yè)相似度最高的標(biāo)簽標(biāo)注所述搜索結(jié)果頁(yè),并將具有相同標(biāo)簽的搜索結(jié)果頁(yè)劃分為一類;其中,生成映射關(guān)系的方法為網(wǎng)頁(yè)服務(wù)器從搜索結(jié)果頁(yè)的正文提取高頻詞并生成高頻詞集合,將搜索結(jié)果頁(yè)與高頻詞集合的映射關(guān)系保存到網(wǎng)頁(yè)數(shù)據(jù)庫(kù);當(dāng)用戶輸入搜索詞后收藏搜索結(jié)果頁(yè)并標(biāo)注標(biāo)簽時(shí),搜索信息挖掘服務(wù)器依據(jù)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中存儲(chǔ)的搜索結(jié)果頁(yè)與高頻詞集合的映射關(guān)系,生成高頻詞集合與搜索詞的映射關(guān)系,因此進(jìn)一步生成標(biāo)簽、高頻詞集合和搜索詞的映射關(guān)系,并將搜索詞、高頻詞集合和標(biāo)簽的映射關(guān)系以搜索詞為索引保存到映射信息數(shù)據(jù)庫(kù);
排序服務(wù)器依據(jù)預(yù)設(shè)的興趣類別與網(wǎng)頁(yè)的對(duì)應(yīng)關(guān)系獲得搜索結(jié)果頁(yè)對(duì)應(yīng)標(biāo)簽的興趣類別,將預(yù)先生成的用戶的興趣類別與標(biāo)簽的興趣類別進(jìn)行匹配,增加匹配到的標(biāo)簽所對(duì)應(yīng)的搜索結(jié)果頁(yè)的權(quán)重值,將依據(jù)權(quán)重值進(jìn)行排序后得到的搜索結(jié)果頁(yè)推送給用戶。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從搜索結(jié)果頁(yè)的正文提取高頻詞具體包括:
從搜索結(jié)果頁(yè)中提取候選正文,并將候選正文中鏈接文本數(shù)目與總文本數(shù)目的比值大于預(yù)設(shè)閾值的文本刪除,得到搜索結(jié)果頁(yè)的正文;
對(duì)所述正文進(jìn)行分詞處理,得到一個(gè)以上單詞;
依據(jù)預(yù)設(shè)的停用詞表從得到的單詞中過(guò)濾掉停用詞,得到搜索結(jié)果頁(yè)的高頻詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,生成用戶的興趣類別的方法為:
興趣挖掘服務(wù)器從用戶數(shù)據(jù)庫(kù)的搜索歷史記錄和標(biāo)簽歷史記錄中獲取用戶的搜索詞和標(biāo)簽;
興趣挖掘服務(wù)器依據(jù)預(yù)設(shè)的興趣類別與對(duì)應(yīng)的網(wǎng)頁(yè),以及搜索結(jié)果頁(yè)與高頻詞集合的對(duì)應(yīng)關(guān)系,獲得興趣類別對(duì)應(yīng)的高頻詞集合;
興趣挖掘服務(wù)器將獲得的用戶的搜索詞和標(biāo)簽與興趣類別的高頻詞集合進(jìn)行比對(duì),當(dāng)搜索詞和標(biāo)簽與高頻詞集合的匹配率大于預(yù)設(shè)閾值時(shí),將所述高頻詞集合對(duì)應(yīng)的興趣類別作為所述用戶的興趣類別,將用戶與興趣類別的對(duì)應(yīng)關(guān)系保存到興趣數(shù)據(jù)庫(kù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在預(yù)先生成的映射關(guān)系中獲取對(duì)應(yīng)的標(biāo)簽具體包括:
排序服務(wù)器在所述映射關(guān)系中查找用戶輸入的搜索詞對(duì)應(yīng)的所有標(biāo)簽和高頻詞集合;或,
排序服務(wù)器依據(jù)用戶的興趣類別和用戶的標(biāo)簽,為用戶劃分興趣用戶組;將輸入搜索詞的用戶的興趣類別下或搜索結(jié)果頁(yè)所述的興趣類別下人數(shù)最多的用戶興趣組中其他用戶的標(biāo)簽作為輸入搜索詞的用戶的標(biāo)簽,依據(jù)其他用戶的標(biāo)簽在所述映射關(guān)系中查找對(duì)應(yīng)的高頻詞集合。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲得搜索結(jié)果頁(yè)與標(biāo)簽的相似度的方法為:
利用搜索詞對(duì)應(yīng)的高頻詞集合組成搜索詞的語(yǔ)義空間,并分別將搜索結(jié)果頁(yè)的高頻詞集合和標(biāo)簽在語(yǔ)義空間中進(jìn)行匹配,得到搜索結(jié)果頁(yè)和標(biāo)簽在所述語(yǔ)義空間中的向量,并利用所述向量計(jì)算得到搜索結(jié)果頁(yè)與標(biāo)簽的相似度。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用如下公式增加匹配到的標(biāo)簽所對(duì)應(yīng)的搜索結(jié)果頁(yè)的權(quán)重值:
Valuenew=Valueold×k
其中,Valueold為原始的搜索結(jié)果頁(yè)的權(quán)重值,Valuenew為搜索結(jié)果頁(yè)權(quán)重值增加后的新權(quán)重值,k為調(diào)權(quán)因子且k大于1。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310068715.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 過(guò)濾以及監(jiān)控程序的行為的方法
- 數(shù)據(jù)挖掘的方法和裝置
- 網(wǎng)絡(luò)異常行為檢測(cè)方法及檢測(cè)裝置
- 基于大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的異常行為檢測(cè)方法和系統(tǒng)
- 用于檢測(cè)用戶行為的方法和裝置
- 行為數(shù)據(jù)分析方法及裝置
- 一種基于網(wǎng)絡(luò)的行為教育方法
- 網(wǎng)絡(luò)行為分類方法、設(shè)備、存儲(chǔ)介質(zhì)及裝置
- 一種在線支付業(yè)務(wù)行為的異常檢測(cè)方法、裝置及電子設(shè)備
- 行為采集方法及系統(tǒng)





