[發(fā)明專利]獲取與頁面相關(guān)的搜索詞的方法、裝置和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710391699.2 | 申請日: | 2017-05-27 |
| 公開(公告)號: | CN107193987B | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設(shè)計(jì))人: | 蔡建山 | 申請(專利權(quán))人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/9535 |
| 代理公司: | 北京展翼知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11452 | 代理人: | 屠長存 |
| 地址: | 310052 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 獲取 頁面 相關(guān) 搜索詞 方法 裝置 系統(tǒng) | ||
本發(fā)明公開了一種獲取與頁面相關(guān)的搜索詞的方法、裝置和系統(tǒng)。在該搜索詞獲取方法中,分析用戶的瀏覽日志,以從瀏覽日志中識別出用戶的搜索行為記錄和瀏覽行為記錄;從搜索行為記錄中提取對應(yīng)的搜索詞,從瀏覽行為記錄中提取對應(yīng)的頁面識別信息;基于用戶的瀏覽日志中搜索行為記錄和瀏覽行為記錄之間的關(guān)聯(lián)關(guān)系,確定與頁面識別信息對應(yīng)的搜索詞子列表,搜索詞子列表中包括與對應(yīng)于頁面識別信息的瀏覽行為記錄相關(guān)聯(lián)的搜索行為記錄所對應(yīng)的搜索詞。由此,能夠高效地確定與頁面具有語義聯(lián)系的相關(guān)搜索詞,提高搜索詞的新穎性和多樣性。
技術(shù)領(lǐng)域
本發(fā)明涉及頁面瀏覽與搜索技術(shù)領(lǐng)域,尤其涉及一種獲取與頁面相關(guān)搜索詞的方法、裝置和系統(tǒng)及與頁面相關(guān)的搜索詞的推薦方法與裝置。
背景技術(shù)
隨著信息的快速膨脹,搜索引擎成為獲取知識的重要手段。相應(yīng)地,需要挖掘更多與頁面具有關(guān)聯(lián)關(guān)系的搜索詞,以便于快速準(zhǔn)確地向用戶提供搜索結(jié)果。
一方面,當(dāng)用戶使用搜索詞進(jìn)行搜索時(shí),搜索引擎往往還會向用戶提供一些與搜索詞含義相似的同義搜索詞的搜索結(jié)果。為此,需要整理同義搜索詞庫。而一般而言,同義搜索詞是通過對各搜索詞的語義進(jìn)行分析來獲取的,同義搜索詞的獲得途徑較為狹窄。相應(yīng)地,通過搜索詞結(jié)合同義搜索詞得到的搜索結(jié)果(頁面)在新穎性和多樣性方面都存在不足。
另一方面,用戶在閱讀頁面(例如網(wǎng)頁)內(nèi)容時(shí),如果對當(dāng)前頁面內(nèi)容不滿意,或者想進(jìn)一步獲取與頁面內(nèi)容相關(guān)的知識,往往會打開搜索引擎頁面,主動發(fā)起搜索。此時(shí),搜索詞可能是頁面內(nèi)容中存在的詞語,也可能是用戶瀏覽頁面內(nèi)容時(shí)想到的頁面內(nèi)容中不存在的詞語。此時(shí),若在頁面上主動展示與當(dāng)前頁面相關(guān)的搜索詞,則可以幫助用戶快速跳轉(zhuǎn)至搜索結(jié)果頁,極大的縮短了知識獲取的路徑,提升用戶體驗(yàn)。
而為了顯示與頁面內(nèi)容相關(guān)的搜索詞,傳統(tǒng)方法一般是分析用戶當(dāng)前瀏覽的頁面內(nèi)容。這包含頁面抓取、頁面解析、關(guān)鍵詞提取、匹配文本相似搜索詞等步驟,這些步驟的邏輯通常比較復(fù)雜,非常消耗服務(wù)器時(shí)間和資源,推薦效率極為低下。并且,使用這種方法推薦出的搜索詞與當(dāng)前頁面在內(nèi)容上相似,不可能推薦出當(dāng)前頁面內(nèi)容中不存在但與當(dāng)前頁面內(nèi)容有語義上的聯(lián)系的搜索詞,而這樣的搜索詞很有可能是閱讀當(dāng)前頁面內(nèi)容的用戶因?yàn)閷ο嚓P(guān)內(nèi)容感興趣而期望進(jìn)行搜索的。因此,現(xiàn)有傳統(tǒng)搜索詞推薦方法的推薦結(jié)果的新穎性和多樣性都嚴(yán)重不足。
因此,仍然需要一種獲取與頁面相關(guān)的搜索詞的方案。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種獲取與頁面相關(guān)的搜索詞的方法、裝置和系統(tǒng),以期基于用戶行為高效地確定頁面相關(guān)的搜索詞,提高相關(guān)搜索詞的新穎性和多樣性。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種獲取與頁面相關(guān)的搜索詞的方法,該方法可以包括:分析用戶的瀏覽日志,以從瀏覽日志中識別出用戶的搜索行為記錄和瀏覽行為記錄;從搜索行為記錄中提取對應(yīng)的搜索詞,從瀏覽行為記錄中提取對應(yīng)的頁面識別信息;基于用戶的瀏覽日志中搜索行為記錄和瀏覽行為記錄之間的關(guān)聯(lián)關(guān)系,確定與頁面識別信息對應(yīng)的搜索詞子列表,搜索詞子列表中包括與對應(yīng)于頁面識別信息的瀏覽行為記錄相關(guān)聯(lián)的搜索行為記錄所對應(yīng)的搜索詞。
由此,即可基于用戶的行為高效地確定與頁面相關(guān)的搜索詞,拓展搜索詞的來源,以提高相關(guān)搜索詞的新穎性和多樣性。
優(yōu)選地,該方法還可以包括:聚合從多個(gè)用戶的瀏覽日志獲取的搜索詞子列表,以得到與各個(gè)頁面識別信息分別對應(yīng)的搜索詞合并列表。
由此,通過聚合大量用戶的搜索詞子列表,可以參考廣大用戶的搜索+瀏覽行為或?yàn)g覽+搜索行為挖掘出更多與頁面有關(guān)聯(lián)關(guān)系的搜索詞。
聚合時(shí),可以將多個(gè)搜索詞子列表中重復(fù)出現(xiàn)的相同的搜索詞合并為一個(gè)搜索詞。并且,還可以根據(jù)該搜索詞在各搜索詞子列表中出現(xiàn)的次數(shù)等信息,對搜索詞合并列表中的所有搜索詞排序。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴(中國)有限公司,未經(jīng)阿里巴巴(中國)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710391699.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





