[發(fā)明專利]一種搜索摘要生成方法及裝置在審
| 申請?zhí)枺?/td> | 201611070196.7 | 申請日: | 2016-11-28 |
| 公開(公告)號: | CN106776860A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設(shè)計)人: | 聶鵬宇;石曉巍 | 申請(專利權(quán))人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京超凡志成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11371 | 代理人: | 凌趙華 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 搜索 摘要 生成 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及搜索引擎技術(shù)領(lǐng)域,具體而言,涉及一種搜索摘要生成方法及裝置。
背景技術(shù)
目前,隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,基于快速而準(zhǔn)確的找到所需的信息需求,搜索引擎應(yīng)運而生。用戶在搜索系統(tǒng)中進(jìn)行檢索時,搜索引擎根據(jù)用戶提交的檢索請求提供大量對應(yīng)網(wǎng)站的統(tǒng)一資源定位符(Uniform Resource Locator,URL,也稱網(wǎng)址)和摘要,用戶通過閱讀摘要來決定是否瀏覽該摘要對應(yīng)的網(wǎng)站。因此,摘要的意義在于指導(dǎo)用戶判斷URL的價值。
一般來說,摘要指的是一篇文章的簡短介紹,能準(zhǔn)確全面地反映某一篇文章中心內(nèi)容的簡潔連貫的短文,但是搜索引擎采用的摘要概念不一樣,它不一定是文章的簡短介紹,它只是按照一定的規(guī)則在網(wǎng)頁中提取的一段信息。搜索引擎中的摘要按照獲取的方式不同可以分為兩種摘要,一種是靜態(tài)摘要,另一種是動態(tài)摘要,其中,靜態(tài)摘要只是關(guān)于頁面內(nèi)容的一般信息,與用戶輸入的查詢詞無關(guān),以文檔的內(nèi)容為中心;動態(tài)摘要就是在響應(yīng)用戶查詢時,根據(jù)查詢詞在文檔中出現(xiàn)的位置,提取出查詢詞周圍相關(guān)的文字,在顯示時將查詢詞標(biāo)出并返回給用戶,以查詢?yōu)橹行摹.?dāng)采用動態(tài)摘要時,對于一篇文檔而言,當(dāng)用戶輸入的查詢詞不同時,最終生成的摘要有所不同。
對于現(xiàn)有的技術(shù)方案,雖然動態(tài)摘要與用戶輸入的查詢詞關(guān)聯(lián)起來,由文檔中的若干與查詢詞相關(guān)的片段構(gòu)成,該動態(tài)摘要包含了與用戶輸入的查詢詞相關(guān)的信息,但是,現(xiàn)有技術(shù)中的每個鏈接對應(yīng)的動態(tài)摘要對于不同的用戶而言存在針對性差的問題,導(dǎo)致用戶根據(jù)現(xiàn)有的動態(tài)摘要不能快速、準(zhǔn)確地識別出該鏈接是否為用戶所需的鏈接,進(jìn)而降低用戶的搜索效率和準(zhǔn)確性。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例的目的在于提供一種搜索摘要生成方法及裝置,以解決現(xiàn)有的動態(tài)摘要不能完全、準(zhǔn)確反映出鏈接是否是用戶感興趣的內(nèi)容,容易誤導(dǎo)用戶,進(jìn)而降低用戶的搜索效率和準(zhǔn)確性的問題。
第一方面,本發(fā)明實施例提供了一種搜索摘要生成方法,該方法包括:
獲取根據(jù)用戶輸入的查詢詞進(jìn)行檢索得到的與所述查詢詞相關(guān)的目標(biāo)網(wǎng)址;
獲取所述用戶的用戶畫像,所述用戶畫像用于描述所述用戶的搜索習(xí)慣、搜索偏好、搜索頻率、消費習(xí)慣、搜索關(guān)注點中的至少一種;
根據(jù)所述查詢詞和所述用戶畫像生成所述目標(biāo)網(wǎng)址對應(yīng)的搜索摘要;
展示各個所述目標(biāo)網(wǎng)址對應(yīng)的所述搜索摘要。
結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第一種可能的實施方式,其中,所述獲取所述用戶的用戶畫像之前,還包括:
獲取所述用戶的歷史行為數(shù)據(jù),所述歷史行為數(shù)據(jù)包括用戶基本信息、歷史登陸信息、歷史搜索記錄、歷史瀏覽記錄、歷史收藏記錄、歷史下載記錄、歷史評論記錄和歷史消費記錄中的至少一種;和/或,
獲取所述用戶當(dāng)前搜索行為的上下文信息,所述上下文信息包括當(dāng)前時間、當(dāng)前地點、當(dāng)前環(huán)境、所述用戶最近搜索的詞語、所述用戶最近瀏覽的網(wǎng)頁中的至少一種;
根據(jù)所述用戶的歷史行為數(shù)據(jù)和/或所述上下文信息建立所述用戶的用戶畫像。
結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第二種可能的實施方式,其中,所述根據(jù)所述查詢詞和所述用戶畫像生成所述目標(biāo)網(wǎng)址對應(yīng)的搜索摘要,包括:
根據(jù)所述查詢詞,在所述目標(biāo)網(wǎng)址對應(yīng)的網(wǎng)頁中的文檔中提取出多個候選摘要句;
設(shè)置所述用戶畫像中各個特征標(biāo)簽的權(quán)重值;
按照候選摘要句與用戶畫像關(guān)聯(lián)度由高到低的順序根據(jù)各個特征標(biāo)簽的所述權(quán)重值對多個所述候選摘要句進(jìn)行排序;
選取排序靠前的預(yù)設(shè)數(shù)量的所述候選摘要句生成所述目標(biāo)網(wǎng)址相應(yīng)的搜索摘要。
結(jié)合第一方面的第二種可能的實施方式,本發(fā)明實施例提供了第一方面的第三種可能的實施方式,其中,所述根據(jù)所述查詢詞,在所述目標(biāo)網(wǎng)址對應(yīng)的網(wǎng)頁中的文檔中提取出多個候選摘要句,包括:
對所述目標(biāo)網(wǎng)址對應(yīng)的網(wǎng)頁中的文檔進(jìn)行分詞;
將所述查詢詞與分詞后的所述文檔進(jìn)行匹配,計算出所述查詢詞在所述文檔中出現(xiàn)的位置;以及將所述查詢詞的近義詞與分詞后的所述文檔進(jìn)行匹配,計算出所述查詢詞的近義詞在所述文檔中出現(xiàn)的位置;
在所述文檔中,以所述查詢詞出現(xiàn)的位置和所述查詢詞的近義詞出現(xiàn)的位置為基準(zhǔn),截取多個候選摘要句。
結(jié)合第一方面的第二種可能的實施方式,本發(fā)明實施例提供了第一方面的第四種可能的實施方式,其中,所述設(shè)置所述用戶畫像中各個特征標(biāo)簽的權(quán)重值,包括:
計算用戶歷史上對所述用戶畫像中每個所述特征標(biāo)簽的操作集中度;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司,未經(jīng)北京三快在線科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611070196.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





