[發(fā)明專利]一種詞條推薦方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201210272391.3 | 申請(qǐng)日: | 2012-08-01 |
| 公開(kāi)(公告)號(hào): | CN102831185A | 公開(kāi)(公告)日: | 2012-12-19 |
| 發(fā)明(設(shè)計(jì))人: | 徐興軍 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 深圳市威世博知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44280 | 代理人: | 何青瓦;李慶波 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 詞條 推薦 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別是涉及一種詞條推薦方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的信息量呈爆炸式增長(zhǎng)。為了讓用戶能夠更方便快捷地獲得這些信息,推薦技術(shù)在信息系統(tǒng)得到了廣泛應(yīng)用。其中,關(guān)聯(lián)推薦技術(shù)又成為推薦技術(shù)的一個(gè)重要組成部分,關(guān)聯(lián)推薦技術(shù)的基本思想是,基于信息的一個(gè)或多個(gè)特征,找到不同信息之間的相關(guān)性,并進(jìn)一步建立信息之間的聯(lián)系關(guān)系,當(dāng)用戶瀏覽某一信息時(shí),推薦系統(tǒng)會(huì)將與該信息具有聯(lián)系關(guān)系的信息也推薦給用戶。
對(duì)于關(guān)聯(lián)推薦技術(shù)的研究重點(diǎn),除了挖掘更多可用于推薦的特征之外,還在于如何在實(shí)際應(yīng)用中根據(jù)這些特征建立起信息之間的關(guān)系。目前,較為常用的方式是根據(jù)用戶行為建立信息之間的關(guān)系,以網(wǎng)絡(luò)百科詞條推薦為例,可以根據(jù)用戶對(duì)詞條的瀏覽、搜索等歷史行為記錄,分析用戶的興趣,然后根據(jù)單個(gè)或多個(gè)用戶的興趣相似程度,建立詞條之間的聯(lián)系關(guān)系,最后根據(jù)所建立的關(guān)系進(jìn)行文檔推薦。
但是,現(xiàn)有關(guān)聯(lián)推薦方法,存在著很嚴(yán)重的冷啟動(dòng)問(wèn)題與數(shù)據(jù)稀疏問(wèn)題,所謂冷啟動(dòng)是指新發(fā)布的信息,數(shù)據(jù)稀疏則是指:對(duì)于有些信息,其本身的相關(guān)用戶行為記錄很少(或?yàn)?),因此難以根據(jù)用戶行為產(chǎn)生推薦結(jié)果。目前常用的解決方案是通過(guò)人工干預(yù)的方式為新發(fā)布的信息預(yù)置一些推薦結(jié)果,但是這種方式需要消耗人力成本,并且要求操作人員具有豐富的先驗(yàn)知識(shí),推薦結(jié)果也存在著較大的局限性和主觀性,在實(shí)際應(yīng)用中經(jīng)常無(wú)法滿足信息瀏覽者的實(shí)際需求。
發(fā)明內(nèi)容
為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供一種詞條推薦方法及裝置,以解決詞條相關(guān)推薦中的冷啟動(dòng)問(wèn)題與數(shù)據(jù)稀疏問(wèn)題。具體技術(shù)方案如下:
一種詞條推薦方法,該方法包括:
對(duì)預(yù)置詞條集合中的元素關(guān)聯(lián)信息進(jìn)行初始化;
根據(jù)詞條在文檔中的共現(xiàn)關(guān)系,在所述詞條集合中,增加對(duì)應(yīng)元素之間的關(guān)聯(lián)度;
獲得詞條A之后,利用詞條A在所述詞條集合中的關(guān)聯(lián)詞條,構(gòu)成詞條A的推薦結(jié)果。
根據(jù)本發(fā)明的一種具體實(shí)施方式,所述根據(jù)詞條在文檔中的共現(xiàn)關(guān)系,在所述詞條集合中,增加對(duì)應(yīng)元素之間的關(guān)聯(lián)度,包括:
對(duì)于給定文檔,統(tǒng)計(jì)集合中元素在該文檔中的TF-IDF值;
確定TF-IDF值滿足預(yù)設(shè)要求的至少兩個(gè)詞條,在所述詞條集合中,增加對(duì)應(yīng)元素之間的關(guān)聯(lián)度;
其中,所述TF-IDF為:詞頻-逆文檔頻率。
根據(jù)本發(fā)明的一種具體實(shí)施方式,所述根據(jù)詞條在文檔中的共現(xiàn)關(guān)系,在所述詞條集合中,增加對(duì)應(yīng)元素之間的關(guān)聯(lián)度,包括:
對(duì)于給定文檔,統(tǒng)計(jì)集合中元素在該文檔中的出現(xiàn)位置;
如果兩個(gè)詞條在文檔中的位置關(guān)系滿足預(yù)設(shè)要求,則在所述詞條集合中,增加對(duì)應(yīng)元素之間的關(guān)聯(lián)度。
根據(jù)本發(fā)明的一種具體實(shí)施方式,所述利用詞條A在所述詞條集合中的關(guān)聯(lián)詞條,構(gòu)成詞條A的推薦結(jié)果,包括:
根據(jù)關(guān)聯(lián)詞條與詞條A的關(guān)聯(lián)距離,優(yōu)先選取關(guān)聯(lián)距離較小的關(guān)聯(lián)詞條構(gòu)成推薦結(jié)果。
根據(jù)本發(fā)明的一種具體實(shí)施方式,該方法還包括:
在多個(gè)關(guān)聯(lián)詞條與詞條A的關(guān)聯(lián)距離相同的情況下,根據(jù)關(guān)聯(lián)詞條與詞條A的關(guān)聯(lián)度大小確定推薦結(jié)果。
根據(jù)本發(fā)明的一種具體實(shí)施方式,所述根據(jù)關(guān)聯(lián)詞條與詞條A的關(guān)聯(lián)度大小確定推薦結(jié)果,包括:
在多個(gè)關(guān)聯(lián)詞條與詞條A直接關(guān)聯(lián)的情況下,優(yōu)先選取關(guān)聯(lián)度較大的詞條構(gòu)成推薦結(jié)果。
根據(jù)本發(fā)明的一種具體實(shí)施方式,所述根據(jù)關(guān)聯(lián)詞條與詞條A的關(guān)聯(lián)度大小確定推薦結(jié)果,包括:
在多個(gè)關(guān)聯(lián)詞條與詞條A間接關(guān)聯(lián)的情況下,優(yōu)先選取路徑關(guān)聯(lián)度乘積較大的詞條構(gòu)成推薦結(jié)果。
一種詞條推薦裝置,該裝置包括:
關(guān)聯(lián)信息初始化單元,用于對(duì)預(yù)置詞條集合中的元素關(guān)聯(lián)信息進(jìn)行初始化;
關(guān)聯(lián)信息管理單元,用于根據(jù)詞條在文檔中的共現(xiàn)關(guān)系,在所述詞條集合中,增加對(duì)應(yīng)元素之間的關(guān)聯(lián)度;
推薦單元,用于在獲得詞條A之后,利用詞條A在所述詞條集合中的關(guān)聯(lián)詞條,構(gòu)成詞條A的推薦結(jié)果。
根據(jù)本發(fā)明的一種具體實(shí)施方式,所述關(guān)聯(lián)信息管理單元,具體用于:
對(duì)于給定文檔,統(tǒng)計(jì)集合中元素在該文檔中的TF-IDF值;
確定TF-IDF值滿足預(yù)設(shè)要求的至少兩個(gè)詞條,在所述詞條集合中,增加對(duì)應(yīng)元素之間的關(guān)聯(lián)度;
其中,所述TF-IDF為:詞頻-逆文檔頻率。
根據(jù)本發(fā)明的一種具體實(shí)施方式,所述關(guān)聯(lián)信息管理單元,具體用于:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210272391.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 創(chuàng)建詞條的方法及創(chuàng)建詞條的裝置
- 內(nèi)置詞條的顯示方法及顯示系統(tǒng)
- 用于展示候選詞條的方法和裝置
- 一種詞條轉(zhuǎn)化方法及裝置
- 操控句式生成、應(yīng)用操控方法及裝置、存儲(chǔ)介質(zhì)
- 詞條處理方法、移動(dòng)終端及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種詞條權(quán)重計(jì)算模型訓(xùn)練方法及裝置
- 一種基于區(qū)塊鏈的百科詞條管理系統(tǒng)和實(shí)施方法
- 目標(biāo)概念圖譜的構(gòu)建方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種待翻譯詞條的更新方法、裝置、設(shè)備和介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





