[發(fā)明專利]一種用戶興趣模型的建立方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201110206861.1 | 申請(qǐng)日: | 2011-07-22 |
| 公開(公告)號(hào): | CN102890689A | 公開(公告)日: | 2013-01-23 |
| 發(fā)明(設(shè)計(jì))人: | 李楠 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 深圳市威世博知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44280 | 代理人: | 何青瓦;李慶波 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用戶 興趣 模型 建立 方法 系統(tǒng) | ||
【技術(shù)領(lǐng)域】
本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種用戶興趣模型的建立方法及系統(tǒng)。
【背景技術(shù)】
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)中所提供的服務(wù)種類也在不斷完善。為了向用戶提供個(gè)性化的服務(wù),互聯(lián)網(wǎng)服務(wù)者通常需要通過(guò)挖掘用戶歷史網(wǎng)絡(luò)行為信息,得到關(guān)于各用戶興趣傾向的模型,從而為用戶提供有針對(duì)性的服務(wù)。對(duì)于基于文本或與文本相關(guān)的互聯(lián)網(wǎng)服務(wù)中,比如網(wǎng)頁(yè)搜索、博客、網(wǎng)絡(luò)百科等,通常是采用基于詞項(xiàng)(Term)的方式,表述用戶的興趣模型。所謂Term就是自然語(yǔ)言中,具有基本語(yǔ)意特征的文字片段。用戶輸入的文字、網(wǎng)頁(yè)的標(biāo)題、文章的內(nèi)容、歌曲名稱等等都可以認(rèn)為是由Term組成的。采用Term表述用戶的興趣是因?yàn)椋恳环N語(yǔ)言中的Term是相對(duì)穩(wěn)定的集合,其數(shù)量比Query、語(yǔ)句等等要小得多,可節(jié)約存儲(chǔ)空間;同時(shí)Term比更小的語(yǔ)言元素(單個(gè)漢字或英語(yǔ)中的字母)具有更豐富的表意性。
現(xiàn)有的基于Term的用戶興趣模型通常是采用“Term向量”,即向量空間模型(Vector?Space?Model)的方式進(jìn)行描述,通過(guò)統(tǒng)計(jì)用戶歷史行為,得到表達(dá)這個(gè)用戶興趣的Term集合,并依據(jù)統(tǒng)計(jì)信息為每個(gè)Term賦予權(quán)值。然而用戶興趣通常是多種多樣的,具有不同的粒度、清晰度,且具有不可枚舉性。為應(yīng)對(duì)用戶幾乎無(wú)數(shù)種可能的潛在興趣,備選的Term通常達(dá)到十萬(wàn)或更多。如果把每個(gè)Term看作是一個(gè)空間的維度,則用戶的歷史行為就表達(dá)成了在這個(gè)極高維空間中的一個(gè)矢量。
現(xiàn)有用戶行為模型所采用的“Term向量”中,并沒(méi)有針對(duì)不同的應(yīng)用場(chǎng)景進(jìn)行區(qū)分,這就會(huì)在針對(duì)具體應(yīng)用場(chǎng)景使用用戶興趣模型時(shí),造成用戶興趣識(shí)別的不準(zhǔn)確,例如針對(duì)一個(gè)提供娛樂(lè)類服務(wù)的網(wǎng)絡(luò)應(yīng)用,“Term向量”中與工業(yè)、制造、學(xué)術(shù)等專業(yè)相關(guān)的Term就會(huì)影響娛樂(lè)類服務(wù)的應(yīng)用,同時(shí)對(duì)服務(wù)器和客戶端都會(huì)造成負(fù)擔(dān)和資源的浪費(fèi)。
【發(fā)明內(nèi)容】
為了解決上述問(wèn)題,本發(fā)明提供了一種用戶興趣模型的建立方法及系統(tǒng),針對(duì)不同的應(yīng)用場(chǎng)景輸出相應(yīng)的用戶興趣模型,使得用戶興趣模型更加準(zhǔn)確,減小服務(wù)器和客戶端的負(fù)擔(dān)和資源浪費(fèi)。
具體技術(shù)方案如下:
相應(yīng)地,本發(fā)明實(shí)施例提供的一種用戶興趣模型的建立方法,該方法包括:
A、根據(jù)用戶歷史行為建立用戶的用戶興趣模型,所述用戶興趣模型至少包括:用戶興趣詞Term以及各Term的權(quán)值;
B、根據(jù)具體應(yīng)用的用戶歷史行為,建立所述應(yīng)用對(duì)應(yīng)的Term知識(shí)集合,所述Term知識(shí)集合包括所述應(yīng)用對(duì)應(yīng)的Term;
C、用所述應(yīng)用對(duì)應(yīng)的Term知識(shí)集合對(duì)所述用戶興趣模型進(jìn)行特征調(diào)整,得到所述用戶在所述應(yīng)用對(duì)應(yīng)的用戶興趣模型。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,步驟A具體包括:
A1、獲取用戶歷史行為的文本信息;
A2、對(duì)用戶歷史行為的文本信息進(jìn)行分詞;
A3、從分詞結(jié)果中提取表達(dá)用戶興趣的Term及Term之間的共現(xiàn)關(guān)系,并為Term賦予權(quán)值以及為Term之間的共現(xiàn)關(guān)系賦予權(quán)值,形成所述用戶的用戶興趣模型。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,根據(jù)Term的詞頻或者Term的詞頻-倒文檔率為Term賦予權(quán)值,并根據(jù)Term之間共同出現(xiàn)的次數(shù)為Term之間的共現(xiàn)關(guān)系賦予權(quán)值。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,根據(jù)所述用戶的興趣時(shí)效性變化,對(duì)所述Term的權(quán)值進(jìn)行動(dòng)態(tài)調(diào)整;
所述動(dòng)態(tài)調(diào)整采取以下策略中的至少一種:
為用戶短時(shí)或短期網(wǎng)絡(luò)行為對(duì)應(yīng)的Term的權(quán)值設(shè)置上限值;
將用戶爆發(fā)性網(wǎng)絡(luò)行為對(duì)應(yīng)的Term的權(quán)值按照時(shí)間進(jìn)行衰減。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述為用戶短時(shí)或短期網(wǎng)絡(luò)行為對(duì)應(yīng)的Term的權(quán)值設(shè)置上限值具體是:
設(shè)置短時(shí)權(quán)值貢獻(xiàn)的上限值或短期權(quán)值貢獻(xiàn)的上限值;
當(dāng)短時(shí)或短期內(nèi)用戶的網(wǎng)絡(luò)行為出現(xiàn)重復(fù),且使得這段時(shí)間內(nèi)重復(fù)行為對(duì)應(yīng)的各個(gè)Term的權(quán)值總和超過(guò)預(yù)設(shè)的上限值時(shí),則將預(yù)設(shè)的上限值作為所述各個(gè)Term的權(quán)值總和,按分配前所述各個(gè)Term的權(quán)值大小為比例,分配到所述各個(gè)Term的權(quán)值中。
根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,將用戶爆發(fā)性網(wǎng)絡(luò)行為對(duì)應(yīng)的Term的權(quán)值按照時(shí)間進(jìn)行衰減具體為:
將在設(shè)定時(shí)間段內(nèi)出現(xiàn)次數(shù)相比較在其他時(shí)間段內(nèi)的出現(xiàn)次數(shù)高于預(yù)設(shè)程度的Term的權(quán)值按照預(yù)設(shè)的衰減策略進(jìn)行衰減,所述預(yù)設(shè)的衰減策略為:線性衰減或者指數(shù)衰減。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110206861.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 興趣點(diǎn)系統(tǒng)、興趣點(diǎn)信息系統(tǒng)以及下載多個(gè)興趣點(diǎn)的方法
- 用戶興趣點(diǎn)的確定方法、裝置及終端
- 一種全局興趣探索推薦方法和裝置
- 信息中心聯(lián)網(wǎng)中的跟蹤排隊(duì)延遲和執(zhí)行相關(guān)的擁塞控制的方法、裝置及介質(zhì)
- 興趣點(diǎn)重要度測(cè)量方法和裝置
- 一種導(dǎo)航方法及系統(tǒng)
- 興趣偏好預(yù)測(cè)方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種興趣點(diǎn)的質(zhì)量評(píng)分獲取方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 聚合興趣點(diǎn)的方法、裝置、設(shè)備和介質(zhì)
- 用于優(yōu)化興趣點(diǎn)標(biāo)簽的方法和裝置





