[發(fā)明專利]物品評論個性化推薦方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201711421273.3 | 申請日: | 2017-12-25 |
| 公開(公告)號: | CN109960777B | 公開(公告)日: | 2022-12-02 |
| 發(fā)明(設(shè)計)人: | 王穎帥;李曉霞;苗詩雨 | 申請(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06Q30/06 |
| 代理公司: | 上海弼興律師事務(wù)所 31283 | 代理人: | 薛琦;張冉 |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 物品 評論 個性化 推薦 方法 系統(tǒng) 電子設(shè)備 存儲 介質(zhì) | ||
本發(fā)明公開了一種物品評論個性化推薦方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì),其中方法包括:對物品的多個物品評論數(shù)據(jù)進(jìn)行預(yù)處理;從預(yù)處理后的物品評論數(shù)據(jù)中提取特征,記錄每一特征的取值及所述物品評論數(shù)據(jù)是否對用戶選擇所述物品產(chǎn)生影響;將所述物品評論數(shù)據(jù)是否對用戶選擇所述物品產(chǎn)生影響作為目標(biāo)變量,結(jié)合所述特征的取值構(gòu)建基于Xgboost的算法模型;在目標(biāo)用戶瀏覽所述物品時,根據(jù)所述算法模型輸出所述物品的匹配所述目標(biāo)用戶的物品評論數(shù)據(jù)。本發(fā)明使得網(wǎng)站海量物品的評論數(shù)據(jù)有了個性化成分,每個用戶對同樣的物品可以看到不一樣的評價。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種物品評論個性化推薦方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展、不同用戶之間的網(wǎng)絡(luò)交流越來越頻繁,越來越多的用戶在選擇物品時會參考其他用戶對物品的評價,從而借助于其他用戶對與物品的評價了解物品的真實情況,從而確定物品的綜合質(zhì)量或是否滿足自身的需求。由于用戶的評論數(shù)量迅猛增長,有些熱門物品的評論數(shù)據(jù)可能有好幾萬條,挖掘一種自動化的機(jī)器學(xué)習(xí)算法,進(jìn)行評論推薦,就顯得越來越重要。
現(xiàn)有技術(shù)中常用的機(jī)器學(xué)習(xí)算法是線性回歸確定特征系數(shù),給出排序計算公式。通常先由分析師根據(jù)業(yè)務(wù)經(jīng)驗,確定評論需要提取的特征和回歸的目標(biāo)變量,然后在統(tǒng)計軟件中做小樣本數(shù)據(jù)分析,擬合線性回歸方程,計算物品的評論分?jǐn)?shù)。
這種方式的缺點是分析師做的是小樣本的統(tǒng)計分析,確定特征系數(shù),小樣本數(shù)據(jù)不能完全代表大數(shù)據(jù)特征,現(xiàn)實世界的數(shù)據(jù)一般關(guān)系比較復(fù)雜,特征之間的關(guān)系也不一定是線性的,非線性分布偏多,線性回歸擬合不能挖掘更有價值的或更高級的抽象特征。進(jìn)而導(dǎo)致計算出的物品評論分?jǐn)?shù)不準(zhǔn)確,難以實現(xiàn)對物品評論的精準(zhǔn)推薦,無法滿足用戶的需求。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)中利用線性回歸算法計算出的物品評論分?jǐn)?shù)不準(zhǔn)確、難以滿足對物品評論的精準(zhǔn)推薦的缺陷,提供一種物品評論個性化推薦方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。
本發(fā)明是通過以下技術(shù)方案解決上述技術(shù)問題的:
本發(fā)明提供一種物品評論個性化推薦方法,包括:
對物品的多個物品評論數(shù)據(jù)進(jìn)行預(yù)處理;
從預(yù)處理后的物品評論數(shù)據(jù)中提取特征,記錄每一特征的取值及所述物品評論數(shù)據(jù)是否對用戶選擇所述物品產(chǎn)生影響;
將所述物品評論數(shù)據(jù)是否對用戶選擇所述物品產(chǎn)生影響作為目標(biāo)變量,結(jié)合所述特征的取值構(gòu)建基于Xgboost(極限梯度提升樹)的算法模型;
在目標(biāo)用戶瀏覽所述物品時,根據(jù)所述算法模型輸出所述物品的匹配所述目標(biāo)用戶的物品評論數(shù)據(jù)。
較佳地,將所述物品評論數(shù)據(jù)是否對用戶選擇所述物品產(chǎn)生影響作為目標(biāo)變量,結(jié)合所述特征的取值構(gòu)建基于Xgboost的算法模型,包括:
將所述物品評論數(shù)據(jù)是否對用戶選擇所述物品產(chǎn)生影響作為目標(biāo)變量,基于Xgboost構(gòu)建樹并計算每一特征的重要性;
調(diào)試Xgboost的算法參數(shù),以使得算法評估指標(biāo)達(dá)到預(yù)設(shè)值;
測試并優(yōu)化特征和Xgboost的算法參數(shù),以形成所述算法模型。
較佳地,對物品的多個物品評論數(shù)據(jù)進(jìn)行預(yù)處理,包括:
在所述物品評論數(shù)據(jù)的信息存在缺失時,刪除所述物品評論數(shù)據(jù)或補(bǔ)全缺失的信息。
較佳地,在所述物品評論數(shù)據(jù)的信息存在缺失時,根據(jù)以下因素中的至少一個確定是刪除所述物品評論數(shù)據(jù)或是補(bǔ)全缺失的信息:
所述物品評論數(shù)據(jù)的評論者的屬性;
所述多個物品評論數(shù)據(jù)中缺失信息的物品評論數(shù)據(jù)的數(shù)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711421273.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





