[發明專利]一種基于混合特征的線上圖書價值發現方法有效
| 申請號: | 201811633423.1 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109670922B | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 劉磊;孫應紅;陳浩;吳爽;侯良文;李靜 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 特征 線上 圖書 價值 發現 方法 | ||
1.一種基于混合特征的線上圖書價值發現方法,包括以下步驟:
步驟(1)采集某線上圖書商城的圖書特征數據D={bf1,bf2,…,bfn},bfi表示某一本書的特征數據,圖書特征bf進一步描述如下:
bf={name,class,price,public_time,sale_time,times,paper_num,press,author,comment_num,good_comment_num,status,ranking,comment_set};
特征符號的語義說明如下:name表示圖書名,class表示圖書類別,price表示圖書價格,public_time表示出版時間,sale_time表示上架時間,即圖書開始銷售的時間,times表示版次,paper_num表示圖書的頁碼數,press表示出版社,author表示圖書作者,comment_num表示評論數,即銷量,good_comment_num表示好評數,status表示是否上榜,取值為0或1,ranking表示圖書排行榜的排名,comment_set表示評論集合,
comment_set={p1,p2,…,pn},其中pi表示一條圖書評論;
p={comment_content,comment_time}
其中,comment_content表示圖書評論內容,comment_time表示圖書評論時間;
步驟(2)對采集的數據集D進行預處理:
(2.1)按照數據挖掘的預處理策略,刪除數據集D中缺失值超過θ的圖書數據,θ的取值范圍為[0.2,1],對缺失值低于θ的數據用該數據所在特征維度的其他特征值的平均值或眾數進行填充,標準化圖書特征的數據表示方式;
(2.2)對數據D中的每本圖書數據對應的數值型特征,即price,paper_num,comment_num,times,good_comment_num進行去量綱化處理,把每一個數值型圖書特征映射到[0,1]區間,公式如下:
其中,xij為第i個特征在第j個分量上對應的原始值,第i特征在數據集D中可以表示為(xi1,xi2,…,xij,…,xin),min{x11,x12,…,x1j,…,xin}為第i個特征的分量中的最小值,max{x11,x12,…,x1j,…,xin}為其最大值,為每本圖書第i個特征上的第j個分量歸一化后的值,歸一化后的第i個特征可表示為
步驟(3)計算基于時間維度的圖書評論內容價值:
(3.1)構建圖書的好評價值詞詞典GVD和差評價值詞詞典BVD:
(3.1.1)對步驟1中采集的圖書評論數據comment_content進行分詞,詞性標注,只保留形容詞、名詞以及動詞,構建評論語料庫,記作COMM;
(3.1.2)構建初始好評價值詞典與初始差評價值詞典,其中初始好評價值詞典記作GVD0={w1,w2,…,wm},wi是人工標注的初始好評種子詞;初始差評價值詞典BVD0={v1,v2,…,vn},vi是人工標注的初始差評種子詞;
(3.1.3)擴充價值詞典GVD0與BVD0:
以語料庫COMM為輸入數據,利用通用的word2vec詞向量方法,訓練得到價值詞模型,記作WORDVEC;對所有的wl∈GVD0,利用WORDVEC模型得到與wl語義最為相近的前N個價值詞,記作WORDVEC(wl)={c1,c2,…cN};最后合并所有WORDVEC(wl),wl∈GVD0,得到擴充后的好評價值詞典,記作:
GVD=GVD0∪WORDVEC(w1)∪...WORDVEC(wl)...∪WORDVEC(wm)
類似地,可以得到擴充后的差評價值詞典,記作:
BVD=BVD0∪WORDVEC(v1)∪...WORDVEC(vj)...∪WORDVEC(vn);
(3.2)以L天為單位,計算每本圖書的評論內容價值:
對于D中的每本圖書bf,以圖書特征上架時間sale_time為起始點,將bf的圖書評論集合comment_set按照評論發表時間,以L天為一組進行分割,分割后的圖書評論集合記為S,被劃分為m個子圖書評論集合,其中S={s1,s2,…,sm},si={p′1,p′2,…,p′k},si表示其中某一組評論內容,且其中有k條評論內容;
根據公式2計算圖書評論子集si∈S的評論內容價值:
其中ul∈GVD,frei(ul)表示價值詞ul在圖書評論子集si中的詞頻,M1=|GVD|為好評價值詞字典的大小,ηj∈BVD,frei(ηj)表示價值詞ηj在圖書評論子集si中的詞頻,M2=|BVD|為差評價值詞典的大小;
則圖書評論集合S的評論內容價值可記作其中表示圖書在評論子集si上的評論價值;
(3.3)通過公式1對圖書評論內容價值vS進行歸一化處理,使其落入區間[0,1],
計算基于時間維度的圖書評論內容價值后,comment_set特征被替換為圖書評論內容價值vS,數據集D可以表示為:D={bf1,bf2,…,bfn},bf∈D表示某一本書的特征數據,bf={name,class,price,public_time,sale_time,times,paper_num,press,author,comment_num,good_comment_num,status,ranking,vS},
步驟(4)選擇圖書價值特征:
(4.1)基于圖書特征status,取出數據集D中的上榜圖書,即status=1的圖書集合,并基于特征指標ranking,為每一本上榜圖書設定一個分值,記作數據集D′,D′={(bf1,y1),(bf2,y2),…,(bfn,yn)},其中yi是基于特征指標ranking給定的一個圖書分值,rankingi表示圖書bfi在其排行榜上的名次,分母加0.1是因為防止該值等于1;
(4.2)分析圖書的各數值型特征與圖書價值之間的相關性:
(4.2.1)從圖書特征bf中選擇出數值型特征集合:bf′={price,public_time,times,paper_num,comment_num,good_comment_num};
(4.2.2)對任意的數值型特征t=(t1,t2,…,tn)∈bf′,通過公式3計算t與y=(y1,y2,…,yn)的相關性系數,公式如下:
其中,Cov(t,y)為特征t與y的協方差,計算公式為:
σt,σy為特征t與y的標準差,計算公式為:
如果t與y的相關性系數rt,y的絕對值|rt,y|≥0.8,則認為t與y之間具有很強的相關性;0.3≤|rt,y|<0.8,則認為t與y的相關性較弱,|rt,y|<0.3,則認為相互獨立,沒有相關性;刪掉相關性系數|rt,y|<0.3的特征,然后對剩余的相關性系數從大到小排序,選取前N個特征作為最終的圖書特征,記作:bf′={f1,f2,…,fN};
數值型特征選取后,上榜圖書數據集D′可以表示為:D'={bf1,bf2,…,bfn},其中bfi表示某一本書的特征數據,bf={bf′,vS,ranking,class}∈D′,
步驟(5)利用上榜圖書數據集D′,對每類圖書在每個時間段進行圖書價值建模:
(5.1)對上榜圖書數據集D′,基于圖書類別特征class={c1,c2,…,cl}進行分割,得到:
(5.2)對每類圖書cj∈class,基于圖書評論內容價值進行二次分割,其中第cj類數據集分割后的數據可表示為:其中表示為:其中M表示具體某個時間段上圖書的數量,對任意有
(5.3)在每個數據集上,根據ranking特征可以計算每一本圖書的一個近似的價值得分則數據集可表示為
其中n表示cj類圖書第si段上圖書的數量,bfi表示第i本圖書的特征數據,然后以y=(y1,y2,…,yn)作為訓練時的標簽label,即圖書價值的近似;最后利用因子分解機算法FM在數據集做回歸分析,因子分解機訓練的模型如下:
其中,以作為cj(j=1,2,…l)類圖書中一本圖書在時間段si的價值得分,x=(x1,x2,…xN)=bf,xq,xl,xp∈x,wq,wl,p為待訓練的圖書價值權值;
通過FM算法的訓練,可以得到所需的權值wq,wl,p,為表示方便,記作訓練完后得到價值模型
同理,可以對所有類別的圖書,在各個時間段上求取對應的價值模型;
步驟(6)利用步驟(5)訓練得到的價值模型可以計算出每本圖書的價值得分,并分析其價值走勢,
對任意一本圖書基于特征可以得到對應時間段上的價值得分:
其中,x=bf為上榜的cj類的任意一本圖書數據,
而該圖書基于前T∈{1,2,…,m}個時間段上的總價值得分可以表示為:
利用公式8可計算出圖書bf的前T個時間段的價值得分;
最后把該圖書第T+1時刻的圖書數據輸入價值模型可以得到該圖書在第T+1時間段的價值預測
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811633423.1/1.html,轉載請聲明來源鉆瓜專利網。





