[發明專利]一種考慮種子信息及因果關系的評論有用性預測方法在審
| 申請號: | 202310032346.9 | 申請日: | 2023-01-10 |
| 公開(公告)號: | CN116010702A | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 姜元春;張萌;錢洋;劉業政 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9532;G06F40/242;G06F40/30;G06Q30/0201 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 考慮 種子 信息 因果關系 評論 有用 預測 方法 | ||
1.一種考慮種子信息及因果關系的評論有用性預測方法,其特征在于,包括:
S1、獲取評論文本及其對應的非文本數據,從而構建評論數據集D;
S11、獲取評論數據集D中包含K個常規主題的評論文本集合W={W1,W2,…,Wd,…,W|D|},其中,|D|表示評論文本集合W中評論文本的數量;Wd表示第d篇評論文本,且wd,n表示第d篇評論文本Wd中的第n個單詞,Nd表示第d篇評論文本Wd中的單詞總數;
構建評論文本集合W的詞典V={w1,...,wv,...,w|V|},其中,wv表示詞典V中的第v個單詞,|V|表示評論文本集合W中不重復的詞匯總數;
S12、獲取評論數據集D中的非文本數據集合U={Y,L,C1,C2},其中,Y表示評論數據集D中的評論有用性評分,且Y={y1,y2,...,yd,...,y|D|},yd表示第d篇評論文本Wd所對應的評論有用性評分;L表示評論數據集D中的評論長度,且L={l1,l2,...,ld,...,l|D|},ld表示第d篇評論文本Wd所對應的評論長度;C1表示評論數據集D中的評論評級,且C1={c1,1,c1,2,...,c1,d,...,c1,|D|},c1,d表示第d篇評論文本Wd所對應的評論評級;C2表示評論數據集D中的整體評級,且C2={c2,1,c2,2,...,c2,d,...,c2,|D|},c2,d表示第d篇評論文本Wd所對應的整體評級;
S2、獲取用戶評論偏好,從而構建種子主題詞分布φs;
S21、基于用戶興趣偏好,按照式(1)生成第k個種子主題下的詞分布從而得到所有種子主題下的詞分布
式(1)中,為第k個種子主題對應的狄利克雷分布的先驗參數,~表示服從,Dir(·)表示狄利克雷分布;K表示主題的數量;
S3、基于評論數據集D和種子主題詞分布φs構建貝葉斯種子主題回歸模型;
S31、定義所有常規主題下的詞分布為其中,表示第k個常規主題下的詞分布,且滿足式(2):
式(2)中,為第k個常規主題對應的狄利克雷分布的先驗參數;
S32、定義所有評論文本下的主題分布為θ={θ1,...,θd,…,θ|D|},其中,θd表示第d篇評論文本Wd的主題分布,且θd滿足式(3):
θd~Dir(αd)?(3)
式(3)中,αd為第d篇評論文本Wd對應的狄利克雷分布的先驗參數;
S33、按照式(4)生成第d篇評論文本Wd的第n個詞wd,n所對應主題zd,n,從而得到第d篇評論文本Wd的主題進而得到評論數據集D的主題集合Z=[z1,…,zd,…,z|D|];
zd,n~Mult(θd)?(4)
式(6)中,Mul(·)表示多項式分布;
S34、計算第d篇評論文本Wd的平均主題記為其中,表示第d篇評論文本Wd中第k個主題的平均結果;從而得到評論數據集D的平均主題
S35、按照式(5)生成第d篇評論文本textd的第n個詞wd,n所對應主題zd,n的指示變量xd,n:
式(5)中,Beta(·)表示貝塔分布,Bern(·)表示伯努利分布,表示指示變量xd,n對應的伯努利分布的先驗參數,xd,n表示第d篇評論文本Wd的第n個詞wd,n是從第k個種子主題的詞分布中生成還是從第k個常規主題的詞分布中生成;當xd,n=0時,表示第d篇評論文本Wd的第n個詞wd,n是從第k個常規主題詞分布中生成,且wd,n服從參數為的多項分布,即當xd,n=1時,表示第d篇評論文本Wd的第n個詞是從第k個種子主題詞分布中生成,且wd,n服從參數為的多項分布,即
S36、定義表示包含所有評論主題評論長度L、評論評級C1、整體評級C2的總體回歸設計矩陣;其中,表示包含評論長度L、評論評級C1、整體評級C2的矩陣,R表示實數矩陣,dim表示矩陣的維度;
S37、假設存在誤差ε,且滿足式(6),并構建回歸方程y=Aω+ε,且滿足式(7):
ε~N(0,σ2I)(6)
式(6)和式(7)中,σ2為回歸方差,ω為回歸權重;I表示單位矩陣,N(·)表示高斯分布,IG(·)表示逆伽馬分布,均值m0和協方差矩陣So是高斯分布的超參數,形狀a0和尺度bo是逆伽馬分布的超參數;
S38、考慮主題Z與矩陣B的關系,將矩陣B拆分為第一矩陣B1,d與第二矩陣B2,d,其中,B1,d表示與主題Z具有相關性的矩陣,B2,d表示與主題Z不具有相關性的矩陣,則評論有用性評分yd滿足式(8):
式(8)中,ωz表示平均主題的權重向量,ωzb表示第一矩陣B1,d的權重向量,ωb表示第二矩陣B2,d的權重向量,表示克羅內克積,b1,d表示第一矩陣B1,d中的第d行,b2,d表示第二矩陣B2,d中的第d行,T表示轉置;
S4、基于所述評論數據集D,初始化步驟S2與步驟S3中的所有參數,并利用EM算法與吉布斯采樣方法對文檔主題分布、主題詞分布、評論有用性預測分布進行參數推斷;
S41、利用式(9)計算第d篇評論文本Wd的主題分布θd:
式(9)中,表示在去除第d篇評論文本Wd的第n個單詞后,第d篇評論文本Wd的第k個常規主題中的單詞數;
S42、利用式(10)計算第k個常規主題下的詞分布
式(10)中,表示在去除第d篇評論文本Wd的第n個單詞后,詞典V中第v個詞wv在評論文本集合W中被分配給第k個常規主題的單詞數;
S43、利用式(11)計算評論有用性yd的預測分布:
式(11)中,權重變量ωz′,且滿足表示去除第d篇評論文本Wd的第n個詞wd,n所對應主題zd,n后的主題結果,bd表示矩陣B中的第d行,∝表示正比于,nd,n表示第d篇評論文本Wd的第n個詞wd,n分配給K個主題的單詞數向量,表示第d篇評論文本Wd中除去第n個詞wd,n后的其余詞分配給K個主題的單詞數向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310032346.9/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





