[發明專利]面向問答平臺的融合用戶隱連接關系的標簽推薦方法有效
| 申請號: | 201810614031.4 | 申請日: | 2018-06-14 |
| 公開(公告)號: | CN108804689B | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 劉業政;田志強;姜元春;孫見山;陶丹丹;孫春華;陳夏雨;劉春麗 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/332;G06N3/04 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;余罡 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 問答 平臺 融合 用戶 連接 關系 標簽 推薦 方法 | ||
1.一種面向問答平臺的融合用戶隱連接關系的標簽推薦方法,其特征在于,包括以下步驟:
從問答網站上獲取問題、問題對應的標簽、問題對應的用戶信息,并構建問題集合、問題對應的標簽集合、用戶集合;
根據問題與用戶信息的對應關系,構建用戶網絡;
所述根據問題與用戶信息的對應關系,構建用戶網絡,是通過挖掘用戶間共同回答問題的關系,構建一個帶權重的無向的用戶網絡;
所述構建一個帶權重的無向的用戶網絡,具體包括:
構建一個帶權重的無向的用戶網絡G;
G定義如(1):
G=(U,E,W) (1)
其中U代表所有用戶,每個用戶看作一個節點;E是邊,表示用戶曾共同回答過問題的關系,記作E={(useri′,useri″)|(useri′,useri″)∈quesuser},當用戶useri′和useri″共同回答了某個問題,就在他們間建立一條連接的邊;W是邊的權重,表示共同回答問題的次數;將所述用戶網絡輸入到node2vec模型中,得到用戶的特征向量,具體包括:
通過隨機游走的方式對用戶網絡G=(U,E,W)進行采樣,生成一個節點序列;
對于給定的源節點u,使用如下的分布,公式(2)產生固定長度為Length的鄰居序列:
其中cr表示節點序列中第r個節點,初始值c0=u,Z為歸一化常數,πvx是節點v到x的非歸一化轉移概率,通過公式(3)計算:
πvx=αpq(t,x)·Wvx (3)
其中Wvx為節點v與節點x邊上的權重,αpq(t,x)由公式(4)得到,假設已知路徑為t→v,t為上一個節點,v為當前節點,x為待選擇的與v相鄰的節點;
其中,dtx為鄰居節點x與上一節點t的最短距離;p,q為參數變量,p為返回概率參數,控制回到原來節點的概率;q為離開概率參數,控制跳到其他節點的概率,調節p,q,控制隨機游走的方向,從而得到相應的鄰居節點序列;
利用word2vec算法框架中的skim-gram模型對采樣出來的鄰居節點序列進行訓練,得到每個節點的特征向量uservect,uservect即用戶的特征向量;
將所述問題集合輸入到卷積神經網絡中,得到問題的特征向量,具體包括:
搭建卷積神經網絡;卷積神經網絡包括輸入層、卷積層和池化層;其中,輸入層為網絡的第一層;卷積層由三個不同尺寸大小的卷積核所構成,尺寸設為h*k′,其中h為卷積核的長度,表示縱向取詞語的個數,k′為卷積核的寬度等于詞向量的維數,每個尺寸的卷積核各若干個;池化層采用max-pooling方法;
利用word2vec模型將問題集合Q={ques1,ques2,......quesm}中包含的詞語ques={word1,word2,......wordm′}預訓練成詞向量,詞向量維度為k′,于是問題表示成m′*k′矩陣,作為卷積神經網絡的輸入,其中m′表示某個問題中含有的詞個數,k′表示詞向量的維數;
卷積和池化操作;輸入的m′*k′矩陣通過卷積操作得到若干個Feature Map,再通過池化操作從各個Feature Map中提取最大的值,將這些最大值連接起來,得到表征該問題的向量questionvect,所述questionvect即為問題的特征向量;
將所述用戶的特征向量和所述問題的特征向量做拼接,經過一層全連接網絡,得到融合用戶隱性連接的多特征向量集;
將所述多特征向量集使用邏輯回歸模型映射成概率,表示屬于每個標簽的概率,在[0,1]之間,基于輸出的概率值對標簽進行降序排序,取前top個標簽,至此初步模型即構建好;
將所述問題、問題對應的標簽、問題對應的用戶信息作為輸入,訓練初步模型,訓練終止后,得到最終的推薦模型;
所述將所述問題、問題對應的標簽、問題對應的用戶信息作為輸入,訓練初步模型,具體包括:
將問題ques、問題對應的標簽queslabel={label1,label2,......}、問題對應的用戶quesuser={userask}作為網絡的輸入,將對數損失函數binary_crossentropy如公式(7)作為整個模型的目標函數,設置迭代次數nb_epoch,采用學習率為η,指數衰減率為β1,β2的Adam優化算法和反向傳播算法訓練整個網絡,當迭代次數≥nb_epoch時,停止訓練;
用精確度accuracy,評估模型的準確性;
其中m為訓練的問題樣本總數,yi為第i個樣本期望的輸出,為第i個樣本神經元實際輸出,1≤i≤m;
當用戶在向網站提交問題時,從所述推薦模型中把前top個標簽推薦給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810614031.4/1.html,轉載請聲明來源鉆瓜專利網。





