[發明專利]基于元結構技術的全局引文推薦方法、推薦系統有效
| 申請號: | 201910326299.2 | 申請日: | 2019-04-23 |
| 公開(公告)號: | CN110083696B | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 趙姝;趙桓幜;陳喜;陳潔;段震;張燕平 | 申請(專利權)人: | 安徽大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/9535;G06F40/30 |
| 代理公司: | 合肥市浩智運專利代理事務所(普通合伙) 34124 | 代理人: | 王亞洲 |
| 地址: | 230000 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 結構 技術 全局 引文 推薦 方法 系統 | ||
1.一種基于元結構技術的全局引文推薦方法,其特征在于,包括以下步驟:
S1、收集文章,構建原始數據集,原始數據集包括候選文章集與目標文章集;對原始數據集中的文章進行文章提取,得到文章的作者、出版商和術語,并使用文章、文章的作者、出版商和術語四種屬性構建文章庫;
S2、通過文章庫中文章的作者、文章、術語和出版商四種屬性建立異構信息網絡;
S3、列舉所有在異構信息網絡中度數在三以內的元結構,并依據所選的元結構和基于元結構的相似度得到文章庫中候選文章與目標文章的相似度;
S4、對S3中的每個元結構進行加權,用以融合文章間基于不同元結構獲得的不同的相似度;根據候選文章與目標文章之間的相似度,為所有目標文章根據相似度排名生成推薦列表;
S5、使用優化算法優化推薦列表;
其中,所述S2中通過以下步驟建立異構信息網絡;
S21、根據每篇文章和該文章包含的術語構建異構信息網絡的文章、術語邊;
S22、根據每篇文章和該文章的作者構建異構信息網絡的文章、作者邊;
S23、根據每篇文章和該文章的出版商構建異構信息網絡的文章、出版商邊;
S24、根據每篇候選文章和該候選文章的引文構建異構信息網絡的文章、文章邊;
所述S3包括以下步驟:
S31、列舉所有在異構信息網絡中文章、文章的作者、出版商和術語中度數在三以內的從文章節點出發到文章節點結束的M個元結構,表示為S={S1,S2,...,SM};
S32、使用基于元結構的BSCSE算法處理文章間基于S31中所有元結構的相似度,得到目標文章tpu與候選文章cpt在元結構下的相似度;
原始數據集中K篇目標文章TP={tp1,tp2,...,tpK}和N篇候選文章cP={cp1,cp2,...,cpN}之間基于所選的M個元結構下的相似度:
其中,tpu表示第u篇目標文章,表示第u篇目標文章在網絡中對應的節點,u∈[1,K];Sj表示第j個元結構;其中,d(Sj)表示元結構Sj的維度;j∈[1,M];cpi表示第i篇候選文章,表示第i篇候選文章在網絡中對應的節點,i∈[1,N];
表示從目標文章節點的鄰居節點中選出類型為的節點,其中,vi表示目標文章節點的鄰居節點中,類型為的節點中的第l個,表示網絡中目標文章節點的所有鄰居節點,表示目標文章節點的鄰居節點個數,|V|表示網絡中所有節點的個數;r(vl)∈{文章,作者,出版商,術語};
表示元結構Sj的第二項;
表示網絡中從節點vl開始到候選文章節點為止,所有滿足元結構的路徑實例的個數;其中,表示Sj去除第一項的剩余部分的元結構,表示元結構Sj的第一項;
表示網絡中從點vl開始,所有滿足元結構的路徑實例的個數,其中,表示Sj去除第一項的剩余部分的元結構,表示元結構Sj的第一項;
表示網絡中從目標文章節點開始,滿足元結構的路徑實例的個數的β次冪,其中,表示第u篇目標文章在網絡中對應的節點;表示由元結構Sj的第一項和第二項組成的元結構;β是一個權重系數,取值在[0,1]之間;
所述S5采用粒子群優化算法,包括以下步驟:
S51、將待求解的權重W={w1,w2,...,wM}作為粒子群優化算法中待求解的問題,不同權重的排列組合構成解空間中不同的解,在粒子群優化算法第h次迭代中,解xh為并且,每個解xh作為粒子群優化算法中粒子的位置;
S52、在粒子群優化算法的下一次迭代中,解優化的過程中,將推薦的召回率作為目標函數,并且每個粒子記錄自己所走過的位置中的最優位置pbest,優化過程中也會記錄空間中所有粒子走過的位置中的最優位置gbest,設置終止的損失函數值γ,方法遵循以下步驟:
S521、將解中的權重值輸入S42步驟中的相似度模型中,計算所有目標文章TP與所有候選文章CP之間的相似度,SIM(tpu,cpt),其中tpu∈TP,cpt∈CP;
S522、根據候選文章與目標文章之間的相似度,為所有目標文章根據相似度排名生成推薦列表,推薦列表長度為25;若某一篇目標文章的推薦列表長度不足25,則以其推薦列表長度為準;
S523、根據推薦結果與目標文章實際的參考文獻作對比,計算召回率,公式如下:
其中,K為目標文章的總數,為目標文章tpu的推薦列表中的所有文章集合,為目標文章tpu的實際的參考文獻集合;
S524、若沒有達到設定的迭代次數或Recall@25<γ,繼續下一步S525,否則跳出循環,確定當前的解為最優解;
S525、計算每個粒子的速度
vh=vh+c1×rand×(pbest-xh)+c2×rand×(gbest-xh)
其中,vh表示粒子在第h次迭代時的速度,c1,c2為學習因子,rand表示隨機數,rand∈(0,1);
使用粒子的速度來更新第h+1次迭代時,粒子的位置xh+1=xh+vh,其中,
S53、將步驟S524中的最優權重輸入步驟S42中的相似度模型SIM(tpu,cpi)中,其中tpu∈TP,cpi∈CP;得到所有目標文章TP和所有候選文章CP之間的相似度;
S54、根據用戶的推薦篇數的需求,為每篇目標文章返回相似性排名靠前的候選文章作為全局引文推薦算法的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽大學,未經安徽大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910326299.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:技能服務調用方法、裝置及存儲介質
- 下一篇:一種中小企業公共服務系統





