[發明專利]一種基于作者頻繁模式的科技文獻推薦方法有效
| 申請號: | 201610056602.8 | 申請日: | 2016-01-27 |
| 公開(公告)號: | CN105740387B | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 李玉鑑;楊凱文 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 作者 頻繁 模式 科技 文獻 推薦 方法 | ||
1.一種基于作者頻繁模式的科技文獻推薦方法,其特征在于:步驟如下,
步驟1、收集并整理科技文獻,解析成結構化的數據并存儲在數據庫D表中,其中表中的字段包括:ID文獻唯一編號、author文獻的作者、keyword關鍵字和title文獻的名稱;在數據庫中建立存儲作者頻繁項集及其對應的文獻ID集的T_fp表,該表字段為:ID表唯一編號、authors作者頻繁項集和papers文獻唯一編號ID集,其中每個編號以“,”作為分隔符;設置最小支持度為n,n通常為3,計算作者頻繁項集,過程如下:
步驟1.1、構建作者FP表L:其中L的數據結構為{作者,文獻編號ID集,ID之間以“,”分隔,支持度計數,結點鏈},其中每行稱為作者記錄,掃描文獻數據庫D表一次,統計每個作者發表的文獻總數存入作者記錄的支持度計數列中,且作者發表的文獻編號ID集以“,”為分隔存入作者記錄的文獻編號ID集列中,按照支持度計數對L中的作者記錄降序排序,去除小于最小支持度的作者記錄;
步驟1.2、構建作者FP樹T:其中T中結點的數據結構形式是{作者#文獻ID集:支持度計數,結點鏈指針};創建T的根節點,以“null”標記它,對數據庫D表中每篇文獻作者集按L中的次序排序并過濾掉在L中不存在的作者,排序結果為:A{A1,A2…An};按照A中Ai的次序構建一條路徑,如果此路徑與已有的路徑有相同的前綴,則可以利用已有的路徑,對于已有路徑重合部分上的結點計數增加1,追加此文獻ID,并以“,”隔開;而對于后面不同的部分創建新的路徑,新路徑鏈接在已有重合路徑上的最后結點上,如果T中沒有路徑的前綴和該新路徑有重合的部分,將該新路徑鏈接到T的根節點上;該新路徑上結點計數設置為1,并記錄文獻ID;對于新插入的所有結點通過節點鏈結構將其連接到其他具有相同作者的結點上;
步驟1.3、根據作者FP樹T構建作者頻繁項集并存入T_fp表:
步驟1.3.1、記a為已產生的后綴模式,其初始值為空;
步驟1.3.2、如果T包含單個路徑P,則對路徑P中結點的每個組合{Pi1,Pi2...Pir}記為b,其中ir大于0且小于n,P為{P1,P2...Pn},如果n大于10,則只保留前十個結點;循環產生模式bUa,該模式的支持度計數等于b中結點的最小支持度計數,且該模式對應的文獻編號ID集為b中具有最小支持度計數結點的文獻編號ID集;
如果上述產生的模式作者頻繁項集中作者數大于等于2,則將該模式及其對應文獻ID集存入T_fp表中;
步驟1.3.3、如果T包含多個路徑,則對L中的每條作者記錄ai產生一個模式b=aiUa,ai按照L中支持度計數從小到大的次序產生,其支持度等于ai的支持度,該模式對應的文獻編號ID集等于ai中的文獻編號ID集;如果b中作者數大于等于2,則將該模式即作者頻繁項集及其對應文獻ID集存入T_fp表中;
步驟1.3.4、在T中找到b的所有前綴,其中每個前綴中所包含的作者集稱為b的條件模式基,b的條件模式基的集合記為B,使用步驟1.1至步驟1.2的方法,對B構造條件FP樹記為TB;
步驟1.3.5、如果TB不等于空集,令a等于b,回到步驟1.3.2遞歸產生B的作者頻繁項集;
步驟2、根據用戶正在瀏覽或者點擊的興趣文獻計算推薦集S過程如下:
步驟2.1、依據文獻數據庫D表離線統計每個作者發表的文獻,保存到數據庫T_ap表中,該表字段為:ID數據庫表唯一編號、author作者姓名和paperIds作者發表的文獻的唯一編號,其中每篇文獻唯一編號以“,”隔開;依據文獻數據庫D表離線計算每個關鍵詞的所有文獻,并保存記錄到T_kp表中,該表字段為:ID數據庫表唯一編號、keyword關鍵字和paperIds關鍵字對應的所有文獻唯一編號,其中每篇文獻唯一編號以“,”分割;
步驟2.2、通過查詢T_ap表找出每個作者所有的文獻集,并根據作者在興趣獻中的次序對于該作者發表的其他文獻給定不同的分值,其中第一作者的文獻計1分,第二作者的文獻計0.5分,第三作者的文獻計0.2分,其他作者的文獻計0.1分,將選出的文獻及其對應的分數存入文獻推薦候選集中,如果候選集合中已經存在該文獻則對該文獻累加計分;
步驟2.3、判定興趣文獻的每位作者是否在作者頻繁項集即查詢T_fp表中存在,若存在,則根據該作者在興趣文獻中出現次序對頻繁項集對應的文獻計分,其中第一作者的文獻計2分,第二作者的文獻計1分,第三作者的文獻計0.5分,其他作者的文獻計0.2分,將選出的文獻存入文獻推薦候選集中,如果候選集合中已經存在該文獻則對該文獻累加計分;
步驟2.4、通過查詢T_kp表得到興趣文獻中的每個關鍵詞對應的所有論文集合將所有的文獻計0.8分,將選出的文獻存入文獻推薦候選集中,如果候選集合中已經存在該文獻則對該文獻累加計分;
步驟2.5、在文獻候選集中去除作者已經點擊或者瀏覽的科技文獻,選出文獻在推薦候選集中得分最高的前十位作為最終推薦給用戶的文獻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610056602.8/1.html,轉載請聲明來源鉆瓜專利網。





