[發明專利]一種基于作者頻繁模式的科技文獻推薦方法有效
| 申請號: | 201610056602.8 | 申請日: | 2016-01-27 |
| 公開(公告)號: | CN105740387B | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 李玉鑑;楊凱文 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 作者 頻繁 模式 科技 文獻 推薦 方法 | ||
本發明公開了一種基于作者頻繁模式的科技文獻推薦方法,包括:在Fp?growth算法中增加處理文獻ID(文獻唯一編號)的功能,構造出作者頻繁模式及其對應的文獻集、作者發表的文獻和關鍵字對應的文獻集,并去除用戶已經瀏覽過的文獻構建出文獻推薦候選集。并構建一種計分系統,按照得分從高到底對候選集進行排序,選出得分最高的10篇論文推薦給用戶。
技術領域
本發明屬于推薦系統領域,涉及一種基于作者頻繁模式的科技文獻推薦方法。
背景技術
互聯網的出現和普及給用戶帶來了大量的信息,但隨著網絡的迅速發展而帶來的網上信息量的大幅增長,使得用戶在面對大量信息時無法從中獲得對自己真正有用的那部分信息,對信息的使用效率反而降低了,這就是所謂的信息超載問題。解決信息超載問題一個非常有潛力的辦法是推薦系統,它是根據用戶的信息需求、興趣等,將用戶感興趣的信息、產品等推薦給用戶的個性化信息推薦系統。
關聯規則最初提出的動機是針對購物籃分析問題提出的。假設分店經理想更多的了解顧客的購物習慣。特別是,想知道哪些商品顧客可能會在一次購物時同時購買?為回答該問題,可以對商店的顧客事物零售數量進行購物籃分析。該過程通過發現顧客放入“購物籃”中的不同商品之間的關聯,分析顧客的購物習慣。這種關聯的發現可以幫助零售商了解哪些商品頻繁的被顧客同時購買,從而幫助他們開發更好的營銷策略。
1993年,Agrawal等人首先提出關聯規則的概念,同時給出了相應的挖掘算法AIS,但是性能較差。1994年,他們建立了項目集格空間理論,并依據上述兩個定理,提出了著名的Apriori算法。至今Apriori仍然作為關聯規則挖掘的經典算法被廣泛討論,以后諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。
Apriori算法是一種挖掘關聯規則的頻繁項集算法,其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集。而且算法已經被廣泛的應用到商業、網絡安全等各個領域。其核心是基于兩階段的頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
眾所周知,Apriori算法在產生頻繁模式前需要對數據庫進行多次掃描,同時產生大量的候選頻繁集,這就使Apriori算法時間和空間復雜度較大。而且Apriori算法中有一個很重要的性質:頻繁項集的所有非空子集都必須也是頻繁的。這個性質導致Apriori算法在挖掘長頻繁模式的時候性能低下。為了提高性能,Jiawei Han提出了FP-Growth算法,Fp-growth算法在挖掘頻繁模式的時候性能提高10倍以上。
FP-growth算法使用了一種緊縮的數據結構來存儲找頻繁項集所需要的全部信息。Fp-growth方法將發現長頻繁模式的問題轉換成在較小的條件數據庫中遞歸地搜索一些較短的模式,然后連接后綴。它使用最不頻繁的項作后綴,提供較好的選擇性。該方法顯著地降低了搜索開銷。FP-growth算法中涉及到一些概念:項(事物表示的單位)的集合稱為項集。包含k個項的項集成為k項集。集合{computer,software}是一個2項集。項集的出現頻度稱為支持度,如果項集I支持度滿足預定義的最小支持度閾值,則I是頻繁項集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610056602.8/2.html,轉載請聲明來源鉆瓜專利網。





