[發明專利]一種新型智能推薦資源的系統在審
| 申請號: | 201710398772.9 | 申請日: | 2017-05-31 |
| 公開(公告)號: | CN107273450A | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 肖雪松 | 申請(專利權)人: | 成都明途科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新型 智能 推薦 資源 系統 | ||
1.一種新型智能推薦資源的系統,其特征在于,包括網絡資源收集模塊,所述網絡資源收集模塊包括爬蟲分配裝置和爬蟲執行單元,所述網絡資源收集模塊連接有爬蟲依賴模塊和網頁分解模塊,網頁分解模塊連接有工作數據庫,工作收集庫連接有臨時增量數據庫,臨時增量數據庫連接有更新增量數據庫,更新增量數據庫連接有篩選模塊,篩選模塊連接有本地文件子系統和交互模塊,所述本地文件子系統與工作數據庫連接;
所述爬蟲依賴模塊用于配置網絡資源收集模塊與目標網絡資源之間的依賴關系;網絡資源收集模塊能夠通過爬蟲依賴模塊建立的依賴關系,通過爬蟲分配裝置配置相應爬蟲執行單元執行資源收集;
所述網頁分解模塊用于網頁的分解、去除廣告信息、去除噪聲;
所述工作數據庫用于和當前用戶興趣內容做相似度比較,根據相似度排序為用戶推送內容;
所述更新增量數據庫用于存儲一個時間周期內網站更新的內容;
所述臨時增量數據庫用于存儲接著上次爬取斷點爬取到的內容;
所述交互模塊用于分析用戶的興趣愛好,常輸入關鍵字;
所述篩選模塊用于篩選用戶在更新增量數據庫中交互模塊中得到關鍵字;
所述本地文件子系統用于存儲通過篩選模塊中的網頁數據。
2.根據權利要求1所述的一種新型智能推薦資源的系統,其特征在于,所述本地文件子系統連接一個分布式文件子系統,所述分布式文件子系統,用于同步所述本地文件子系統中的網頁數據。
3.根據權利要求1所述的一種新型智能推薦資源的系統,其特征在于,所述爬蟲分配裝置包括初始單元、網頁下載模塊、關閉單元,所述初始單元用于為網絡資源收集準備必要的存儲空間及系統開銷;所述網頁下載模塊用于根據目標網絡資源的數據類型選擇不同爬蟲程序收集目標網絡資源的數據;所述關閉單元用于在收集裝置收集到所需要的目標數據后釋放系統開銷以及在收集裝置出現異常時進行異常處理。
4.根據權利要求1所述的一種新型智能推薦資源的系統,其特征在于,所述本地文件子系統包括URL過濾器,所述URL過濾器用于對收集的網頁數據進行重排。
5.根據權利要求4所述的一種新型智能推薦資源的系統,其特征在于,所述URL過濾器為基于二進制數組bitSet的過濾器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都明途科技有限公司,未經成都明途科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710398772.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于內存數據庫的斷點處理方法及系統
- 下一篇:余額數據更新方法和系統





