[發明專利]一種基于行為感知的大數據提取系統及方法在審
| 申請號: | 201810348617.0 | 申請日: | 2018-04-18 |
| 公開(公告)號: | CN108549707A | 公開(公告)日: | 2018-09-18 |
| 發明(設計)人: | 巫自友;胡德義;王鈞甲;盧文波 | 申請(專利權)人: | 安徽智網信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/08;G06Q30/06 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行為感知 大數據 提取系統 數據處理領域 網頁信息采集 用戶體驗度 多個網站 感知信息 公告內容 技術手段 匹配信息 數據分析 信息分析 信息提取 頁面獲取 頁面數據 異步訪問 用戶匹配 用戶信息 智能分揀 自動分類 精準度 去重 推送 索引 服務器 過濾 數據庫 采集 互聯網 保存 | ||
本發明公開了一種基于行為感知的大數據提取系統及方法,涉及數據處理領域。本發明的一種基于行為感知的大數據提取方法包括如下步驟:步驟S001:頁面獲取;步驟S002:信息提取;步驟S003:信息去重;步驟S004:獲取公告內容;步驟S005:自動分類;步驟S006:生成索引;步驟S007:信息分析提取;步驟S008:保存至數據庫。本發明通過異步訪問多個服務器同時采集多個網站頁面數據,利用互聯網的技術手段以及行為感知技術進行數據分析,為用戶匹配感知信息,并對完成用戶信息的智能分揀及過濾,實時為用戶推送精準的匹配信息,提高了網頁信息采集速度以及精準度,極大的增加了用戶體驗度。
技術領域
本發明屬于數據處理領域,特別是涉及一種基于行為感知的大數據提取系統及方法。
背景技術
按照預估計,全國公共采購招標網站在4000個以上,如果計入大型企業網站發布的招標信息在內可能在10000家以上。有些企業網站需要注冊以后才能登錄訪問招標信息;要快速采集全國各招標網站最新發布的招標信息,必須對這幾千上萬的網站相關頁面進行多線程并行自動訪問。
在現有技術中,由于網頁采集招標信息需要從幾百上千個網站上獲取,導致招標信息采集過慢、采集信息不準確,影響了用戶快速了解招標信息。
本發明提出一種信息提取方法,根據需要進行多服務器同時采集。同一個網頁采集線程需要管理幾百上千個網站頁面的獲取,因此網頁獲取要采用異步訪問模式,加快獲取的速度。
發明內容
本發明的目的在于提供一種基于行為感知的大數據提取系統及方法,通過異步訪問多個服務器同時采集多個網站頁面數據,利用互聯網的技術手段以及行為感知技術進行數據分析,為用戶匹配感知信息,并對完成用戶信息的智能分揀及過濾,實時為用戶推送精準的匹配信息,解決了現有的網頁信息采集過慢、信息精準度不足、用戶體驗不佳的問題。
為解決上述技術問題,本發明是通過以下技術方案實現的:
本發明為一種基于行為感知的大數據提取系統,包括手機APP、交換機和應用服務器;所述手機APP通過互聯網與交換機無線連接;所述互聯網通過交換機與應用服務器連接;所述互聯網和應用服務器之間設有一安全設備;所述交換機用于為多個網絡節點提供獨享的電性通路;所述應用服務器包括行為數據獲取子系統、數據存儲管理子系統、行為感知計算子系統;所述行為數據獲取子系統,用以完成獲取用戶的歷史行為數據,并據此生成融入上下文信息的用戶行為數據;所述數據存儲與管理子系統,用以完成用戶歷史行為數據、上下文信息、用戶行為類集、頁面采集信息、公告信息的存儲與管理;所述行為感知計算子系統,用以完成依據用戶行為數據的分類預處理,通過計算行為波動閾值、根據用戶行為判斷對公告內容進行分類;所述行為數據獲取子系統還包括用戶歷史行為生成模塊和上下文信息生成模塊;所述用戶歷史行為生成模塊,用以根據用戶歷史行為記錄生成符合公告分類算法需求的數據源;所述用戶上下文信息生成模塊,用以實現與用戶歷史行為對應的上下文信息的生成,包括地理上下文、情緒上下文、環境上下文;所述行為感知計算子系統還包括行為分類模塊和行為波動閾值計算模塊;所述行為波動閾值計算模塊,用以針對當前用戶群組,采用量化的偏好均值來表示用戶行為的變化,即用戶行為波動,并根據其量化值分布特征計算波動閾值以分離用戶行為孤點;所述行為分類模塊,用以依據行為波動閾值將用戶行為分類,輸出用戶與不同行為類的對應關系;所述應用服務器還包括采集模塊、通信模塊、日志模塊和檢索模塊;所述采集模塊用以采集頁面信息;所述通信模塊用以應用服務器與交換機之間通信連接;所述日志模塊用以對用戶的操作生成日志;所述檢索模塊用以用戶通過關鍵字進行全文檢索。
優選地,所述檢索模塊采用全文檢索技術,公告標題和正文組合構成待檢索的文本,事先構建文本的詞匯檢索索引,建立與文本的映射關系,構建成全文檢索數據庫。
優選地,所述應用服務器為多個;所述應用服務器包括公告采集服務器、推送信息生成分類服務器、全文檢索服務器、數據庫服務器、日志分析存儲服務器、手機APP應用服務器和反向代理或負載均衡服務器;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽智網信息科技有限公司,未經安徽智網信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810348617.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁的處理方法及相關設備
- 下一篇:一種圖文匹配方法及系統





