[發明專利]一種基于行為感知的大數據提取系統及方法在審
| 申請號: | 201810348617.0 | 申請日: | 2018-04-18 |
| 公開(公告)號: | CN108549707A | 公開(公告)日: | 2018-09-18 |
| 發明(設計)人: | 巫自友;胡德義;王鈞甲;盧文波 | 申請(專利權)人: | 安徽智網信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/08;G06Q30/06 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行為感知 大數據 提取系統 數據處理領域 網頁信息采集 用戶體驗度 多個網站 感知信息 公告內容 技術手段 匹配信息 數據分析 信息分析 信息提取 頁面獲取 頁面數據 異步訪問 用戶匹配 用戶信息 智能分揀 自動分類 精準度 去重 推送 索引 服務器 過濾 數據庫 采集 互聯網 保存 | ||
1.一種基于行為感知的大數據提取系統,包括手機APP、交換機和應用服務器,其特征在于:
所述手機APP通過互聯網與交換機無線連接;所述互聯網通過交換機與應用服務器連接;所述互聯網和應用服務器之間設有一安全設備;
所述交換機用于為多個網絡節點提供獨享的電性通路;
所述應用服務器包括行為數據獲取子系統、數據存儲管理子系統、行為感知計算子系統;
所述行為數據獲取子系統,用以完成獲取用戶的歷史行為數據,并據此生成融入上下文信息的用戶行為數據;
所述數據存儲與管理子系統,用以完成用戶歷史行為數據、上下文信息、用戶行為類集、頁面采集信息、公告信息的存儲與管理;
所述行為感知計算子系統,用以完成依據用戶行為數據的分類預處理,通過計算行為波動閾值、根據用戶行為判斷對公告內容進行分類;
所述行為數據獲取子系統還包括用戶歷史行為生成模塊和上下文信息生成模塊;
所述用戶歷史行為生成模塊,用以根據用戶歷史行為記錄生成符合公告分類算法需求的數據源;
所述用戶上下文信息生成模塊,用以實現與用戶歷史行為對應的上下文信息的生成,包括地理上下文、情緒上下文、環境上下文;
所述行為感知計算子系統還包括行為分類模塊和行為波動閾值計算模塊;
所述行為波動閾值計算模塊,用以針對當前用戶群組,采用量化的偏好均值來表示用戶行為的變化,即用戶行為波動,并根據其量化值分布特征計算波動閾值以分離用戶行為孤點;
所述行為分類模塊,用以依據行為波動閾值將用戶行為分類,輸出用戶與不同行為類的對應關系;
所述應用服務器還包括采集模塊、通信模塊、日志模塊和檢索模塊;
所述采集模塊用以采集頁面信息;
所述通信模塊用以應用服務器與交換機之間通信連接;
所述日志模塊用以對用戶的操作生成日志;
所述檢索模塊用以用戶通過關鍵字進行全文檢索。
2.根據權利要求1所述的一種基于行為感知的大數據提取系統及方法,其特征在于,所述檢索模塊采用全文檢索技術,公告標題和正文組合構成待檢索的文本,事先構建文本的詞匯檢索索引,建立與文本的映射關系,構建成全文檢索數據庫。
3.根據權利要求1所述的一種基于行為感知的大數據提取系統及方法,其特征在于,所述應用服務器為多個;所述應用服務器包括公告采集服務器、推送信息生成分類服務器、全文檢索服務器、數據庫服務器、日志分析存儲服務器、手機APP應用服務器和反向代理或負載均衡服務器;
其中,所述公告采集服務器、推送信息生成、分類服務器、全文檢索服務器、數據庫服務器、日志分析存儲服務器均勻交換機通信連接;所述手機APP應用服務器通過反向代理或負載均衡服務器與交換機通信連接。
4.根據權利要求1所述的一種基于行為感知的大數據提取系統及方法,其特征在于,所述應用服務器包括公告采集服務器、推送信息生成分類服務器、全文檢索服務器、數據庫服務器、日志分析存儲服務器、手機APP應用服務器和反向代理或負載均衡服務器均統一部署、配置。
5.如根據權利要求1-4所述的一種基于行為感知的大數據提取系統的大數據提取方法,其特征在于,包括如下步驟:
步驟S001頁面獲取:根據系統配置的網站清單和需要訪問的該網站頁面清單,每個頁面采集線程分批發起異步并訪問頁面;
步驟S002信息抽取:獲取的頁面交由頁面解析線程組負責頁面中需要的信息抽取;
步驟S003信息去重:抽取信息完成后,將重復的信息刪除;
步驟S004獲取公告內容:通過線程獲取公告內容;
步驟S005自動分類:對獲取的公告內容進行分類;
步驟S006生成索引:對分類完成的公告內容創建索引;
步驟S007信息分析提取:用戶提交的關鍵字對新信息進行匹配,對匹配的新信息記錄到需要推送的信息隊列;
步驟S008保存至數據庫:將發送的信息保存到系統數據庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽智網信息科技有限公司,未經安徽智網信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810348617.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁的處理方法及相關設備
- 下一篇:一種圖文匹配方法及系統





