[發(fā)明專利]一種社區(qū)管理服務大數(shù)據(jù)處理系統(tǒng)及其處理方法有效
| 申請?zhí)枺?/td> | 201510070156.1 | 申請日: | 2015-02-10 |
| 公開(公告)號: | CN104615734B | 公開(公告)日: | 2017-10-03 |
| 發(fā)明(設計)人: | 丁帥;楊善林;蔡瓊;徐健;潘禹辰;牛鋒 | 申請(專利權)人: | 合肥工業(yè)大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司34101 | 代理人: | 陸麗莉,何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 社區(qū) 管理 服務 數(shù)據(jù)處理系統(tǒng) 及其 處理 方法 | ||
1.一種社區(qū)管理服務大數(shù)據(jù)處理系統(tǒng)的處理方法,所述社區(qū)管理服務大數(shù)據(jù)處理系統(tǒng),包括:社區(qū)管理服務數(shù)據(jù)庫、數(shù)據(jù)收集系統(tǒng)和數(shù)據(jù)集成系統(tǒng);
所述數(shù)據(jù)收集系統(tǒng)包括半結構化數(shù)據(jù)采集模塊和結構化數(shù)據(jù)采集模塊;所述半結構化數(shù)據(jù)采集模塊用于對社區(qū)管理服務的HTML格式數(shù)據(jù)進行定向采集,獲得半結構化數(shù)據(jù);所述結構化數(shù)據(jù)采集模塊對社區(qū)管理服務數(shù)據(jù)庫的數(shù)據(jù)進行定向采集,獲得結構化數(shù)據(jù);
所述數(shù)據(jù)集成系統(tǒng)包括數(shù)據(jù)轉換模塊和數(shù)據(jù)融合模塊;所述數(shù)據(jù)轉換模塊將所述半結構化數(shù)據(jù)轉換為新結構化數(shù)據(jù),所述數(shù)據(jù)融合模塊對結構化數(shù)據(jù)和新結構化數(shù)據(jù)進行基于關鍵字的整合處理,獲得社區(qū)管理服務的結構化數(shù)據(jù);其特征是,所述處理方法按如下步驟進行:
步驟1、獲得半結構化數(shù)據(jù)并進行存儲;
步驟1.1、構建用于臨時存儲半結構化數(shù)據(jù)的XML模板文檔;
步驟1.2、利用篩選器對社區(qū)管理服務的HTML格式數(shù)據(jù)進行解析并定向抓取;獲得半結構化數(shù)據(jù);將所述半結構化數(shù)據(jù)存入所述XML模板文檔中;
步驟2、獲得長期存儲數(shù)據(jù)并進行存儲;
步驟2.1、對社區(qū)管理服務數(shù)據(jù)庫中的任意長期存儲數(shù)據(jù)進行定向采集,獲得第v個長期結構化數(shù)據(jù),記為表示所述第v個長期結構化數(shù)據(jù)Av中第i個的元素;1≤i≤n;1≤v≤V;V表示所述長期存儲數(shù)據(jù)的總數(shù);
步驟2.2、創(chuàng)建用于存儲所述第v個長期結構化數(shù)據(jù)Av的第一數(shù)據(jù)鏈棧與第二數(shù)據(jù)鏈棧
步驟2.3、根據(jù)所述第v個長期結構化數(shù)據(jù)Av的生成時間將所述第v個長期結構化數(shù)據(jù)Av依次存入所述第一數(shù)據(jù)鏈棧并用元素屬性Date來表示所述第v個長期結構化數(shù)據(jù)Av的生成時間,記為表示所述第v個長期結構化數(shù)據(jù)Av中第i個的元素的生成時間;
步驟2.4、初始化i=1;則所述第一數(shù)據(jù)鏈棧中第i個元素表示棧頂元素;
步驟2.5、令指針指向所述第i個元素
步驟2.6、將所述第i個元素的生成時間與時間閾值A進行比較;在所述第i個元素生成時間大于所述時間閾值A時,取出所述第i個元素并壓入到所述第二數(shù)據(jù)鏈棧中;并將i+1賦給i后,返回步驟2.5順序執(zhí)行;從而利用所述第二數(shù)據(jù)鏈棧完成長期存儲數(shù)據(jù)的存儲;并形成第v個長期存儲數(shù)據(jù)表,進而獲得V個長期存儲數(shù)據(jù)表;
步驟3、獲得臨時存儲數(shù)據(jù)并進行存儲;
步驟3.1、根據(jù)設定周期對所述社區(qū)管理服務數(shù)據(jù)庫中的臨時存儲數(shù)據(jù)進行定向采集,獲得臨時結構化數(shù)據(jù);
步驟3.2、創(chuàng)建容量為S的隊列Queue1;
步驟3.3、將所述臨時存儲數(shù)據(jù)壓入所述隊列Queue1;
步驟3.4、用元素數(shù)據(jù)Data來表示存放在所述社區(qū)管理服務數(shù)據(jù)庫中的其他臨時存儲數(shù)據(jù);
步驟3.5、判斷所述隊列Queue1是否空余,若空余,則將所述元素數(shù)據(jù)Data順序存放在所述隊列Queue1的隊尾;若所述隊列Queue1已滿,則刪除所述隊列Queue1的隊頭元素,并將所述元素數(shù)據(jù)Data插入到所述隊列Queue1的隊尾;從而形成臨時存儲數(shù)據(jù)表;
步驟4、將所述XML模板文檔采用關鍵字映射機制生成結構化數(shù)據(jù)表;將所述半結構化數(shù)據(jù)存入所述結構化數(shù)據(jù)表;
步驟5、對所述長期存儲數(shù)據(jù)表、臨時存儲數(shù)據(jù)表與結構化數(shù)據(jù)表進行基于主鍵關聯(lián)的去冗整合操作,包括:
步驟5.1、對所述V個長期存儲數(shù)據(jù)表、臨時存儲數(shù)據(jù)表與結構化數(shù)據(jù)表依次標記形成數(shù)據(jù)表label={label1,label2,…,labelj,…,labelv+2};labelj表示第j個數(shù)據(jù)表;1≤j≤V+2;
步驟5.2、對所述數(shù)據(jù)表label依次設立整合標志位flag;記為flag={flag1,flag2,…,flagj,…,flagv+2};flagj表示第j個數(shù)據(jù)表labelj的整合標志位;
步驟5.3、初始化j=1,flagj=1;則將第j個數(shù)據(jù)表labelj作為參照表;
步驟5.4、將所述第j個數(shù)據(jù)表labelj與第j+1個數(shù)據(jù)表labelj+1按照相似度規(guī)則進行關鍵字相似度比較;所述相似度規(guī)則為:則設置flagj+1=1,并進行表整合操作,即labelj∪labelj+1=labelj∪j+1;并執(zhí)行步驟5.5;若則設置flagj+1=0,并執(zhí)行步驟5.6;
步驟5.5、將labelj∪j+1賦值給labelj+1;判斷j+1=V+2是否成立,若成立,表示完成表整合操作,形成社區(qū)管理服務數(shù)據(jù)表label′;并執(zhí)行步驟5.7;否則,則將j+1賦值給j后返回步驟5.4;
步驟5.6、將labelj+2賦值給labelj+1并返回步驟5.4;
步驟5.7、在所述數(shù)據(jù)表label中任意挑選整合標志位flag為0的數(shù)據(jù)表作為參照表,并與其他整合標志位flag為0的數(shù)據(jù)表按照相似度規(guī)則進行關鍵字相似度比較,直到整合標志位flag為0的數(shù)據(jù)表都完成關鍵字相似度比較為止,從而形成最終更新的社區(qū)管理服務數(shù)據(jù)表;由此獲得社區(qū)管理服務的結構化數(shù)據(jù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業(yè)大學,未經合肥工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510070156.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 在數(shù)據(jù)處理系統(tǒng)中基于所需電池壽命的計算機電源管理
- 在網(wǎng)絡數(shù)據(jù)處理系統(tǒng)中安裝軟件的方法和系統(tǒng)
- 遠程數(shù)據(jù)處理系統(tǒng)的配置
- 多個子據(jù)處理系統(tǒng)之間在線切換的方法
- 跨境多幣種數(shù)據(jù)處理系統(tǒng)和方法
- 用于批量和實時數(shù)據(jù)處理的設備、系統(tǒng)和方法
- 動態(tài)地調整品牌和平臺界面元素
- 基于銀行卡交易的數(shù)據(jù)處理方法以及數(shù)據(jù)處理系統(tǒng)
- 數(shù)據(jù)處理方法、裝置和設備
- 用于批量和實時數(shù)據(jù)處理的設備、系統(tǒng)和方法





