1.面向物聯(lián)網(wǎng)實(shí)時數(shù)據(jù)的自動分析方法,其特征在于包括以下步驟:
步驟一,實(shí)體信息采集與獲取,采用Watir與Nokogiri信息實(shí)時獲取的方法進(jìn)行處理;
步驟二,數(shù)據(jù)實(shí)時管理;
步驟三,數(shù)據(jù)實(shí)時統(tǒng)計;
步驟四,實(shí)體信息實(shí)時搜索;
步驟五,實(shí)時預(yù)測;
步驟六,實(shí)時交換。
2.根據(jù)權(quán)利要求1所述的面向物聯(lián)網(wǎng)實(shí)時數(shù)據(jù)的自動分析方法,其特征在于:所述步驟一中,通過加載頁面模塊,獲取頁面HTML模塊,解析所得HTML模塊與數(shù)據(jù)存儲模塊,
所述加載頁面模塊和數(shù)據(jù)存儲模塊提供與外界聯(lián)系的接口;
所述加載頁面模塊通過網(wǎng)絡(luò)鏈接地址加載外部頁面,傳遞給獲取HTML模塊,獲取HTML模塊針對加載頁面模塊傳遞過來的動態(tài)頁面,獲取該頁面的HTML文檔,同時將所獲得的HTML文檔傳遞給解析HTML模塊;
解析HTML模塊從得到的HTML文檔中通過定位技術(shù)解析出所需要的文本內(nèi)容,將解析出來的內(nèi)容給數(shù)據(jù)存儲模塊進(jìn)行數(shù)據(jù)存儲。
3.根據(jù)權(quán)利要求1所述的面向物聯(lián)網(wǎng)實(shí)時數(shù)據(jù)的自動分析方法,其特征在于:所述步驟二中,采用分布式數(shù)據(jù)庫參與管理,所處分布式數(shù)據(jù)庫參支持全局控制集中、全局控制分散、全局控制部分分散的控制方式;
所述分布式數(shù)據(jù)庫由局部場地數(shù)據(jù)庫管理系統(tǒng)、全局?jǐn)?shù)據(jù)庫管理系統(tǒng)、全局?jǐn)?shù)據(jù)字典、通信管理組成。
4.根據(jù)權(quán)利要求1所述的面向物聯(lián)網(wǎng)實(shí)時數(shù)據(jù)的自動分析方法,其特征在于:所述步驟三中,將實(shí)時數(shù)據(jù)庫中的數(shù)據(jù)上傳到物聯(lián)網(wǎng)三層結(jié)構(gòu)中的應(yīng)用層,并完成統(tǒng)計。
5.根據(jù)權(quán)利要求1所述的面向物聯(lián)網(wǎng)實(shí)時數(shù)據(jù)的自動分析方法,其特征在于:所述步驟四中,采用Java編寫的源代碼開放的工具包來構(gòu)成Lucene系統(tǒng),將源代碼分為了7個模塊,包括,
Org.apache.lucene.document模塊:用于將用戶提供的源記錄為Document,并用來存儲索引時的文檔管理;
Org.apache.lucene.util模塊:用于提供公共的工具類、常量類的支持;
Org.apache.lucene.store模塊:用于對索引文件提供存儲管理,能夠選擇特定的域進(jìn)行存儲或是不存儲;
Org.apache.lucene.index模塊:用于提供對索引的管理,用于建立索引,更新索引或是刪除索引;
Org.apache.lucene.search模塊:用于實(shí)現(xiàn)查詢匹配功能,被調(diào)用時能夠根據(jù)索引文件檢索出相關(guān)匹配文件;
Org.apache.lucene.analysis模塊:用于分析被索引的文件,對數(shù)據(jù)源按要求進(jìn)行過濾、切分操作;
Org.apache.lucene.queryparser模塊:用于對用戶的輸入查詢詞進(jìn)行分析,提供合適的query,屬于查詢分析器。
6.根據(jù)權(quán)利要求1所述的面向物聯(lián)網(wǎng)實(shí)時數(shù)據(jù)的自動分析方法,其特征在于:所述步驟四中,對于涉及的數(shù)據(jù)源文件,首先經(jīng)過解析器,提取出Lucene可以處理的文本信息,然后經(jīng)過Analyzer處理,
所述Analyzer處理包括:分詞,即將數(shù)據(jù)源進(jìn)行有效的切分,根據(jù)空格或者標(biāo)點(diǎn),分成一個個單詞或數(shù)字,然后去除可選詞;
所述Analyzer是Lucene中的文本分析器,按設(shè)定規(guī)則把一個字符串劃分成單個詞語,并過濾掉字符串中的無效詞語,所述無效詞語包括英文中的“of”、“the”,中文中的“的”、“地”,這些詞語不帶有效信息;之后,創(chuàng)建Lucene的索引文檔Document對象和對應(yīng)的索引域Field對象。
7.根據(jù)權(quán)利要求1所述的面向物聯(lián)網(wǎng)實(shí)時數(shù)據(jù)的自動分析方法,其特征在于:所述步驟五中,通過判斷物聯(lián)網(wǎng)實(shí)體的周期模式,對特定時間段建立時間窗口,預(yù)測出將來某時間某位置實(shí)體的狀態(tài)值,根據(jù)物聯(lián)網(wǎng)事件的周期模式不同包括聚合預(yù)測模型,單周期預(yù)測模型,多周期預(yù)測模型。
8.根據(jù)權(quán)利要求1所述的面向物聯(lián)網(wǎng)實(shí)時數(shù)據(jù)的自動分析方法,其特征在于:所述步驟六中,掃描整個計算機(jī)的硬盤文件,建立起虛擬化的信息映射聯(lián)系,直接進(jìn)行文件信息的存取操作,數(shù)據(jù)查詢交換時,需要采用索引技術(shù)與緩存技術(shù),
所述索引技術(shù)可以包括聚集索引、非聚集索引,聚集索引根據(jù)索引的順序,對數(shù)據(jù)庫、表格等信息進(jìn)行一次性存儲,非聚集索引能顯示出新增數(shù)據(jù)信息;
所述文件緩沖策略文件緩沖通過臨時表完成。