[發明專利]基于神經網絡模型的大規模數據沿襲方法在審
| 申請號: | 202010988710.5 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112131303A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 李杰;葉一舟 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/26 | 分類號: | G06F16/26;G06N3/04;G06N3/06;G06N3/08 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 模型 大規模 數據 沿襲 方法 | ||
本發明公開一種基于神經網絡模型的大規模數據沿襲方法,包括以下步驟:(1)生成網絡訓練集;包括數組排序、維度標準劃分和訓練子集劃分;根據數據集中不同維度中的值對數據集中的數據進行排序;為每個維度確定一個劃分標準以解決樣本窮舉問題;將訓練集分為許多較小的訓練子集;(2)訓練神經網絡模型;使用分層的網絡結構代替傳統的神經網絡結構,以解決由于樣本數據差別較大造成的誤差問題;分層結構具體包括網絡選擇器和子網兩大部分;(3)可視交互與沿襲;具體包括空間散點圖、時空投影視圖和模式對比視圖;用于對數據集進行可視化交互探索,使用可視化的方式方便用戶對數據結果進行探索;并允許用戶通過沿襲的方式探索數據來源。
技術領域
本專利主要涉及機器學習和數據可視化領域,具體涉及對大規模數據集的實時交互及神經網絡模型優化的方法。
背景技術
近年來研究人員面對的數據集所包含的數據量級呈指數型增長[4],這無疑給交互式可視化探索與沿襲帶來了麻煩。最近提出的技術使分析人員可以實時地交互式地探索大規模數據集[5],但是這些技術忽略了人們可能關心隱藏在統計數據分布背后的真實數據[10]。我們從可視化實現了數據的反向生成,因此視覺視圖將不再局限于顯示數據的統計信息,它還可以用作生成更復雜的視覺視圖的數據,或者探索視圖子集中數據的詳細分布。
關于數據沿襲的研究已經在數據庫領域進行了一段時間[7]。傳統方法通過擴展基本數據模型來捕獲源信息[9],由此帶來的缺點是顯而易見的:必須使用與實際數據不同的模型來存儲訪問源。Miles等人[8]提出,由數據產生的產品和描述可能隱藏結果的來源以及如何產生結果的細節,他們研究并討論了數據來源如何可以幫助科學家進行實驗。BorisGlavic等人[6]提出了使用查詢重寫為源元組標注結果元組的方法,并在數據庫中證明了其可行性。K.Dursun等人[1]提出了一種新的中間體重用模型,該模型可緩存在查詢處理過程中實現的內部物理數據結構。這項工作通過研究數據庫中中間體的重用來加速分析查詢的處理。R.Ikeda等人[2]的panda實現了物源捕獲,存儲,運算符和查詢。他們將數據沿襲應用于諸如調試,審計,數據集成,安全性,迭代分析和清理之類的任務。在他們的基礎上,FotosPsallidas等人[3]提出了Smoke,這是一個內存數據庫引擎,不需要犧牲沿襲捕獲開銷。Smoke將哈希表形式的譜系情況以哈希表的形式預先存儲,以節省譜系查詢帶來的時間開銷,可以滿足實時視覺交互要求。
上述的工作主要使用較大規模的數據集,然而這些工作都存在一些缺點和不足:首先,一些工作為每個輸入創建哈希索引以加快沿襲查詢,但是與此同時,隨著數據大小的增加,哈希表的大小也會增加,這可能會帶來諸如內存耗盡的問題。其次,最新工作使用一種方法在內存中實時實現哈希表,以加快查詢速度,但即使此方法優化了實時生成哈希表的時間,它仍然帶來了不可避免的存儲開銷和額外的查詢時間。同時,上述工作無法使用查詢數據再次生成可視化,它只能在多個可視化視圖之間建立連接。
發明內容
本發明的目的是為了解決現有技術中的以下問題。1.使用神經網絡模型取代傳統索引結構,從而減少查詢帶來的時間開銷與存儲開銷。2.對于大量數據,神經網絡無法很好地滿足查詢和索引之間的關系,因此需要使用層次結構來解決此問題。分層結構包括第一層網絡選擇器,用于查找查詢對應的子網;以及第二層子網絡,用于計算并輸出查詢結果。3.大規模數據集往往包含多個維度,用戶可能不僅需要約束一個維度,所以要解決同時滿足多維約束的沿襲查詢,需要對不同的維度制定不同的劃分標準,并為每一個維度分別訓練神經網絡模型。因此,本發明提出了一個基于神經網絡模型的框架以沿襲探索大規模數據集。首先,框架采用了一個基于神經網絡模型的索引結構,滿足實時交互式沿襲查詢。其次,框架集成了層次結構網絡模型以及哈希表,實現對誤差數據的處理。最后,設計支持對該數據結果進行快速查詢及交互的可視化界面。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010988710.5/2.html,轉載請聲明來源鉆瓜專利網。





