[發明專利]基于文檔嵌入模型的大規模平行坐標數據簡化方法在審
| 申請號: | 202110012811.3 | 申請日: | 2021-01-06 |
| 公開(公告)號: | CN112507693A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 周志光;馬煜明;湯馥蓮;劉玉華 | 申請(專利權)人: | 浙江財經大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/216;G06F40/30;G06F16/33;G06F16/35;G06K9/62 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 陳昱彤 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文檔 嵌入 模型 大規模 平行 坐標 數據 簡化 方法 | ||
本發明公開一種基于文檔嵌入模型的大規模平行坐標數據簡化方法,包括:對平行坐標系中每個屬性軸上的數據進行聚類,將平行坐標系中不同坐標軸上的相同聚類視為同一單詞,將穿插于平行坐標系的每條數據線視為由單詞組成的句子,所有數據線對應的句子合成語料庫;利用Doc2Vec文檔嵌入模型訓練語料庫,語料庫中的每個句子表達為一個高維向量;將得到的高維向量投影到二維空間并進行采樣,最終將與采樣點對應的數據線繪制在平行坐標系中,得到簡化后的平行坐標系。本發明通過文檔嵌入模型捕捉平行坐標系中數據之間的連續語義關聯特征,并在簡化過程中有效保持該特征,使簡化后的平行坐標不僅可降低視覺冗余,且能極大限度地展示數據中隱含的連續關聯特征。
技術領域
本發明涉及一種基于文檔嵌入模型的文檔表達方法以及大規模平行坐標的簡化方法,屬于信息技術領域。
背景技術
平行坐標是利用線段的幾何布局呈現多維屬性數據,其獨特的幾何分布特性和優越的視覺表達性能使其廣泛應用于多維數據的探索和分析。然而,隨著多維數據規模的增大,平行坐標系中大量數據線交叉、重疊和覆蓋,嚴重干擾用戶對于原始多維數據的認知。
過濾、綁定和采樣是解決大規模平行坐標視覺混淆的主要方法。過濾可靈活選擇坐標軸的屬性范圍,進而降低平行坐標系中多維數據呈現的冗余程度,可以幫助用戶聚焦感興趣特征的數據。但在具體的過濾過程洪,需要用戶對于原始坐標軸的含義具有先驗知識,而且過濾后得到的結果更加側重于局部數據,難以呈現原始多維數據的宏觀分布,存在局限性;綁定是另外一種降低平行坐標系中大規模數據視覺混淆的有效方法,主要通過綁定具有相似特征的數據線條,降低視覺紊亂的同時增強關聯特征視覺感知。在具體的線條綁定過程中,存在數據理解歧義,為平行坐標系中多維數據的理解和探索帶來不確定性;;采樣是降低數據規模的有效手段。針對平行坐標系中大規模數據進行采樣,能夠在降低視覺紊亂的基礎上,很好地保留原始多維數據的宏觀分布特征。以隨機采樣算法(RandomSampling)為例,它不僅能夠保持原始數據的空間分布,而且能夠增強原始數據的幾何特征表示。
盡管上述方法能夠從不同角度降低大規模平行坐標系中的視覺混亂問題,但在具體的簡化過程中,單個或相鄰坐標軸之間的數據分布被考慮地比較細致,而多維數據穿越坐標軸之間形成的上下文特征沒有被綜合考慮。實際上,多維數據穿越平行坐標系中的坐標中,其連續分布特征具有重要的意義。而傳統的采樣算法很難保持平行坐標系中連續特征,存在一定的局限性。例如,Ellis等提出的采樣透鏡方法,雖然可以緩解視覺混淆區域的數據重疊問題,卻難以觀察數據的層次類別特征,尤其是數據穿越坐標軸之間形成的上下文特征,很容易隱藏且丟失視覺連續性。因此,面向大規模平行坐標開展采樣算法研究,如何保持數據穿越坐標軸之間的上下文關聯特征,具有重要的意義。
近年來,在自然語言處理(NLP)領域,表征學習被有效地應用于連續語境特征的分析。Word2Vec是Mikolov團隊提出的一種用于生成單詞向量的非監督式學習算法,根據給定的語料庫,通過優化訓練模型,可以快速地將一個詞表達為向量形式。自Word2Vec算法提出以來,被專家們廣泛應用于各個領域。例如,Zhou et al.提出一種基于Word2Vec模型的簡化大規模地理空間OD軌跡的算法;Xue et al.提出一種利用Word2Vec模型構建情感詞典的方法。相比于Word2Vec模型,Doc2Vec是一種文檔嵌入模型,是一種基于神經網絡的無監督學習算法,能夠把句子、段落、文檔表示為向量。Bilgin等通過Doc2Vec文檔嵌入模型對土耳其語和英語的Twitter信息進行情感分析;Lee等設計一種基于Doc2Vec模型的文檔表示方法,能夠同時表示文檔的上下文關系和情感特征。
發明內容
本發明的目的是提供一種基于文檔嵌入模型的大規模平行坐標數據簡化方法。
為實現上述目的,本發明所采取的技術方案是:本發明大規模平行坐標數據簡化方法包括:
(1)對平行坐標系中每個屬性軸上的數據進行聚類,將平行坐標系中不同坐標軸上的相同的聚類視為同一單詞,將穿插于平行坐標系的每條數據線視為由單詞組成的一個句子,所有數據線對應的句子合成語料庫;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江財經大學,未經浙江財經大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110012811.3/2.html,轉載請聲明來源鉆瓜專利網。





