[發明專利]一種利用簡單路徑特征優化樹狀結構數據的方法及系統有效
| 申請號: | 201710178692.2 | 申請日: | 2017-03-23 |
| 公開(公告)號: | CN107016071B | 公開(公告)日: | 2019-06-18 |
| 發明(設計)人: | 陳世敏;王智義 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F16/81 | 分類號: | G06F16/81;G06F16/835;G06F17/22 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 簡單 路徑 特征 優化 樹狀 結構 數據 方法 系統 | ||
本發明提出利用簡單路徑特征優化的樹狀結構數據處理方法及系統,該方法包括步驟1,設置簡單路徑,其中所述簡單路徑為在數據定義的語法樹中,從根節點到葉子節點最多只存在一個多值的域的路徑;步驟2,通過在扁平行式結構數據中存儲所述的簡單路徑上葉子節點的信息,獲取路徑上完整的嵌套結構;步驟3,在對列式數據查詢過程中,需要將其組裝為行式結構數據,通過簡單路徑的優化可以簡化數據中的層次關系:僅通過葉子節點既可表示從根節點到葉子節點的路徑而忽略路徑中所有的非葉子節點。本發明中通過分析常見的半結構化數據,定義簡單路徑的概念,利用簡單路徑對STEED的數據存儲、列式數據組裝和查詢過程進行了優化,提高了相關操作和功能的效率。
技術領域
本發明涉及數據處理技術領域,特別涉及一種利用簡單路徑特征優化樹狀結構數據的方法及系統。
背景技術
隨著計算機網絡和大數據處理技術的發展,傳統關系型數據已經越來越不能滿足網絡和大數據環境下對數據定義和使用的要求,而以JSON和Protocol Buffers為代表的半結構化數據因為既能夠充分的表達編程語言中對象(Object)的數據,同時還能夠根據數據的格式變化對原有的數據格式進行修改和擴充,故而其在實際環境中被廣泛的使用。
樹狀結構數據的定義:
Tvalue=Tprimitive|Tobject|Tarray
Tprimitive=string|number|boolean|null
Record=Tobject
如上所示,樹狀結構數據定義如下:
1.樹狀結構數據中的值可以是以下的3種:
object結構的數值;array結構的數值;原子類型的數值;
2.object結構的數值由花括號包括,內部由多個鍵值對(key value pair)對構成,鍵值對的個數可以是任意多個,但是要求不能有重復的key存在在object結構的對象中;
3.array結構的數據由方括號包括,內部由多個值(value)構成,值的個數可是任意多個,且可能會有重復的值出現;
4.原子類型的數據可以是字符串(string),數值(number),布爾值(boolean)和空(null)等;
5.如上2中所述的鍵值對中,鍵的取值只能是(string)類型的。
6.每一個樹狀結構的數據都是object結構的。
常見的數據的來源由以下幾個方面:
1)數據資料(Data Feeds)
以twitter為代表的在網絡中使用JSON格式對數據進行傳輸。用戶及相關API程序可以通過監聽相應的端口獲得相應的數據更新。由于其數據內容豐富、結構相對復雜、數據來源比較穩定并且提供的數據量足夠大,故本發明的實驗和數據分析的過程中主要基于twitter數據集。如下,本發明分析了對twitter數據中的嵌套層次和重復域的個數進行了相應的分析。
2)在線數據服務(Online Data Service)
使用JSON格式的數據進行在線的數據服務。常見的類型為傳輸客戶端的相應操作內容和返回對應的操作結果等。本發明研究了不同來源的在線數據服務的半結構化數據,例如雅虎(Yahoo),新浪微博和IMDB等。通常用戶可以使
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710178692.2/2.html,轉載請聲明來源鉆瓜專利網。





