[發明專利]分布式XML數據處理方法及系統有效
| 申請號: | 201910588982.3 | 申請日: | 2019-07-02 |
| 公開(公告)號: | CN110297944B | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 浦婧蕾;鐘慰;朱李悅;王斌 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/80 | 分類號: | G06F16/80 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;任默聞 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 xml 數據處理 方法 系統 | ||
本申請提供一種分布式XML數據處理方法及系統,其中的方法包括:異步且并發地接收XML報文數據,并將所述XML報文數據并行拆分為多個報文片段;對各個所述報文片段進行解析,得到對應的數據對;將特征相同的所述數據對合并至同一報文數據組中,并存儲各個所述報文數據組。本申請能夠有效提高XML報文數據的處理效率及處理過程的可靠性,并能夠有效提高XML報文數據的可擴展性和存儲可靠性,以及有效降低數據冗余。
技術領域
本申請涉及數據處理技術領域,具體涉及一種分布式XML數據處理方法及系統。
背景技術
XML(Extensible Markup Language,可擴展標記語言)是一套定義語法標記的規則,這些標記將文檔分成許多部件并對這些部件加以標識。它也是元標記語言,即用于定義其他與特定領域有關的、語義的和結構化的標記語言的句法語言,XML運用廣泛,尤其是在商業報告領域,使用XML報文形式傳送數據的場景不計其數。
目前,由于商業報告種類繁多,所涉及XML報文的元素類型復雜,文件規范多樣,而為了能夠確保數據準確性,現有技術通常采用串行處理模式對XML報文數據進行解析,即依次對每份基于XML數據的報告進行章節全量讀取并解析,再對每個章節實現數據存儲設計。
然后,現有的XML報文數據處理方式因需要對每張報表依次實現解析、存儲、及核查維護,使其存在系統處理性能低、數據存儲分散及可擴展性不足的問題。
發明內容
針對現有技術中的問題,本申請提供一種分布式XML數據處理方法及系統,能夠有效提高XML報文數據的處理效率及處理過程的可靠性,并能夠有效提高XML報文數據的可擴展性和存儲可靠性,以及有效降低數據冗余。
為解決上述技術問題,本申請提供以下技術方案:
第一方面,本申請提供一種分布式XML數據處理方法,包括:
異步且并發地接收XML報文數據,并將所述XML報文數據并行拆分為多個報文片段;
對各個所述報文片段進行解析,得到對應的數據對;
將特征相同的所述數據對合并至同一報文數據組中,并存儲各個所述報文數據組。
進一步地,所述異步且并發地接收XML報文數據,包括:
實時接收外部系統發送的XML報文數據,并根據接收的所述XML報文數據實時建立對應的接收任務;
應用各個所述接收任務并行獲取各自對應的所述XML報文數據以及該XML報文數據對應的報文類別元素,并基于該報文類別元素確定對應的報文定義模型,并將所述報文定義模型和對應的所述XML報文數據進行封裝,得到與各份所述XML報文數據一一對應的封裝數據。
進一步地,所述將所述XML報文數據并行拆分為多個報文片段,包括:
應用與各個所述接收任務一一對應的各個拆分任務并行對各份所述封裝數據進行拆分,得到各份所述封裝數據分別對應的多個報文片段。
進一步地,所述對各個所述報文片段進行解析,得到對應的數據對,包括:
應用至少一個解析節點全量讀取各個所述報文片段,并獲取各個所述報文片段中的節點元素和元素值;
根據各份所述XML報文數據對應的報文定義模型,將各個所述報文片段中的所述節點元素和元素值映射為對應的符合目標形式內容的數據對。
進一步地,所述數據對的目標形式內容包括:作為所述數據對的特征的報告編碼、存儲路徑、元素節點和元素值。
進一步地,所述將特征相同的所述數據對合并至同一報文數據組中,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910588982.3/2.html,轉載請聲明來源鉆瓜專利網。





