[發(fā)明專利]一種XML文檔的數(shù)字化方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011156122.1 | 申請日: | 2020-10-26 |
| 公開(公告)號: | CN112364604A | 公開(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計)人: | 吳海濤;郭麗紅;楊潔 | 申請(專利權(quán))人: | 南京工程學(xué)院 |
| 主分類號: | G06F40/154 | 分類號: | G06F40/154 |
| 代理公司: | 南京鐘山專利代理有限公司 32252 | 代理人: | 陳月菊 |
| 地址: | 211167 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 xml 文檔 數(shù)字化 方法 系統(tǒng) | ||
本發(fā)明公開了一種XML文檔的數(shù)字化方法,適于XML文檔之間相似度比較,包括:S1,提取主干結(jié)構(gòu)樹;S2,填充偽節(jié)點,統(tǒng)一樹型結(jié)構(gòu);S3,抽取全路徑,生成元組串階段。本發(fā)明能夠通過提取主干結(jié)構(gòu)樹、統(tǒng)一結(jié)構(gòu)樹型和元組串轉(zhuǎn)換三個步驟,結(jié)合XML文檔的結(jié)構(gòu)特征和語義特征,實現(xiàn)了對XML文檔的數(shù)字化處理,處理過程高效快捷,數(shù)字化結(jié)果具有相似度檢測靈敏性高等特點,可以在復(fù)雜網(wǎng)絡(luò)環(huán)境下對海量XML文檔進(jìn)行數(shù)字化表示,不僅簡化了XML文檔本身,而且方便后續(xù)的文檔分類及應(yīng)用處理。
技術(shù)領(lǐng)域
本發(fā)明涉及XML文檔數(shù)字化處理技術(shù)領(lǐng)域,具體而言涉及一種XML文檔的數(shù)字化方法和系統(tǒng)。
背景技術(shù)
隨著網(wǎng)絡(luò)的迅速發(fā)展,互聯(lián)網(wǎng)上產(chǎn)生了大量以XML形式存儲的半結(jié)構(gòu)化數(shù)據(jù),這些在不同領(lǐng)域積累下來的數(shù)據(jù)寶藏,具有無限潛能,孕育著巨大的價值。XML文檔作為半結(jié)構(gòu)數(shù)據(jù)的代表,由于其平臺無關(guān)性、便捷的數(shù)據(jù)處理和靈活的Web應(yīng)用等特征為越來越多的企事業(yè)單位所使用。因此,面對龐大的XML數(shù)據(jù),其文檔的數(shù)字化表示是進(jìn)行數(shù)據(jù)分析、歸類及各種數(shù)據(jù)處理的基礎(chǔ),其好壞直接影響著后續(xù)的各種操作。例如專利號為CN108984713A的發(fā)明中公開了一種XML文件處理方法及裝置,通過將XML文件依據(jù)結(jié)構(gòu)樹進(jìn)行拆分保存至若干個數(shù)據(jù)庫表中,可以解決單張表過大,造成查詢或者其他操作的耗時較長的問題。
但是,隨著互聯(lián)網(wǎng)上以指數(shù)級速度逐年增長的XML文檔的出現(xiàn),為半結(jié)構(gòu)化數(shù)據(jù)的分類處理帶來了負(fù)擔(dān)。因此,面對海量XML文檔,尋找一種快捷高效的XML文檔的數(shù)字化方法,方便后續(xù)對XML信息的處理已經(jīng)成為一種必然趨勢。XML文檔的數(shù)字化表示能極大地提高XML文檔的分類速度,能夠為XML文檔的進(jìn)一步應(yīng)用處理帶來了保障。但是在目前的XML文檔數(shù)字化方法中,存在以下問題:第一,數(shù)字化結(jié)果簡單粗糙,不能準(zhǔn)確地反映出XML文檔信息,第二,表示方法復(fù)雜,轉(zhuǎn)化效率低下,第三,重視XML結(jié)構(gòu)特征,而忽略了其語義特征。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中的不足,提供一種XML文檔的數(shù)字化方法和系統(tǒng),通過提取主干結(jié)構(gòu)樹、統(tǒng)一結(jié)構(gòu)樹型和元組串轉(zhuǎn)換三個步驟,結(jié)合XML文檔的結(jié)構(gòu)特征和語義特征,實現(xiàn)了對XML文檔的數(shù)字化處理,處理過程高效快捷,數(shù)字化結(jié)果具有相似度檢測靈敏性高等特點,可以在復(fù)雜網(wǎng)絡(luò)環(huán)境下對海量XML文檔進(jìn)行數(shù)字化表示,不僅簡化了XML文檔本身,而且方便后續(xù)的文檔分類及應(yīng)用處理。
為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
一種XML文檔的數(shù)字化方法,適于XML文檔之間相似度比較,所述數(shù)字化方法包括以下步驟:
S1,提取主干結(jié)構(gòu)樹:
對導(dǎo)入的XML文檔進(jìn)行預(yù)處理,找出主干結(jié)構(gòu)樹,去除冗余的節(jié)點,實現(xiàn)在主干結(jié)構(gòu)樹中,相同的路徑出現(xiàn)且僅出現(xiàn)一次;
S2,填充偽節(jié)點,統(tǒng)一樹型結(jié)構(gòu):
對預(yù)處理階段提取出來的XML文檔的主干結(jié)構(gòu)樹進(jìn)行偽節(jié)點填充,使用于分類的多個XML文檔對應(yīng)的多個主干結(jié)構(gòu)樹具有相同的層數(shù)和樹深,同時樹中同一層的每個節(jié)點孩子個數(shù)相同;
S3,抽取全路徑,生成元組串階段:
針對填充了偽節(jié)點的主干結(jié)構(gòu)樹,分別抽取每個XML文檔包含的所有不同的全路徑,從根節(jié)點到葉子節(jié)點,依次按元素名稱組合成不同的元組串,使每個XML文檔對應(yīng)一組元組串集合,完成XML文檔的結(jié)構(gòu)轉(zhuǎn)化。
為優(yōu)化上述技術(shù)方案,采取的具體措施還包括:
進(jìn)一步地,所述數(shù)字化方法還包括以下步驟:
S4,數(shù)字化結(jié)果的應(yīng)用驗證:
采用下述公式對任意兩個XML文檔間的相似度進(jìn)行比較:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京工程學(xué)院,未經(jīng)南京工程學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011156122.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種快速滅火裝置
- 下一篇:一種基于中空玻璃生產(chǎn)用的快速檢測裝置
- 快速開啟已中斷數(shù)字化影片的方法
- 一種數(shù)字化文物安全共享系統(tǒng)
- 實驗室復(fù)現(xiàn)式數(shù)字化電能計量設(shè)備遠(yuǎn)程校準(zhǔn)系統(tǒng)及方法
- 一種數(shù)字化諧波標(biāo)準(zhǔn)電能表以及電能檢定系統(tǒng)
- 一種數(shù)字化諧波標(biāo)準(zhǔn)諧波電能表以及電能檢定系統(tǒng)
- 數(shù)字化臺面、家用數(shù)字化書桌及教室用數(shù)字化書桌
- 殼狀牙科器械及其設(shè)計方法和制備方法
- 模擬數(shù)字化牙齒模型位姿變化的方法
- 數(shù)字化殼狀牙齒矯治器設(shè)計方法、制造方法及系統(tǒng)
- 城市軌道交通工程數(shù)字化設(shè)計成果的交付率評估方法





