[發明專利]一種XML文檔的數字化方法和系統在審
| 申請號: | 202011156122.1 | 申請日: | 2020-10-26 |
| 公開(公告)號: | CN112364604A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 吳海濤;郭麗紅;楊潔 | 申請(專利權)人: | 南京工程學院 |
| 主分類號: | G06F40/154 | 分類號: | G06F40/154 |
| 代理公司: | 南京鐘山專利代理有限公司 32252 | 代理人: | 陳月菊 |
| 地址: | 211167 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 xml 文檔 數字化 方法 系統 | ||
1.一種XML文檔的數字化方法,適于XML文檔之間相似度比較,其特征在于,所述數字化方法包括以下步驟:
S1,提取主干結構樹:
對導入的XML文檔進行預處理,找出主干結構樹,去除冗余的節點,實現在主干結構樹中,相同的路徑出現且僅出現一次;
S2,填充偽節點,統一樹型結構:
對預處理階段提取出來的XML文檔的主干結構樹進行偽節點填充,使用于分類的多個XML文檔對應的多個主干結構樹具有相同的層數和樹深,同時樹中每個節點的孩子個數相同;
S3,抽取全路徑,生成元組串階段:
針對填充了偽節點的主干結構樹,分別抽取每個XML文檔包含的所有不同的全路徑,從根節點到葉子節點,依次按元素名稱組合成不同的元組串,使每個XML文檔對應一組元組串集合,完成XML文檔的結構轉化。
2.根據權利要求1所述的XML文檔的數字化方法,其特征在于,所述數字化方法還包括以下步驟:
S4,數字化結果的應用驗證:
采用下述公式對任意兩個XML文檔間的相似度進行比較:
式中:P(T1)∪P(T2)是或運算,表示兩文檔樹T1和T2對應的元組串中所有不重復的元組串總個數;P(T1)∩P(T2)是與運算,表示兩文檔樹T1和T2對應的元組串中相同的元組串個數;計算出的Δ(T1,T2)越小,兩個XML文檔樹越相似。
3.根據權利要求1所述的XML文檔的數字化方法,其特征在于,步驟S3中,所述元組串中每部分的節點名稱,用于反映所屬XML文檔對應部分的語義。
4.根據權利要求1所述的XML文檔的數字化方法,其特征在于,步驟S2中,所述對預處理階段提取出來的XML文檔的主干結構樹進行偽節點填充的過程包括以下步驟:
尋找主干結構樹的每一層中節點的最大孩子數,把這個最大孩子數作為本層所有節點的孩子數,對孩子數不足的節點進行填充補全。
5.根據權利要求1所述的XML文檔的數字化方法,其特征在于,步驟S3中,所述分別抽取每個XML文檔包含的所有不同的全路徑的過程包括以下步驟:
采用從上到下、從左往右的順序從根節點到葉子節點,遍歷所有主干結構路徑,形成全路徑集合。
6.根據權利要求1所述的XML文檔的數字化方法,其特征在于,步驟S3中,所述元組串集合是指按照全路徑的軌跡,所有從根到葉節點的節點名稱連接集合,每個元組串中的每部分用逗號進行間隔;在一個元組串集合中,相同的元組串只保留一個。
7.一種基于權利要求1-6任意一項中所述數字化方法的XML文檔的數字化系統,其特征在于,所述數字化系統包括:
用于提取主干結構樹的模塊:
對導入的XML文檔進行預處理,找出主干結構樹,去除冗余的節點,實現在主干結構樹中,相同的路徑出現且僅出現一次;
用于填充偽節點,統一樹型結構的模塊:
對預處理階段提取出來的XML文檔的主干結構樹進行偽節點填充,使用于分類的多個XML文檔對應的多個主干結構樹具有相同的層數和樹深,同時樹中每個節點的孩子個數相同;
用于抽取全路徑,生成元組串階段的模塊:
針對填充了偽節點的主干結構樹,分別抽取每個XML文檔包含的所有不同的全路徑,從根節點到葉子節點,依次按元素名稱組合成不同的元組串,使每個XML文檔對應一組元組串集合,完成XML文檔的結構轉化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京工程學院,未經南京工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011156122.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種快速滅火裝置
- 下一篇:一種基于中空玻璃生產用的快速檢測裝置





