[發(fā)明專利]XML文件分類方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201310272209.9 | 申請(qǐng)日: | 2013-07-01 |
| 公開(公告)號(hào): | CN104281573B | 公開(公告)日: | 2017-11-28 |
| 發(fā)明(設(shè)計(jì))人: | 王松林;楊建武;洪毅虹 | 申請(qǐng)(專利權(quán))人: | 北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司11204 | 代理人: | 王達(dá)佐 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | xml 文件 分類 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字出版技術(shù)領(lǐng)域,具體而言,涉及一種XML文件分類方法及系統(tǒng)。
背景技術(shù)
目前,互聯(lián)網(wǎng)已經(jīng)形成了一個(gè)巨大的XML格式的數(shù)據(jù)構(gòu)成的數(shù)據(jù)倉庫,蘊(yùn)含了豐富的信息,因此,對(duì)XML文檔的挖掘已經(jīng)成為快速有效地從互聯(lián)網(wǎng)上獲取信息的最佳途徑之一。
XML(可擴(kuò)展標(biāo)記語言)文件屬于半結(jié)構(gòu)化文件,采用樹形嵌套結(jié)構(gòu)保存內(nèi)容信息,這種樹形結(jié)構(gòu)有時(shí)候?qū)τ诮?jīng)典的數(shù)據(jù)挖掘算法來說過于復(fù)雜。
為此,針對(duì)XML文件的數(shù)據(jù)特點(diǎn),現(xiàn)有技術(shù)采用對(duì)XML文件進(jìn)行分類的方法,以簡(jiǎn)化數(shù)據(jù)挖掘算法的復(fù)雜度。目前,主要有以下幾種相關(guān)技術(shù):
1.首先對(duì)XML文件建模,再使用XML文件模型描述整篇XML文件。該技術(shù)在減少結(jié)構(gòu)信息損失的前提下盡可能地簡(jiǎn)化XML文件模型,通常將XML文件表述為層次結(jié)構(gòu)模型或者擴(kuò)展的向量空間模型。然而其在將樹簡(jiǎn)化為層次并且使用相似度計(jì)算方法計(jì)算時(shí),將原來可能并不存在的相關(guān)性引入了模型。從語義上看,兩個(gè)不存在嵌套關(guān)系的XML元素僅僅因?yàn)樵赬ML樹結(jié)構(gòu)中的層次相鄰而關(guān)聯(lián)在了一起。這種模型與原XML文件語義上的不一致性可能會(huì)影響之后分類和聚類的效果。
2.不對(duì)XML文件的樹形結(jié)構(gòu)進(jìn)行簡(jiǎn)化和壓縮,利用樹編輯距離作為比較標(biāo)準(zhǔn),直接進(jìn)行樹形結(jié)構(gòu)上的比較。可在XML語料中標(biāo)簽之間順序不是很明確的情況下,這種方法不僅不能提高分類效果,反而會(huì)對(duì)分類結(jié)果造成不良影響。
3.提取結(jié)構(gòu)信息中頻繁出現(xiàn)的局部結(jié)構(gòu)信息,包括元素、父子關(guān)系、兄弟關(guān)系,路徑、子樹等。然而XML文件結(jié)構(gòu)由樹結(jié)構(gòu)轉(zhuǎn)化為路徑這種一維結(jié)構(gòu),會(huì)有很多結(jié)構(gòu)信息的損失,例如XML文件通常都會(huì)包含的并列結(jié)構(gòu)信息在這種基于子路徑的模型中就不能表示出來。于是隨之出現(xiàn)了基于頻繁子項(xiàng)的分類算法,如基于頻繁路徑、基于頻繁子樹的分類算法,可是隨著文件樹節(jié)點(diǎn)的增加以及文件大小的增加,頻繁項(xiàng)抽取的數(shù)量也呈指數(shù)量級(jí)的增加,分類效率會(huì)急劇降低。
針對(duì)結(jié)構(gòu)化文件分類的以上描述,單獨(dú)基于文件建模、編輯距離、頻繁子項(xiàng)的方法都不能很好地進(jìn)行自動(dòng)分類。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種XML文件分類方法及系統(tǒng),以實(shí)現(xiàn)對(duì)XML文件的自動(dòng)分類,提高分類效果。
一種XML文件分類方法,包括:
對(duì)訓(xùn)練語料集合中的訓(xùn)練XML文件進(jìn)行預(yù)處理,所述預(yù)處理包括:抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計(jì)算文件特征值;
抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹;
分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型;
基于所述SLVM文件向量模型利用SVM算法對(duì)待測(cè)XML文件進(jìn)行分類。
一種XML文件分類系統(tǒng),包括:
預(yù)處理單元,用于對(duì)訓(xùn)練語料集合中的訓(xùn)練XML文件進(jìn)行預(yù)處理,所述預(yù)處理包括:抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計(jì)算文件特征值;
抽取單元,用于抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹;
模型構(gòu)建單元,用于分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型;
分類單元,用于基于所述SLVM文件向量模型利用SVM算法對(duì)待測(cè)XML文件進(jìn)行分類。
本發(fā)明實(shí)施例提供的XML文件分類方法及系統(tǒng),對(duì)訓(xùn)練語料集合中的訓(xùn)練XML文件進(jìn)行預(yù)處理,抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹;分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型;基于所述SLVM文件向量模型利用SVM算法對(duì)待測(cè)XML文件進(jìn)行分類。本發(fā)明實(shí)施例可以針對(duì)大規(guī)模XML文件,實(shí)現(xiàn)對(duì)XML文件的自動(dòng)分類,并提高分類效果。
附圖說明
圖1是本發(fā)明實(shí)施例XML文件分類方法的流程圖;
圖2是XML文件集合中文件之間的鏈接關(guān)系示意圖;
圖3是本發(fā)明實(shí)施例中文件樹的示意圖;
圖4是本發(fā)明實(shí)施例中基于SLVM文件向量模型對(duì)待測(cè)XML文件進(jìn)行分類的一種流程圖;
圖5是本發(fā)明實(shí)施例中基于SLVM文件向量模型對(duì)待測(cè)XML文件進(jìn)行分類的另一種流程圖;
圖6是本發(fā)明實(shí)施例XML文件分類系統(tǒng)的結(jié)構(gòu)示意圖;
圖7是本發(fā)明實(shí)施例XML文件分類系統(tǒng)中預(yù)處理單元的一種結(jié)構(gòu)示意圖;
圖8是本發(fā)明實(shí)施例XML文件分類系統(tǒng)中抽取單元的一種結(jié)構(gòu)示意圖;
圖9是本發(fā)明實(shí)施例XML文件分類系統(tǒng)中分類單元的一種結(jié)構(gòu)示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司,未經(jīng)北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310272209.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:防止軸承套圈掉落的中轉(zhuǎn)鐵箱
- 下一篇:一種手持式油漆桶
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- Java中的XML類型
- 數(shù)據(jù)庫中XML模式的原地演進(jìn)
- 在標(biāo)記語言環(huán)境中使用可撤消命令來編輯文檔的文檔處理和管理方法
- XML文檔管理系統(tǒng)及其方法與XML文檔訪問控制方法
- 用于處理用于在XML數(shù)據(jù)庫中存儲(chǔ)的非XML文檔的方法和系統(tǒng)
- 一種XML元數(shù)據(jù)對(duì)象化解析方法及系統(tǒng)
- 一種XML信息獲取方法和系統(tǒng)
- 將XML文檔自動(dòng)轉(zhuǎn)化為OML文檔的轉(zhuǎn)換方法及裝置
- XML數(shù)據(jù)的處理方法和裝置
- 一種XML注入漏洞檢測(cè)與防御方法
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





