日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]XML文件分類方法及系統(tǒng)有效

專利信息
申請(qǐng)?zhí)枺?/td> 201310272209.9 申請(qǐng)日: 2013-07-01
公開(公告)號(hào): CN104281573B 公開(公告)日: 2017-11-28
發(fā)明(設(shè)計(jì))人: 王松林;楊建武;洪毅虹 申請(qǐng)(專利權(quán))人: 北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司
主分類號(hào): G06F17/30 分類號(hào): G06F17/30
代理公司: 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司11204 代理人: 王達(dá)佐
地址: 100871*** 國省代碼: 北京;11
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: xml 文件 分類 方法 系統(tǒng)
【說明書】:

技術(shù)領(lǐng)域

發(fā)明涉及數(shù)字出版技術(shù)領(lǐng)域,具體而言,涉及一種XML文件分類方法及系統(tǒng)。

背景技術(shù)

目前,互聯(lián)網(wǎng)已經(jīng)形成了一個(gè)巨大的XML格式的數(shù)據(jù)構(gòu)成的數(shù)據(jù)倉庫,蘊(yùn)含了豐富的信息,因此,對(duì)XML文檔的挖掘已經(jīng)成為快速有效地從互聯(lián)網(wǎng)上獲取信息的最佳途徑之一。

XML(可擴(kuò)展標(biāo)記語言)文件屬于半結(jié)構(gòu)化文件,采用樹形嵌套結(jié)構(gòu)保存內(nèi)容信息,這種樹形結(jié)構(gòu)有時(shí)候?qū)τ诮?jīng)典的數(shù)據(jù)挖掘算法來說過于復(fù)雜。

為此,針對(duì)XML文件的數(shù)據(jù)特點(diǎn),現(xiàn)有技術(shù)采用對(duì)XML文件進(jìn)行分類的方法,以簡(jiǎn)化數(shù)據(jù)挖掘算法的復(fù)雜度。目前,主要有以下幾種相關(guān)技術(shù):

1.首先對(duì)XML文件建模,再使用XML文件模型描述整篇XML文件。該技術(shù)在減少結(jié)構(gòu)信息損失的前提下盡可能地簡(jiǎn)化XML文件模型,通常將XML文件表述為層次結(jié)構(gòu)模型或者擴(kuò)展的向量空間模型。然而其在將樹簡(jiǎn)化為層次并且使用相似度計(jì)算方法計(jì)算時(shí),將原來可能并不存在的相關(guān)性引入了模型。從語義上看,兩個(gè)不存在嵌套關(guān)系的XML元素僅僅因?yàn)樵赬ML樹結(jié)構(gòu)中的層次相鄰而關(guān)聯(lián)在了一起。這種模型與原XML文件語義上的不一致性可能會(huì)影響之后分類和聚類的效果。

2.不對(duì)XML文件的樹形結(jié)構(gòu)進(jìn)行簡(jiǎn)化和壓縮,利用樹編輯距離作為比較標(biāo)準(zhǔn),直接進(jìn)行樹形結(jié)構(gòu)上的比較。可在XML語料中標(biāo)簽之間順序不是很明確的情況下,這種方法不僅不能提高分類效果,反而會(huì)對(duì)分類結(jié)果造成不良影響。

3.提取結(jié)構(gòu)信息中頻繁出現(xiàn)的局部結(jié)構(gòu)信息,包括元素、父子關(guān)系、兄弟關(guān)系,路徑、子樹等。然而XML文件結(jié)構(gòu)由樹結(jié)構(gòu)轉(zhuǎn)化為路徑這種一維結(jié)構(gòu),會(huì)有很多結(jié)構(gòu)信息的損失,例如XML文件通常都會(huì)包含的并列結(jié)構(gòu)信息在這種基于子路徑的模型中就不能表示出來。于是隨之出現(xiàn)了基于頻繁子項(xiàng)的分類算法,如基于頻繁路徑、基于頻繁子樹的分類算法,可是隨著文件樹節(jié)點(diǎn)的增加以及文件大小的增加,頻繁項(xiàng)抽取的數(shù)量也呈指數(shù)量級(jí)的增加,分類效率會(huì)急劇降低。

針對(duì)結(jié)構(gòu)化文件分類的以上描述,單獨(dú)基于文件建模、編輯距離、頻繁子項(xiàng)的方法都不能很好地進(jìn)行自動(dòng)分類。

發(fā)明內(nèi)容

本發(fā)明實(shí)施例提供一種XML文件分類方法及系統(tǒng),以實(shí)現(xiàn)對(duì)XML文件的自動(dòng)分類,提高分類效果。

一種XML文件分類方法,包括:

對(duì)訓(xùn)練語料集合中的訓(xùn)練XML文件進(jìn)行預(yù)處理,所述預(yù)處理包括:抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計(jì)算文件特征值;

抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹;

分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型;

基于所述SLVM文件向量模型利用SVM算法對(duì)待測(cè)XML文件進(jìn)行分類。

一種XML文件分類系統(tǒng),包括:

預(yù)處理單元,用于對(duì)訓(xùn)練語料集合中的訓(xùn)練XML文件進(jìn)行預(yù)處理,所述預(yù)處理包括:抽取鏈接信息、壓縮文件樹、篩選文件特征、以及計(jì)算文件特征值;

抽取單元,用于抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹;

模型構(gòu)建單元,用于分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型;

分類單元,用于基于所述SLVM文件向量模型利用SVM算法對(duì)待測(cè)XML文件進(jìn)行分類。

本發(fā)明實(shí)施例提供的XML文件分類方法及系統(tǒng),對(duì)訓(xùn)練語料集合中的訓(xùn)練XML文件進(jìn)行預(yù)處理,抽取處理后的訓(xùn)練語料集合中的閉合頻繁子樹;分別構(gòu)建基于所述閉合頻繁子樹的SLVM文件向量模型和基于鏈接信息的SLVM文件向量模型;基于所述SLVM文件向量模型利用SVM算法對(duì)待測(cè)XML文件進(jìn)行分類。本發(fā)明實(shí)施例可以針對(duì)大規(guī)模XML文件,實(shí)現(xiàn)對(duì)XML文件的自動(dòng)分類,并提高分類效果。

附圖說明

圖1是本發(fā)明實(shí)施例XML文件分類方法的流程圖;

圖2是XML文件集合中文件之間的鏈接關(guān)系示意圖;

圖3是本發(fā)明實(shí)施例中文件樹的示意圖;

圖4是本發(fā)明實(shí)施例中基于SLVM文件向量模型對(duì)待測(cè)XML文件進(jìn)行分類的一種流程圖;

圖5是本發(fā)明實(shí)施例中基于SLVM文件向量模型對(duì)待測(cè)XML文件進(jìn)行分類的另一種流程圖;

圖6是本發(fā)明實(shí)施例XML文件分類系統(tǒng)的結(jié)構(gòu)示意圖;

圖7是本發(fā)明實(shí)施例XML文件分類系統(tǒng)中預(yù)處理單元的一種結(jié)構(gòu)示意圖;

圖8是本發(fā)明實(shí)施例XML文件分類系統(tǒng)中抽取單元的一種結(jié)構(gòu)示意圖;

圖9是本發(fā)明實(shí)施例XML文件分類系統(tǒng)中分類單元的一種結(jié)構(gòu)示意圖;

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司,未經(jīng)北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201310272209.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 国模精品免费看久久久| 美国三级日本三级久久99| 国模精品免费看久久久| 91一区在线观看| 欧美一区二区三区在线视频播放| 国产日韩欧美网站| 欧美一区二区在线不卡| 欧美日韩国产一区在线| 欧美日韩中文字幕一区| 色婷婷噜噜久久国产精品12p| 视频一区二区三区欧美| 国产网站一区二区| 欧美激情午夜| 欧美日韩一区二区电影| 91麻豆国产自产在线观看hd| 国产日韩欧美二区| 欧美午夜精品一区二区三区| 久久精品亚洲精品| 欧美日韩三区二区| 国产在线一二区| 日本久久不卡| 国产麻豆一区二区三区精品| 国产美女视频一区二区三区| 欧美亚洲视频一区二区| 19videosex性欧美69| 欧美日韩一区电影| 精品欧美一区二区在线观看| 欧美在线视频二区| 亚洲福利视频一区| 91看片免费| 精品国产仑片一区二区三区| 午夜电影一区二区三区| 国产精品综合在线| 久久精品麻豆| 91高跟紫色丝袜呻吟在线观看 | 国产欧美精品一区二区三区小说| 美女直播一区二区三区| 国产伦精品一区二区三区电影| 国产乱码一区二区三区| 国产欧美精品久久| 99精品黄色| 欧美乱大交xxxxx古装| 久久99久国产精品黄毛片入口 | 国产精品久久久久久久岛一牛影视| xoxoxo亚洲国产精品| 国产天堂一区二区三区| 日本午夜一区二区| 久久青草欧美一区二区三区| 午夜一区二区三区在线观看| 国产一区二区激情| 国产精品视频1区| 午夜激情影院| 欧美一级日韩一级| 色综合久久网| 一区二区精品在线| 日韩欧美国产高清91| 欧美一区二区久久久| 国产精品国产三级国产aⅴ下载| 国产精品亚洲а∨天堂123bt| 国产激情二区| 狠狠色噜噜狠狠狠狠69| 夜夜躁人人爽天天天天大学生| 国产乱对白刺激视频在线观看| 91黄色免费看| 国产精品一区二区6| 国产二区视频在线播放| 狠狠躁夜夜躁| 国产大片黄在线观看私人影院 | 亚洲国产精品女主播| 欧美日韩一区二区高清| 久久综合久久自在自线精品自| 免费精品一区二区三区第35| 亚洲色欲色欲www| 亚洲精品久久久久玩吗| 999久久久国产| 国内精品久久久久影院日本| 国产在线一区观看| 久久久精品免费看| 久久人91精品久久久久久不卡| 国产一二三区免费| 国产69精品久久久久777| 亚洲国产aⅴ精品一区二区16| 国产精品5区| 91热精品| 精品国产乱码一区二区三区a| 国产区精品区| 亚洲欧美另类久久久精品2019| 国产伦精品一区二区三区免费迷| 欧美在线观看视频一区二区三区| 精品香蕉一区二区三区| 国产一区二区三区四区五区七| free性欧美hd另类丰满| 天堂av色婷婷一区二区三区| 国产一区在线视频观看| 香蕉av一区二区三区| 久久久久久久久亚洲精品一牛| 亚洲欧美国产精品久久| 国产午夜精品理论片| 亚洲一二三在线| 蜜臀久久99静品久久久久久 | 国产在线精品一区| 996久久国产精品线观看| 狠狠插狠狠干| 91超薄丝袜肉丝一区二区| 国产美女三级无套内谢| 538国产精品一区二区免费视频| 制服丝袜二区| 久久青草欧美一区二区三区| 国产清纯白嫩初高生在线播放性色| 国产videosfree性另类| 欧美在线视频一二三区| 精品国产区一区二| 91福利视频导航| 欧美日韩精品在线一区二区| 久久国产精品二区| 999久久久国产精品| 国产精品96久久久久久又黄又硬| 国产精品免费观看国产网曝瓜| 日本免费电影一区二区| 欧美激情在线免费| 年轻bbwwbbww高潮| 一区二区三区四区视频在线| 99久久免费精品国产男女性高好 | 91热国产| 国内精品久久久久久久星辰影视| 强制中出し~大桥未久4| 亚洲精品卡一| 猛男大粗猛爽h男人味| 久久免费视频一区二区| 日韩av一二三四区| 久久狠狠高潮亚洲精品| 日本白嫩的18sex少妇hd| 免费看片一区二区三区| 国产1区2| 色综合久久88| 欧美黑人巨大久久久精品一区| 欧美在线观看视频一区二区三区| av午夜在线| 欧美精品九九| 午夜性电影| 日本亚洲国产精品| 国产伦高清一区二区三区| 热99re久久免费视精品频软件| 久久激情影院| 国偷自产中文字幕亚洲手机在线 | 国产99久久九九精品| 97久久精品人人做人人爽50路| 精品久久综合1区2区3区激情| 激情欧美日韩| 久久精品手机视频| 狠狠插狠狠干| 国产99网站| 99久久久久久国产精品| 欧美一区二区精品久久| 精品国产免费久久| 欧美一区二区三区激情| 午夜国产一区| 中文字幕1区2区3区| 中文字幕一区三区| 91久久精品国产亚洲a∨麻豆| 国产专区一区二区| 国产视频1区2区| 久久99精品国产麻豆婷婷洗澡| 成年人性生活免费看| 欧美精品久久一区| 亚洲乱亚洲乱妇50p| 国内久久久| 欧美日韩国产一区二区三区在线观看| 国产精品久久久久久久龚玥菲| 乱子伦农村| 中文字幕另类日韩欧美亚洲嫩草| 国产二区精品视频 | 久久久精品久久日韩一区综合| 日本精品视频一区二区三区| 精品91av| 国产精选一区二区| 91丝袜诱惑| 伊人精品一区二区三区| 中文文精品字幕一区二区| 精品国产一区二区三区四区vr| 91偷自产一区二区三区精品| 国产精品一区二区三| 欧美一区免费| 午夜激情看片| 综合欧美一区二区三区| 国产精品亚洲二区| 在线观看欧美日韩国产| 久久一区二区三区视频| 91精品久久久久久综合五月天| 久久99精品久久久噜噜最新章节| 欧美日韩三区| 亚洲一级中文字幕| 国产精品久久亚洲7777| 久久婷婷国产综合一区二区| 日本精品一二三区| 国产欧美日韩一级大片| 久久99精品久久久久婷婷暖91| 国产91热爆ts人妖系列| 国产无套精品久久久久久| 日本精品视频一区二区三区| 国产午夜一级片| 欧美日韩一级二级三级| 亚洲精品97久久久babes| 国产清纯白嫩初高生在线播放性色| 午夜精品在线播放| 国产特级淫片免费看| 日韩av在线导航| 91热国产| 久久一区二区三区欧美| 色噜噜狠狠色综合影视| 国产全肉乱妇杂乱视频在线观看 | 艳妇荡乳欲伦2| 午夜特级片| 欧美一区久久| 午夜色影院| 99国产精品久久久久| 国产jizz18女人高潮| 91视频国产九色| 欧美日韩高清一区二区| 国产一区二区手机在线观看| 久草精品一区| 亚洲1区在线观看| 精品国产鲁一鲁一区二区三区| 亚洲精品老司机| 国产麻豆一区二区三区在线观看 | 日韩一区高清| 一区二区三区中文字幕| 久久精品国产一区二区三区| 国产乱码精品一区二区三区中文| 国产日韩一区二区三区| 国产一级片一区二区| 国产午夜精品理论片| 久久国产精品麻豆| 精品久久久久久中文字幕大豆网| 久久婷婷国产综合一区二区| 欧洲激情一区二区| 亚洲一区中文字幕| 女人被爽到高潮呻吟免费看 | 国产精品免费专区| 国产一区二区午夜| 亚洲午夜精品一区二区三区电影院| 久久久久久亚洲精品| 亚洲精品www久久久久久广东 | 日韩精品一区二区三区免费观看| 国产精品奇米一区二区三区小说| 曰韩av在线|