[發(fā)明專利]一種基于多標(biāo)簽分類的稅務(wù)文檔層次分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410400522.0 | 申請(qǐng)日: | 2014-08-14 |
| 公開(公告)號(hào): | CN104199857B | 公開(公告)日: | 2017-06-27 |
| 發(fā)明(設(shè)計(jì))人: | 劉均;馬健;鄭慶華;張未展;吳蓓 | 申請(qǐng)(專利權(quán))人: | 西安交通大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司61200 | 代理人: | 陸萬(wàn)壽 |
| 地址: | 710049 *** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 標(biāo)簽 分類 稅務(wù) 文檔 層次 方法 | ||
1.一種基于多標(biāo)簽分類的稅務(wù)文檔層次分類方法,其特征在于,包括以下步驟:
1)稅務(wù)文檔主題特征構(gòu)建:
1-1)對(duì)待分類的稅務(wù)文檔進(jìn)行去噪預(yù)處理,得到待分類文檔;
1-2)指定待分類文檔的主題個(gè)數(shù),從隱含狄利克雷分布模型中抽取生成的主題分布,構(gòu)建待分類文檔的隱含狄利克雷分布主題特征,得到待分類文檔的主題分布以及每個(gè)主題對(duì)應(yīng)詞的分布;指定待分類文檔的主題個(gè)數(shù)為10~20個(gè);
2)增量式候選類別搜索:
2-1)將若干篇已經(jīng)標(biāo)過(guò)分類標(biāo)簽的稅務(wù)文檔作為訓(xùn)練數(shù)據(jù),去除訓(xùn)練數(shù)據(jù)中的停用詞,構(gòu)建訓(xùn)練數(shù)據(jù)的tf·idf特征向量,將tf矩陣中不為0的詞表進(jìn)行存儲(chǔ),并將生成的詞匯列表、tf列表、idf值列表按序存儲(chǔ);
2-2)對(duì)于待分類文檔r,根據(jù)保存的詞匯列表計(jì)算tfr值,tfr值是待分文檔r的tf向量,將待分類文檔r中出現(xiàn)但在當(dāng)前詞匯列表中未出現(xiàn)的詞匯添加到詞匯列表后面,然后根據(jù)tfr值重新計(jì)算idf值,重新計(jì)算tf·idf特征向量,得到包含訓(xùn)練數(shù)據(jù)和待分類文檔的tf·idf特征向量;
2-3)計(jì)算待分類文檔r和訓(xùn)練數(shù)據(jù)的相似度,獲取候選類別標(biāo)簽;
3)基于遷移學(xué)習(xí)的訓(xùn)練數(shù)據(jù)構(gòu)建及多標(biāo)簽分類:
3-1)對(duì)于每個(gè)候選類別標(biāo)簽節(jié)點(diǎn),其本身對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)為源數(shù)據(jù),借助其祖先節(jié)點(diǎn)和孩子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)對(duì)源數(shù)據(jù)進(jìn)行補(bǔ)充,補(bǔ)充的訓(xùn)練數(shù)據(jù)為輔助數(shù)據(jù);
3-2)利用遷移學(xué)習(xí)算法TrAdaBoost從輔助數(shù)據(jù)中選擇出適合用于構(gòu)建分類模型的數(shù)據(jù),并構(gòu)建基于遷移學(xué)習(xí)的多標(biāo)簽分類模型;
3-3)利用基于遷移學(xué)習(xí)的多標(biāo)簽分類模型,結(jié)合隱含狄利克雷分布主題特征,對(duì)待分類文檔進(jìn)行分類,得到待分類文檔所屬的稅種層次類別;
所述的步驟1-1)中對(duì)待分類的稅務(wù)文檔進(jìn)行去噪預(yù)處理的具體步驟為:先將待分類的稅務(wù)文檔轉(zhuǎn)換成文本格式,對(duì)轉(zhuǎn)換后的稅務(wù)文檔進(jìn)行數(shù)據(jù)清洗,刪除由于轉(zhuǎn)換導(dǎo)致的亂碼文檔,去除重復(fù)文檔,同時(shí)去除元數(shù)據(jù)信息,其中元數(shù)據(jù)信息包括文檔標(biāo)題和作者;
所述的步驟3-1)的具體操作為:對(duì)于候選類別標(biāo)簽節(jié)點(diǎn)Ca和其他任意的候選類別標(biāo)簽節(jié)點(diǎn)Cb,對(duì)于Ca的任意祖先節(jié)點(diǎn)Pa,在滿足時(shí),將Pa對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)補(bǔ)充到Ca的源數(shù)據(jù)中,并將Pa的其他非候選類別標(biāo)簽節(jié)點(diǎn)的孩子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)補(bǔ)充到Ca的源數(shù)據(jù)中,同時(shí)將Ca的孩子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)補(bǔ)充到Ca的源數(shù)據(jù)中,其中P(Cb)表示Cb的祖先節(jié)點(diǎn)的集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410400522.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 瀏覽器中關(guān)閉標(biāo)簽的裝置和方法
- 標(biāo)簽生成方法及標(biāo)簽生成裝置
- 一種帶有標(biāo)簽的電氣插座
- 標(biāo)簽檢測(cè)定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 基于樹形結(jié)構(gòu)的標(biāo)簽存儲(chǔ)方法及裝置
- 一種標(biāo)簽分離機(jī)構(gòu)
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 標(biāo)簽檢測(cè)定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽轉(zhuǎn)換處理方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種企業(yè)稅務(wù)作業(yè)執(zhí)行及監(jiān)控平臺(tái)
- 一種企業(yè)稅務(wù)知識(shí)管理平臺(tái)
- 一種稅務(wù)協(xié)管巡查系統(tǒng)
- 一種數(shù)據(jù)比對(duì)方法和設(shè)備
- 一種遠(yuǎn)程交互式稅務(wù)管理系統(tǒng)
- 一種基于分布式系統(tǒng)基礎(chǔ)架構(gòu)平臺(tái)對(duì)稅務(wù)數(shù)據(jù)進(jìn)行處理的方法及系統(tǒng)
- 一種稅務(wù)風(fēng)險(xiǎn)管控平臺(tái)
- 基于區(qū)塊鏈的稅務(wù)管理方法、裝置及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種涉稅信息共享處理系統(tǒng)
- 基于區(qū)塊鏈的稅務(wù)終端購(gòu)票系統(tǒng)、購(gòu)票方法、稅務(wù)終端





