[發(fā)明專利]一種基于短文本相似度的稅務(wù)商品編碼分類方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201711085221.3 | 申請日: | 2017-11-07 |
| 公開(公告)號: | CN107862046B | 公開(公告)日: | 2019-03-26 |
| 發(fā)明(設(shè)計)人: | 龐勝民;王濤;孫科武;林文輝;高哲;張浩 | 申請(專利權(quán))人: | 寧波愛信諾航天信息有限公司;航天信息股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F17/27 |
| 代理公司: | 寧波高新區(qū)核心力專利代理事務(wù)所(普通合伙) 33273 | 代理人: | 袁麗花 |
| 地址: | 315000 浙江省寧波市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文本 相似 稅務(wù) 商品 編碼 分類 方法 系統(tǒng) | ||
1.一種基于短文本相似度的稅務(wù)商品編碼分類方法,其特征在于,包括:
步驟一:獲取樣本數(shù)據(jù);
步驟二:對樣本數(shù)據(jù)進(jìn)行分詞;
步驟三:獲得擴展詞;
步驟四:計算KL差異熵,以獲得待分類稅務(wù)商品編碼與已有商品編碼類別之間的差異度,根據(jù)所述差異度完成所述分類;
所述步驟四中的計算KL差異熵的具體過程如下:
(1)使用KL散度來描述待分類商品名稱θq和已有商品類別θc之間的關(guān)系,如公式1所示:
其中V是用到的字典,H是信息熵;
W:商品名稱經(jīng)過分詞后的詞;
CE是經(jīng)過擴展的類別候選集;
θq:商品名稱;
θc:商品類別;
P(w|θq):某個詞在商品名稱中的概率;
P(w|θc):該詞在所有類別數(shù)據(jù)集中出現(xiàn)的概率;
(2)使用步驟二中分詞后獲得的本體詞來計算P(w|θq),計算過程如公式2所示:
其中,QS是商品名稱經(jīng)過分詞后的短文本詞語集合,tfw,QS是詞語w在QS中的詞頻;
(3)對公式2進(jìn)行改進(jìn),如公式3所示:
其中QE是擴展后的詞集合,包括本體詞的擴展詞和縮略詞,μQ是平滑系數(shù);
所述步驟四中的計算KL差異熵的具體過程進(jìn)一步包括如下步驟:
(4)根據(jù)以下公式4計算P(w|θc)
其中,CE是經(jīng)過擴展的類別候選集,μc是平滑系數(shù)。
2.根據(jù)權(quán)利要求1所述的一種基于短文本相似度的稅務(wù)商品編碼分類方法,其特征在于,所述步驟三中的所述擴展詞包括索引詞和縮略詞。
3.根據(jù)權(quán)利要求1或2所述的一種基于短文本相似度的稅務(wù)商品編碼分類方法,其特征在于,采用期望交叉熵最小原則進(jìn)行μ的迭代,具體步驟如下:
(1)給μi賦初始值,假設(shè)μi=0.5
(2)計算1-μi和μi的期望
其中,PJM(w|C)是經(jīng)過
平滑處理后的概率;
(3)計算μi+1
(4)若|μi-μi+1|>ε,則執(zhí)行返回步驟(2),反之,則終止迭代;其中,ε=0.01。
4.根據(jù)權(quán)利要求1所述的一種基于短文本相似度的稅務(wù)商品編碼分類方法,其特征在于,所述樣本數(shù)據(jù)是待分類的稅務(wù)商品編碼名稱。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于寧波愛信諾航天信息有限公司;航天信息股份有限公司,未經(jīng)寧波愛信諾航天信息有限公司;航天信息股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711085221.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種企業(yè)稅務(wù)作業(yè)執(zhí)行及監(jiān)控平臺
- 一種企業(yè)稅務(wù)知識管理平臺
- 一種稅務(wù)協(xié)管巡查系統(tǒng)
- 一種數(shù)據(jù)比對方法和設(shè)備
- 一種遠(yuǎn)程交互式稅務(wù)管理系統(tǒng)
- 一種基于分布式系統(tǒng)基礎(chǔ)架構(gòu)平臺對稅務(wù)數(shù)據(jù)進(jìn)行處理的方法及系統(tǒng)
- 一種稅務(wù)風(fēng)險管控平臺
- 基于區(qū)塊鏈的稅務(wù)管理方法、裝置及計算機存儲介質(zhì)
- 一種涉稅信息共享處理系統(tǒng)
- 基于區(qū)塊鏈的稅務(wù)終端購票系統(tǒng)、購票方法、稅務(wù)終端





