[發明專利]一種增值稅發票商品和服務稅收分類編碼識別及糾錯方法在審
| 申請號: | 201810919795.4 | 申請日: | 2018-08-14 |
| 公開(公告)號: | CN110874407A | 公開(公告)日: | 2020-03-10 |
| 發明(設計)人: | 武錦;劉宗前;韓佶興;王彥;李雪峰;付婷婷;郭樂樂 | 申請(專利權)人: | 中國軟件與技術服務股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06Q30/04;G06Q40/00 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100081 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 增值稅發票 商品 服務 稅收 分類 編碼 識別 糾錯 方法 | ||
1.一種增值稅發票商品和服務稅收分類編碼識別及糾錯方法,其步驟包括:
1)獲取所選增值稅發票的發票數據;每一所選增值稅發票對應若干條所述發票數據,每一所述發票數據包括增值稅發票中的一條貨物或應稅勞務、服務的名稱,以及開具發票的納稅人所屬行業和納稅人名稱;
2)將每一所述發票數據組織成一文本數據,并將發票數據中的貨物或應稅勞務、服務的名稱對應的稅收分類編碼作為對應文本數據的分類類別,得到一訓練樣本集;其中訓練樣本集中的每一訓練樣本包括一文本數據及其分類類別;
3)將所述訓練樣本集輸入神經網絡模型進行訓練,得到一商品和服務稅收分類編碼識別模型;
4)獲取待預測增值稅發票的若干條發票數據,并將其輸入到所述商品和服務稅收分類編碼識別模型,得到每一發票數據的預測結果;然后將預測結果概率最大的稅收分類編碼作為該待預測增值稅發票的稅收分類編碼。
2.如權利要求1所述的方法,其特征在于,所述神經網絡模型為淺層神經網絡模型,訓練得到所述分類編碼模型的方法為:首先統計所述樣本訓練集的各文本數據中每個詞的詞頻,選擇指定頻率以上的詞構造詞向量查找表,詞向量查找表存儲的是詞和向量的一一對應的關系,每個詞在詞向量查找表中對應一個向量;將文本數據中的每一詞在詞向量查找表中找到對應的向量,然后將該文本數據中各詞對應的向量取平均,得到一個平均向量作為該文本數據的向量并將其全連接到Softmax輸出層,預測輸入文本屬于每個商品和服務稅收分類編碼的概率。
3.如權利要求1或2所述的方法,其特征在于,所述步驟3)中,首先打亂所述訓練樣本集的訓練樣本,然后將所述訓練樣本集輸入神經網絡模型進行訓練。
4.如權利要求3所述的方法,其特征在于,所述商品和服務稅收分類編碼識別模型的損失函數為負對數損失函數。
5.如權利要求1所述的方法,其特征在于,每一所述發票數據包括增值稅發票中的一條貨物或應稅勞務、服務的名稱,規格型號,單位,單價和稅率,以及開具發票的納稅人所屬行業和納稅人名稱。
6.如權利要求5所述的方法,其特征在于,將每一所述發票數據組織成一文本數據的方法為:
61)根據從互聯網爬取貨物或應稅勞務、服務名稱庫以及從歷史增值稅發票中統計得到的常見貨物或應稅勞務、服務名稱庫對所述發票數據中的貨物或應稅勞務、服務名稱,規格型號進行分詞;
62)對所述發票數據中的單位進行分詞,將單位與對應修飾詞進行分離;
63)對所述發票數據中的單價和稅率進行離散化;
64)從納稅人基本信息中獲取納稅人所屬主行業名稱并將其作為一個獨立的分詞;
65)提取納稅人名稱后綴;
66)對步驟61)~65)獲取的信息進行組合,得到所述發票數據對應的文本數據。
7.如權利要求6所述的方法,其特征在于,提取納稅人名稱后綴的方法為:首先獲取多個納稅人名稱后綴并取反之后插入字典樹,得到一反向字典樹;然后基于該反向字典樹和最長匹配原則,提取給定納稅人名稱的后綴。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國軟件與技術服務股份有限公司,未經中國軟件與技術服務股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810919795.4/1.html,轉載請聲明來源鉆瓜專利網。





