[發明專利]基于余弦相似度的異常報稅數據檢測方法有效
| 申請號: | 201310291896.9 | 申請日: | 2013-07-11 |
| 公開(公告)號: | CN103377454A | 公開(公告)日: | 2013-10-30 |
| 發明(設計)人: | 劉烴;劉楊;桂宇虹;鄭慶華;屈宇 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06Q50/26 | 分類號: | G06Q50/26 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 汪人和 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 余弦 相似 異常 報稅 數據 檢測 方法 | ||
技術領域:
本發明涉及數據監測領域,特別涉及一種異常報稅數據檢測方法。
背景技術:
稅務審計是指稅務機關依法對納稅人、扣繳義務人履行納稅義務、扣繳義務情況所進行的稅務稽查和處理工作的總稱。稅務法律法規復雜、審計點多,通用審計點多達2000項以上;同時審計對象數據龐大,一個大型企業僅財務憑證數據一項,約有數千萬筆,按照傳統人工方式,完成一家較大企業審計一般需要5-10個人團隊工作6個月時間。如何通過對納稅人的報稅數據進行自動分析,篩查出異常的報稅數據和納稅人,降低人工審計的數據量,成為稅務審計領域亟待解決的問題之一。
發明內容:
本發明主要目的在于提供一種基于余弦相似度的異常報稅數據檢測方法,通過構建納稅人的報稅數據特征向量,以及同地區/行業納稅人報稅數據統計特征向量,計算不同納稅人與統計特征間的余弦相似度,檢測納稅人的報稅數據是否存在異常,以識別可疑納稅人。
本發明的目的通過以下技術方案實現:
基于余弦相似度的異常報稅數據檢測方法,包括以下步驟:
S100,采集同一報稅業務周期內同行業/地區m個納稅人的報稅數據;
S101,根據步驟S100采集的同一報稅業務周期內,納稅人i的報稅數據,計算各項報稅統計指標,記為S1(i),S2(i),…,Sn(i);以此生成針對納稅人i的統計指標向量S(i)=(S1(i),S2(i),…,Sn(i));其中n為報稅統計指標的種類總數;
S102,針對同行業/地區的所有納稅人1,2,…,m,計算其報稅數據統計指標向量的算數平均值AVG和銷售總額加權平均值WAVG,計算公式為:
其中,o(i)是納稅人i的銷售總值;
S103,計算m個納稅人的統計指標向量與同行業/地區的統計特征AVG和WAVG的余弦相似度:相似度大于余弦相似度閾值的統計指標向量所對應的納稅人報稅數據為正常數據;相似度小于等于余弦相似度閾值的統計指標向量所對應的納稅人報稅數據存在異常數據。
本發明進一步的改進在于:對于步驟S103中所檢測出存在異常數據的納稅人,計算其各個報稅數據統計指標分量與同行業/地區統計特征AVG和WAVG的分量相對誤差。
本發明進一步的改進在于:所述余弦相似度閾值為0.96。
本發明進一步的改進在于:步驟S101中所述各項報稅統計指標包括不同稅種稅負比、進項稅額、銷項稅額、營業成本中一種或多種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310291896.9/2.html,轉載請聲明來源鉆瓜專利網。





