[發(fā)明專利]一種基于正例與未標注學習的發(fā)票虛開識別方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910636175.4 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110532542B | 公開(公告)日: | 2021-07-13 |
| 發(fā)明(設計)人: | 鄭慶華;宓玲云;董博;阮建飛;吳映潮;李碧婷;張發(fā) | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06K9/62;G06Q40/00 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 李紅霖 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標注 學習 發(fā)票 虛開 識別 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于正例與未標注學習的發(fā)票虛開識別方法及系統(tǒng)。本發(fā)明包括步驟:首先,對納稅人基本信息中待挖掘的文本和非文本信息進行特征處理和編碼處理;其次,將基本特征和網(wǎng)絡特征合并作為特征空間,基于提出的循環(huán)多間諜負例標記方法在每輪迭代中從已標記的正樣本集中隨機選擇設定比例的間諜樣本與未標簽樣本集作為負樣本集,并與剩余的正樣本一起作為訓練集訓練二分類器,通過二分類器對所有的初步負樣本集取交集得到最終的可靠的負樣本集;然后,將挖掘出的可靠負樣本與正樣本作為訓練集基于k近鄰回歸協(xié)同訓練算法構建發(fā)票虛開預測模型;最后,將未標記的企業(yè)樣本的特征輸入至發(fā)票虛開預測模型以識別企業(yè)是否存在發(fā)票虛開行為。
技術領域
本發(fā)明屬于稅控技術領域,特別涉及一種基于正例與未標記學習(Positive-Unlabeled learning,簡稱PU learning)的發(fā)票虛開識別方法及系統(tǒng)。
背景技術
發(fā)票虛開指不如實開具發(fā)票的一種舞弊行為,納稅單位和個人為了達到偷稅的目的,在 商品名稱、數(shù)量名稱、商品單價以及金額上采取弄虛作假的手段,甚至利用比較熟悉的關系, 虛構交易事項虛開發(fā)票。
由于發(fā)票本身是真的,僅通過查驗發(fā)票真?zhèn)螣o法發(fā)現(xiàn)虛開問題,僅能依靠稅務稽查人員 的經驗,根據(jù)有限的票面信息,人工地對發(fā)票是否涉及虛開、企業(yè)是否存在與虛開行為相關 的異常行為來進行分析判斷。然而,隨著發(fā)票數(shù)據(jù)規(guī)模的不斷增長,單純依靠稅務稽查人員 人工識別發(fā)票虛開行為變得不切實際,存在工作量大、效率低下、考慮信息不全面、識別滯 后的難題。
針對面臨的這一難題,以下文獻提供了可參考的基于機器學習自動識別存在虛開行為企 業(yè)的相關技術方案:
文獻1.一種發(fā)票虛開企業(yè)監(jiān)控識別方法及系統(tǒng)(201611220015.4);
文獻2.一種基于并行環(huán)路檢測的虛開增值稅專用發(fā)票檢測方法(201710147850.8);
文獻3.一種基于并行關聯(lián)規(guī)則挖掘的發(fā)票虛開識別方法(201810436908.5);
文獻1利用決策樹算法和樣本集進行相應的模型訓練,創(chuàng)建企業(yè)類型預測模型,提取目 標企業(yè)的特征信息,并將其輸入至企業(yè)類型預測模型,以企業(yè)類型預測結果確定目標企業(yè)的 企業(yè)類型是否為虛開發(fā)票企業(yè)。
文獻2基于分布式并行計算方法對環(huán)路檢測進行了改進,改進的環(huán)路檢測方法將計算任 務分配給分布式集群中的多臺計算機中,最終通過改進環(huán)路檢測的方法來進行虛開增值稅專 用發(fā)票檢測。
文獻3首先提取所需會計期間內的發(fā)票記錄,構建事務集;其次對不同行業(yè)明細的事務 子集分別挖掘頻繁項集,生成關聯(lián)規(guī)則;最后,基于不同行業(yè)明細的關聯(lián)規(guī)則,計算企業(yè)的 自洽性,并通過自洽性計算結果識別存在發(fā)票虛開行為的企業(yè)。
以上文獻所述方法主要存在以下問題:文獻1依賴于已標記樣本集,在實際的虛開發(fā)票 行為檢測中,無法通過先驗知識獲取非虛開企業(yè)的樣本(負樣本),僅能通過啟發(fā)式規(guī)則獲取 少量的存在發(fā)票虛開行為的企業(yè)名單(正樣本),傳統(tǒng)的機器學習無法訓練有效的預測模型; 文獻2僅能檢測資金經過多個賬戶后重新回到源賬戶的虛開發(fā)票行為,而發(fā)票虛開具有多種 形式,資金流向不一定構成環(huán)路,該方法的識別類型過于單一,模型的泛化能力較差;文獻 3僅利用了企業(yè)的基本信息和發(fā)票信息構建模型去檢測虛開發(fā)票的行為,而忽略了發(fā)票信息 之間關聯(lián)的網(wǎng)絡信息,而現(xiàn)實中的發(fā)票虛開往往存在上下游關聯(lián)甚至團伙關聯(lián),網(wǎng)絡的拓撲 信息對這類虛開行為有很重要的參考價值,忽略這些關聯(lián)的網(wǎng)絡信息會使模型的準確率下降。
發(fā)明內容
為了克服上述現(xiàn)有技術的不足,本發(fā)明的目的在于提出一種基于正例與未標注學習的發(fā) 票虛開識別方法及系統(tǒng)。
本發(fā)明采用如下技術方案來實現(xiàn)的:
一種基于正例與未標注學習的發(fā)票虛開識別方法,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910636175.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





