[發明專利]一種基于正例與未標注學習的發票虛開識別方法及系統有效
| 申請號: | 201910636175.4 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110532542B | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 鄭慶華;宓玲云;董博;阮建飛;吳映潮;李碧婷;張發 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06K9/62;G06Q40/00 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 李紅霖 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標注 學習 發票 虛開 識別 方法 系統 | ||
1.一種基于正例與未標注學習的發票虛開識別方法,其特征在于,包括以下步驟:
步驟一,企業特征提取模塊對納稅人基本信息中待挖掘的文本和非文本信息進行特征處理和編碼處理;具體包括如下實現步驟:
對企業特征提取,企業特征分為基本特征和交易網絡特征,其中:
(1)企業基本特征提取
企業基本信息的數據為三個類別:文本型數據、標志型數據和數值型數據;企業基本特征提取的具體步驟如下:
1)處理文本型數據
對企業基本信息表中的文本信息進行數據的預處理并進行特征提取;納稅人文本特征處理包括:
步驟1:使用Jieba分詞工具進行分詞;
步驟2:構建停用表,將文本的停用詞去掉;
步驟3:計算語料庫中不同類別文本的所占比例,等比例地從其中提取關鍵詞匯;
步驟4:將步驟3提取出來的N類關鍵詞轉成詞向量構成一個N維的空間,每一個文本字段對應一個N維的向量,然后將所有的N維中文向量轉化成可用于計算的N維數值向量;
2)處理類別型數據
對企業基本信息表中的類別型數據進行預處理并提取特征;對于此類離散型的數據采用One-Hot編碼;對于任意離散型數據特征,設數據共具有N種離散值,那么對于該數據對應的特征就有N個狀態位,One-Hot編碼將這N個狀態位中的一位表示為1,其他位均表示成為0;一個特征值由N-1位0和一位1表示,確保只有一位有效;
3)處理數值型數據
對企業基本信息表中的數值型數據采用傳統的標準化方法其進行處理,具體步驟為:
步驟1:獲取各個屬性的均值
記u=(u1,u2,...,um)為均值向量,其中m表示數值型屬性的種類數,ui表示第i個數值型屬性的均值,其具體的計算形式為:
其中,n表示企業基本信息樣本的數量,表示第i個樣本的第j個數值型屬性取值;
步驟2:獲取各個屬性的方差
記σ=(σ1,σ2,...,σm)為各個數值型屬性的方差,其中m表示數值型屬性的種類數,σi表示第i個數值型屬性的方差,σi的具體形式為:
均值和方差是數值型屬性的基本指標,通過均值和方差可對數值型屬性做標準化處理;
(2)企業交易網絡特征提取
發票信息具有購方、銷方雙方企業的納稅人電子檔案號、行業、登記注冊類型以及交易的金額、稅額信息,包含著企業之間潛在的關聯信息;以發票的銷方和購方分別作為節點,以每條發票記錄作為一條邊,邊的方向由銷方指向購方,形成一個有向的交易圖;交易網絡特征的提取運用了網絡表征學習的node2vec算法;該node2vec算法包括兩個部分,隨機游走和word2Vec;
具體步驟見下:
步驟1:針對每一條發票信息,將信息中的銷方和購方作為節點,并將企業基本信息作為節點的屬性,形成一條由銷方指向購方的邊,發票的其他信息作為邊上所攜帶的屬性信息,形成一個交易網絡圖G(V,E),其中V表示節點的集合,E表示邊的集合;
步驟2:將交易網絡圖G作為node2vec的算法的輸入,設置隨機游走的步長為30;以每個企業節點為起點,在相連的企業節點中隨機選擇下一個企業節點,形成一條路線,每條路線包括30個連通的企業節點;
步驟3:將每個企業節點當成一個詞,每條路線當成一句話,使用word2vec算法得到企業節點的64維特征表示;
步驟二,循環多間諜負例標記方法挖掘可靠負樣本模塊將基本特征和網絡特征合并作為特征空間,基于提出的循環多間諜負例標記方法在每輪迭代中從已標記的正樣本集中隨機選擇設定比例的間諜樣本與未標簽樣本集作為負樣本集,并與剩余的正樣本一起作為訓練集訓練二分類器,用二分類器對間諜樣本和未標記樣本進行預測,選擇間諜樣本預測值中的最小值作為閾值,將預測值小于閾值的未標記樣本作為負樣本加入初步的負樣本集,通過對所有的初步負樣本集取交集得到最終的可靠的負樣本集;
步驟三,基于k近鄰回歸協同訓練的模型構建模塊將挖掘出的可靠負樣本與正樣本作為訓練集基于k近鄰回歸協同訓練算法構建發票虛開預測模型;
步驟四,發票虛開行為識別模塊將未標記的企業樣本的特征后輸入至發票虛開預測模型,以識別企業是否存在發票虛開行為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910636175.4/1.html,轉載請聲明來源鉆瓜專利網。





