[發明專利]一種基于全連接神經網絡的僵尸企業識別方法及其系統在審
| 申請號: | 202010711180.X | 申請日: | 2020-07-22 |
| 公開(公告)號: | CN111861758A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 李志敏;毛浩地;蔡承佑;何真可;李瑩;杜楠楠 | 申請(專利權)人: | 浙江中醫藥大學 |
| 主分類號: | G06Q40/06 | 分類號: | G06Q40/06;G06Q40/04;G06Q50/26;G06N3/08 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;黃美娟 |
| 地址: | 310053 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 連接 神經網絡 僵尸 企業 識別 方法 及其 系統 | ||
1.一種基于全連接神經網絡的僵尸企業識別方法,其特征在于,包括以下步驟:
步驟S1:采集若干樣本企業數據,數據來源:上海證券交易所、深圳證券交易所、企業財報、國家知識產權局;
步驟S2:進行數據預處理,提取企業特征并添加標簽,劃分訓練數據集、測試數據集;
步驟S3:利用Sequential模型構建全連接神經網絡;
步驟S4:根據訓練數據集,初始化并訓練全連接神經網絡模型,直到測試誤差達到預設值或者到達預設最大訓練次數,得到訓練后的全連接神經網絡模型;
步驟S5:將待測企業數據輸入訓練后的全連接神經網絡模型,識別是否為僵尸企業。
2.根據權利要求1所述的基于全連接神經網絡的僵尸企業識別方法,其特征在于:步驟S2所述的數據預處理和企業特征,具體包括缺失值插補、數據歸一化、均值代換和時間序列化;
所述的缺失值插補,具體包括:
若融資額度或融資成本其中一項為0,另一項缺失,則將另一項置為0;若融資額度和融資成本均缺失則將兩項都置為0;若融資額度或融資成本其中一項為實數,另一項缺失,則由以下公式計算缺失值:
k1≈k2≈…≈kn≈K,K為常數
對所有數據按行計算主營業務收入/營業總收入比例,并按如下公式計算平均比例:
根據平均比例插補營業總收入、主營業務收入的缺失值;
對于“專利”、“商標”、“著作權”、“注冊時間”、“行業”、“區域”、“企業類型”、“控制人類型”這種非定距型數據,按行相應數據,選取眾數插補缺失值;
經過上述步驟之后,從業人數、資產總額、負債總額、所有者權益、利潤總額、注冊資本、控制人持股比例剩余的缺失值,采用均值插補缺失值;
數據歸一化采取max-min方法對:
其中,X為某列特征數據的向量;
均值代換和時間序列化,具體包括:
計算企業上市以來總融資額度(包括債權融資額度、股權融資額度、內部融資和貿易融資額度、項目融資和政策融資額度)、總融資成本(總融資成本包括債權融資成本、股權融資成本、內部融資和貿易融資成本、項目融資和政策融資成本)的平均增長率,并以總融資額度、總融資成本的平均增長率作為企業的特征數據,公式如下,
上式中,i為第i列特征,s為該企業IPO年份,c為上市第c年(判定企業是否為僵尸企業應觀察其是否有多年僵尸化特征,故本模型只分析上市三年以上的企業,即c≥3),下同;
計算企業上市以來其余特征數據的均值,并以這些特征的均值作為企業的特征數據,公式如下:
3.根據權利要求1所述的基于全連接神經網絡的僵尸企業識別方法,其特征在于:步驟S2所述的提取的企業特征包括:注冊資本、控制人持股比例、創新指數、融資額度增長率、融資成本增長率、從業人數、資產總額、負債總額、營業總收入、主營業務收入、利潤總額、凈利潤、納稅總額、所有者權益合計。
4.根據權利要求1所述的基于全連接神經網絡的僵尸企業識別方法,其特征在于:步驟S4所述的全連接神經網絡模型以每組樣本數據的各項特征指標作為輸入,以是否為僵尸企業的判斷結果作為輸出,其中輸入層節點數為14,輸出層節點數為1。
5.根據權利要求1所述的基于全連接神經網絡的僵尸企業識別方法,其特征在于:步驟S4所述的全連接神經網絡模型的隱藏層節點數為:
其中,Ninput是輸入層神經元個數,Noutput是輸出層神經元個數,Ntrain是訓練集樣本個數,α∈[2,10]是可以自取的變量。
6.根據權利要求1所述的基于全連接神經網絡的僵尸企業識別方法,其特征在于:步驟S4所述的全連接神經網絡模型輸入層激勵函數采用ReLU函數,隱藏層以及輸出層的激勵函數采用Sigmoid函數,損失函數采用Binary_crossentropy函數。
7.實施權利要求1所述的基于全連接神經網絡的僵尸企業識別方法的系統,采用權利要求1-6之一所述的方法構建,其特征在于:包括依次連接的數據輸入裝置、識別引擎、識別結果輸出裝置,識別引擎包括樣本企業數據存儲模塊、數據預處理模塊、全連接神經網絡構建模塊、全連接神經網絡訓練模塊、識別模塊,其中:
樣本企業數據存儲模塊采集若干樣本企業數據,數據來源:上海證券交易所、深圳證券交易所、企業財報、國家知識產權局;
數據預處理模塊進行數據預處理,提取企業特征并添加標簽,劃分訓練數據集、測試數據集;
全連接神經網絡構建模塊利用Sequential模型構建全連接神經網絡;
全連接神經網絡訓練模塊,根據訓練數據集,初始化并訓練全連接神經網絡模型,直到測試誤差達到預設值或者到達預設最大訓練次數,得到訓練后的全連接神經網絡模型;
識別模塊將待測企業數據輸入訓練后的全連接神經網絡模型,識別是否為僵尸企業。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江中醫藥大學,未經浙江中醫藥大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010711180.X/1.html,轉載請聲明來源鉆瓜專利網。





