[發明專利]區域增量高新技術企業預測模型的建立方法有效
| 申請號: | 202011583412.4 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112685891B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 費紅琳;孫秀婷;胡幼華;鄢雄偉;丁杰 | 申請(專利權)人: | 廣州博士信息技術研究院有限公司 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20;G06F16/951;G06F16/215;G06F16/2457;G06Q10/0639 |
| 代理公司: | 廣州博聯知識產權代理有限公司 44663 | 代理人: | 李永鋒 |
| 地址: | 510000 廣東省廣州市高新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 區域 增量 高新技術 企業 預測 模型 建立 方法 | ||
1.區域增量高新技術企業預測模型的建立方法,其特征在于,包括以下步驟:
S1)、利用爬蟲技術通過企業名稱爬取相應的數據并導入到數據庫;
S2)、利用企業注冊地址進行數據字段清洗;具體為:
S201)、利用拆分指令對數據進行拆分,獲取數據;
S202)、然后檢索數據庫中有無需要清洗的數據,并獲取數據,通過查詢mysql企業信息表,通過篩查條件省、市、區字段都為空刷選出需要拆分的數據集合,然后放入到集合列表中;
S203)、循環遍歷數據;
根據步驟S202)中集合數據,通過迭代器Iterator迭代循環遍歷數據集合;
S204)、獲取每條企業數據,以得到企業注冊地址;
根據S203)集合中遍歷獲取每個元素,根據對象指針獲取對象企業注冊地址屬性的值;
S205)、拆分省、市、區到相應的字段中;
根據S205)中的企業注冊地址值,申明局部3個局部變量拆分后省市區的值;
把企業地址值作為參數傳入拆分邏輯方法,然后通過類型,需要拆分的屬性,依次拆分并賦值給省、市、區局部變量;
然后通過企業信息載體對象,修改企業信息對象中省市區屬性;
最后通過修改方法,傳入企業信息對象;修改數據庫企業信息;
拆分省市區,提煉邏輯為三個條件,“省”字一個,“市”字一個,“區”字一個;
根據傳遞這個3個條件截取字段并返回字符串;
傳入省條件,獲取省的下標值如果大于0,截取地址從開始到下標值+1的字符串;
傳入市條件,獲取省的下標值,然后獲取市的下標值,如果省下標值大于0截取,省下標值+1到市下標值+1的字符串,否則截取從0開始到市下標值+1的字符串;
S3)、利用數據成立年度過濾篩選數據;
S4)、利用數據行業過濾篩選數據;
S5)、對已經申報過高新技術企業數據進行過濾;
S6)、對企業知識產權信息進行更新;
S7)、判斷知識產權信息是否符合潛在高新技術企業條件;
S8)、模型建立并獲取增量高新技術企業。
2.根據權利要求1所述的區域增量高新技術企業預測模型的建立方法,其特征在于:步驟S1)中,通過每抓取一條導入一條數據,或通過excel批量導入數據庫,根據excel字段信息映射數據庫字段以200條提交一次批量寫入數據庫中。
3.根據權利要求1所述的區域增量高新技術企業預測模型的建立方法,其特征在于:步驟S3)中,具體包括如下步驟:
S301)、利用后臺按鈕觸發指令檢索到省市區相關記錄列表;
S302)、遍歷列表信息并獲取企業成立年限;
S303)、判斷成立年限,成立年限小于一年的數據剔除。
4.根據權利要求1所述的區域增量高新技術企業預測模型的建立方法,其特征在于:步驟S4)中,對步驟S3)篩選后的數據進行遍歷列表信息,獲取企業行業字段信息;比對是否符合高新技術企業申報條件行業,并剔除不符合的數據。
5.根據權利要求1所述的區域增量高新技術企業預測模型的建立方法,其特征在于:步驟S5)中,對步驟S3)篩選后的數據進行遍歷列表信息,從歷年高企庫中查詢企業是否已經申報過高企并還處在有效;如果存在,修改企業是否為高企字段,并更新企業信息。
6.根據權利要求1所述的區域增量高新技術企業預測模型的建立方法,其特征在于:步驟S6)中,所述的知識產權信息進行更新通過觸發知識產權更新按鈕,遍歷步驟S1-S5)留下的非高企數據列表,采用循環遍歷的方式從第三方平臺根據企業名稱對接專利信息,并更新專利數據。
7.根據權利要求1所述的區域增量高新技術企業預測模型的建立方法,其特征在于:步驟S7)中,循環遍歷步驟S6)數據結果,判斷發明專利+軟件著作權+實用新型的數量是否大于0,更新為潛在高企數據。
8.根據權利要求1所述的區域增量高新技術企業預測模型的建立方法,其特征在于:步驟S8)中,具體包括以下步驟:
S801)、從政府獲取企業近三年財務數據,通過后臺以excel導入系統,后臺程序逐行讀取,并遍歷數據,根據excel中列表中的企業名稱,對比數據庫的中企業數據并抓取到程序內存中,讀到企業名稱數據、及近三年財務數據并填充到數據庫企業對象財務字段中,然后更新數據庫字段;
S802)、獲取潛在高企數據列表,然后循環遍歷數據并將企業數據提交到企業評分模型中,得到評分結果,判斷企業評分是否大于70,若大于則為增量高新技術企業;
其中,評分包括財務評分、知識產權評分、科研人員評分、研發能力評分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州博士信息技術研究院有限公司,未經廣州博士信息技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011583412.4/1.html,轉載請聲明來源鉆瓜專利網。





