[發明專利]區域增量高新技術企業預測模型的建立方法有效
| 申請號: | 202011583412.4 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112685891B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 費紅琳;孫秀婷;胡幼華;鄢雄偉;丁杰 | 申請(專利權)人: | 廣州博士信息技術研究院有限公司 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20;G06F16/951;G06F16/215;G06F16/2457;G06Q10/0639 |
| 代理公司: | 廣州博聯知識產權代理有限公司 44663 | 代理人: | 李永鋒 |
| 地址: | 510000 廣東省廣州市高新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 區域 增量 高新技術 企業 預測 模型 建立 方法 | ||
本發明提供一種區域增量高新技術企業預測模型的建立方法,包括以下步驟:S1)、利用爬蟲技術通過企業名稱爬取相應的數據并導入到數據庫;S2)、利用企業注冊地址進行數據字段清洗;S3)、利用數據成立年度過濾篩選數據;S4)、利用數據行業過濾篩選數據;S5)、對已經申報過高新技術企業數據進行過濾;S6)、對企業知識產權信息進行更新;S7)、判斷知識產權信息是否符合潛在高新技術企業條件;S8)、模型建立并獲取增量高新技術企業。本發明利用爬蟲技術獲取數據,同時利用根據企業注冊地址來清洗并獲得企業的省、市、區等字段信息;本發明通過成立年度、行業過濾、是否申報高企、知識產權、財務等信息對企業進行篩選。
技術領域
本發明涉及數據處理技術領域,尤其是一種預測區域新增高企數量模型的建立方法。
背景技術
高新技術企業一般是指在國家頒布的《國家重點支持的高新技術領域》范圍內,持續進行研究開發與技術成果轉化,形成企業核心自主知識產權,并以此為基礎開展經營活動的居民企業,是知識密集、技術密集的經濟實體。高新技術企業認定工作已經成為各地科技管理部門深入實施創新驅動發展戰略、推動科技創新支撐引領現代化經濟體系建設的重要抓手。
針對區域內增量高企的數量,區域存在認識不清,沒有通過大數據形式摸清區域潛在高企的數量家底,無法精準提供與高企認定相關的創新服務,因此亟需一種能夠預測增量高企預測模型的建立方法,助力政府精準提供企業創新服務。
發明內容
針對現有技術的不足,本發明提供一種區域增量高新技術企業預測模型的建立方法。
本發明的技術方案為:區域增量高新技術企業預測模型的建立方法,包括以下步驟:
S1)、利用爬蟲技術通過企業名稱爬取相應的數據并導入到數據庫;
S2)、利用企業注冊地址進行數據字段清洗;
S3)、利用數據成立年度過濾篩選數據;
S4)、利用數據行業過濾篩選數據;
S5)、對已經申報過高新技術企業數據進行過濾;
S6)、對企業知識產權信息進行更新;
S7)、判斷知識產權信息是否符合潛在高新技術企業條件;
S8)、模型建立并獲取增量高新技術企業。
作為優選的,步驟S1)中,可通過每抓取一條導入一條數據,也可以通過excel批量導入數據庫。
作為優選的,步驟S2)中,利用企業注冊地址進行數據字段清洗,具體為:
S201)、利用拆分指令對數據進行拆分,優選獲取數據;
S202)、然后檢索數據庫中有無需要清洗的數據,并獲取數據,
查詢mysql企業信息表,通過篩查條件省、市、區字段都為空刷選出需要拆分的數據集合,放入到集合(List)列表中;
S203)、循環遍歷數據;
優先根據S202中集合數據,通過迭代器Iterator迭代循環遍歷數據集合
S204)、獲取每條企業數據,以得到企業注冊地址;
優先根據S203集合中遍歷獲取每個元素(企業信息對象),根據對象指針獲取對象企業注冊地址屬性的值;
S205)、拆分省、市、區到相應的字段中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州博士信息技術研究院有限公司,未經廣州博士信息技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011583412.4/2.html,轉載請聲明來源鉆瓜專利網。





