[發明專利]一種政策匯聚與企業畫像匹配推薦的方法在審
| 申請號: | 202111519192.3 | 申請日: | 2021-12-14 |
| 公開(公告)號: | CN113918707A | 公開(公告)日: | 2022-01-11 |
| 發明(設計)人: | 張磊;孫歡歡;賈曉光;張松梅;莊超 | 申請(專利權)人: | 中關村科技軟件股份有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/35;G06F16/951;G06F16/25;G06F16/215 |
| 代理公司: | 北京紐樂康知識產權代理事務所(普通合伙) 11210 | 代理人: | 劉艷艷 |
| 地址: | 100094 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 政策 匯聚 企業 畫像 匹配 推薦 方法 | ||
本發明公開了一種政策匯聚與企業畫像匹配推薦的方法,該方法為:采用系統爬蟲及Xpath規則解析收集互聯網數據,同時通過人工錄入的方式獲取數據,將獲得到的數據存儲到數據庫中;采用ETL技術將S1獲取的數據進行清洗、轉換、去雜、解析;采用NLP技術對S2預處理后的數據進行標簽化處理;將提取的政策數據標簽以及分類提取的企業數據標簽進行匹配評估,同時加入企業畫像評估算法進行模型制定,從而得出企業相關匹配度政策集;將得到的企業相關匹配度政策集按照匹配度推送給企業。本發明的政策匯聚與企業畫像匹配推薦的方法能使得各類企業獲取到適合的優惠政策,達到了效率高、智能化、精準化,提高企業管理效率的效果。
技術領域
本發明涉及政策智能匹配技術領域,具體來說,涉及一種政策匯聚與企業畫像匹配推薦的方法。
背景技術
隨著大數據的發展及應用,逐漸形成了以數據采集、數據ETL、數據分析為數據底座的應用,由于數據的量級、多樣性、復雜性和文本數據智能語義分析與提取算法等因素,基于大數據的爬蟲技術、ELT技術、NLP語義分析、智能匹配算法等相關技術成為常用的手段。
企業想獲取與企業相關的政策,需要付出大量的人力、時間等資源,從海量政策中篩選出符合其自身申報的政策,進一步影響企業響應政策,調整自己的工作重心或無法享受政策給企業帶來的福利。因此,如何將優惠政策信息快速、高效推送給可滿足條件相匹配的企業是本領域亟需解決的技術問題。
發明內容
針對相關技術中的上述技術問題,本發明提出一種政策匯聚與企業畫像匹配推薦的方法,能夠克服現有技術的上述不足。
為實現上述技術目的,本發明的技術方案是這樣實現的:
一種政策匯聚與企業畫像匹配推薦的方法,包括以下步驟:
S1 數據獲?。翰捎孟到y爬蟲及Xpath規則解析收集互聯網數據,同時通過人工錄入的方式獲取數據,將獲得到的數據存儲到數據庫中;
S2 數據預處理:采用ETL技術將S1獲取的數據進行清洗、轉換、去雜、解析;
S3 數據文本提取及標簽化:采用NLP技術對S2預處理后的數據進行語義理解、分詞形成可用標簽;
S4 匹配模型定制:將S3中提取的政策數據標簽以及分類提取的企業數據標簽進行匹配評估,同時加入企業畫像評估算法進行模型制定,從而得出企業相關匹配度政策集;
S5 政策推送:將S4得到的企業相關匹配度政策集按照匹配度推送給企業。
進一步地,S1中所述互聯網數據包括互聯網惠企政策、公告文件等。
進一步地,S1中所述通過人工錄入的方式獲取數據為:通過客戶端錄入收集的可公示線下政策數據。
進一步地,S2中將獲取的數據進行清洗包括:
空值處理:可捕獲字段空值,進行加載或替換為其他含義數據,并可根據字段空值實現分流加載到不同目標庫;
規范化數據格式:可實現字段格式約束定義,對于數據源中時間、數值、字符等數據,可自定義加載格式;
拆分數據:依據業務需求對字段可進行分解;
驗證數據正確性:可利用Lookup及拆分功能進行數據驗證;
數據替換:對于因業務因素,可實現無效數據、缺失數據的替換;
Lookup:查獲丟失數據 Lookup實現子查詢,并返回用其他手段獲取的缺失字段,保證字段完整性;
建立ETL過程的主外鍵約束:通過建立一張主表,其中存放數據的基本信息,將建立id字段作為該表主鍵(主關鍵字),它的值用于唯一的標識表中的某一條記錄,作為后續存放標簽所建立的公共關系表的外鍵(外關鍵字)。該操作杜絕無依賴性的非法數據,可替換或導出到錯誤數據文件中,保證主鍵唯一記錄的加載。
進一步地,S3中數據文本提取及標簽化包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中關村科技軟件股份有限公司,未經中關村科技軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111519192.3/2.html,轉載請聲明來源鉆瓜專利網。





