[發明專利]一種產業招商線索發現方法、系統、設備及存儲介質在審
| 申請號: | 202210070574.0 | 申請日: | 2022-01-21 |
| 公開(公告)號: | CN114492367A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 杜登偉;杜登斌;杜樂;杜小軍 | 申請(專利權)人: | 武漢東湖大數據交易中心股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/216;G06F40/289;G06F40/30;G06F16/35;G06F16/335 |
| 代理公司: | 武漢紅觀專利代理事務所(普通合伙) 42247 | 代理人: | 徐春燕 |
| 地址: | 430000 湖北省武漢市東湖新技術開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 產業 招商 線索 發現 方法 系統 設備 存儲 介質 | ||
1.一種產業招商線索發現方法,其特征在于,所述一種產業招商線索發現方法包括以下步驟:
S1,采集園區和企業多來源、多維度數據,將獲取的源數據根據來源分別建立園區文本數據集和企業文本數據集,并存入數據庫;繼續執行步驟S2;
S2,對所述源數據進行預處理,并利用TFC技術提取對應的基本特征信息,分別建立基本特征信息集合;繼續執行步驟S3;
S3,根據招商的意愿和實際需要,將園區和企業基本特征信息劃分成不同維度的需求和意愿,分別打上對應的標簽,形成園區和企業意愿分詞標簽集合;繼續執行步驟S4;
S4,根據企業和園區意愿標簽分詞集合,提取出對應的意愿語義信息;繼續執行步驟S5;
S5,利用余弦相似度算法,匹配計算園區各意愿語義信息與企業各意愿語義信息,將與某企業意愿語義信息相似度高于預設第二閾值的園區意愿語義信息對應的源數據作為有效招商線索主題。
2.如權利要求1所述的一種產業招商線索發現方法,其特征在于,所述步驟S1具體包括:
通過對包括園區網站、政府機構等官方網站的園區、工商企業數據、園區、企業內部CRM系統的不同公開數據源進行數據采集和清洗,獲取到園區和企業的數據,其中,園區的數據包括:園區的發展定位、總體目標、重點發展產業情況、產業用地出讓情況、產業項目落地情況、新增重點企業情況、產業鏈情況、園區政策、園區空間建設布局、重點項目建設內容、園區企業經營情況、園區企業科技創新、園區基礎設施工程專項、組織架構和運營、投資時序及實施數據;企業的數據包括:企業擴展信息、技術創新信息、企業工商信息、企業投融資信息、企業人才招聘、企業財務信息數據;
根據信息來源將數據分為園區文本數據集和企業文本數據集。
3.如權利要求1所述的一種產業招商線索發現方法,其特征在于,所述步驟S2具體包括:
對所述多來源、多維度數據進行包括中文分詞、去除停用詞以及非法格式字符的預處理,并使用TFC技術,計算詞P在兩個文本數據集中的權重,分解成可落地的數據維度:
WdP為詞P在對應源數據d中的權重,tfdP為詞P在對應源數據d中出現的頻次,N為對應文本數據集中源數據d的總數,nP為對應文本數據集中包含詞P的源數據數量,k為源數據d中詞P的個數;
詞P在園區文本數據集和企業文本數據集中的權重分別為最終詞WdP1和WdP2,則其在所述數據庫中的權重為(WdP1+WdP2)/2;
將每個源數據中的分詞按照在數據庫中的權重由高到低排序,取排名為預設名次的分詞為該數據源的對應的基本特征信息,從而得到園區文本數據集和企業文本數據集對應的基本特征信息集合。
4.如權利要求1所述的一種產業招商線索發現方法,其特征在于,所述步驟S3具體包括:
根據園區基本特征信息以及企業基本特征信息,分別為園區和企業打上對應的意愿標簽,并對意愿標簽進行分詞處理,形成園區意愿標簽分詞集合和企業意愿標簽分詞集合;
園區意愿標簽主要包括:產業聚集意愿、引進高技術人才意愿、引進高科技技術意愿、引進高科技企業意愿、引進創新金融機構意愿;企業意愿標簽主要包括:企業擴張意愿、企業多元戰略意愿、企業物流倉儲意愿、企業空間發展意愿、企業科技創新意愿、企業人才戰略意愿、企業合理避稅意愿、企業產城融合意愿以及規模發展、品牌傳播、網絡效應意愿、產業基礎意愿、資源稟賦意愿、區位優勢意愿。
5.如權利要求1所述的一種產業招商線索發現方法,其特征在于,所述步驟S4具體包括:
S4-1,將意愿標簽分詞轉換為向量,采用Single-pass聚類算法對所述園區意愿標簽分詞集合和企業意愿標簽分詞集合分別進行第一層聚類,得到對應的文本相似度高于預設第一閾值的多個子話題;繼續執行步驟S4-2;
S4-2,利用自底向上的層次聚類算法分別進行子話題的合并,得到園區意愿標簽分詞集合和企業意愿標簽分詞集合對應的最終話題,所述最終話題即為園區意愿語義信息和企業意愿語義信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢東湖大數據交易中心股份有限公司,未經武漢東湖大數據交易中心股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210070574.0/1.html,轉載請聲明來源鉆瓜專利網。





