[發明專利]一種基于自然語言處理技術的公司產業鏈節點匹配方法在審
| 申請號: | 202110469464.7 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113139066A | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 方正平 | 申請(專利權)人: | 安徽智侒信信息技術有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/951;G06F40/216;G06F40/247;G06F40/284;G06F40/289 |
| 代理公司: | 重慶項乾光宇專利代理事務所(普通合伙) 50244 | 代理人: | 高姜 |
| 地址: | 230601 安徽省合肥市經*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 處理 技術 公司 產業鏈 節點 匹配 方法 | ||
本發明公開了一種基于自然語言處理技術的公司產業鏈節點匹配方法,具體包括以下步驟:步驟一、數據采集;步驟二、人工匹配;步驟三、建立標簽匹配模型;步驟四、模型運作;步驟五、人工篩選;步驟六、排序篩選;步驟七、節點匹配,本發明涉及產業鏈分析技術領域。該基于深度學習和自然語言處理技術的公司產業鏈節點匹配方法,通過構建標準化標簽匹配模型,加上經過不斷地人工質檢和對模型進行優化,可將公司整合到編制好的產業鏈圖譜節點上,從而實現了全量包括上市公司和非上市公司的產業鏈節點匹配,將能開拓更多的業務場景,做好強鏈的同時也可以引進或扶持開辦缺少的產業鏈節點公司,完成補鏈或者延鏈。
技術領域
本發明涉及產業鏈分析技術領域,具體為一種基于自然語言處理技術的公司產業鏈節點匹配方法。
背景技術
產業鏈是各個產業部門之間基于一定的技術經濟關聯,并依據特定的邏輯關系和時空布局關系客觀形成的鏈條式關聯關系形態,本質是用于描述一個具有某種內在聯系的企業群結構。產業鏈中大量存在著上下游關系和相互價值的交換,上游環節向下游環節輸送產品或服務,下游環節向上游環節反饋信息。
編制一條產業鏈一般包括三部分內容:以公司行業分類為基礎,編制細分產品標準化標簽;調研標的產業鏈,編制上中下游關系圖譜并梳理產業鏈內含節點的產品標準化標簽;公司與節點標準化標簽的匹配。
針對于公司與節點標準化標簽的匹配,現有的公司匹配產業鏈節點大多局限于上市公司和少量頭部非上市公司,主要采用人工調研企業年報和公開數據,完成產業鏈節點的匹配,這樣僅匹配上市公司和少量非上市公司的產業鏈,應用場景相對較為有限,例如輔助投資決策、產業鏈招商、銀行營銷獲客等。
發明內容
(一)解決的技術問題
針對現有技術的不足,本發明提供了一種基于自然語言處理技術的公司產業鏈節點匹配方法,解決了現有技術中僅匹配上市公司和少量非上市公司的產業鏈,應用場景相對較為有限的問題。
(二)技術方案
為實現以上目的,本發明通過以下技術方案予以實現:一種基于自然語言處理技術的公司產業鏈節點匹配方法,具體包括以下步驟:
步驟一、數據采集:通過編制細分產品標準化標簽,然后根據標準化標簽編制產業鏈關系圖譜,利用爬蟲從不同數據源收集中公司原始產品和業務描述本文;
步驟二、人工匹配:行業相關研究人員根據步驟一中編制的標準化標簽對原始文本進行匹配,形成產品業務與標準化標簽映射集,并整理同義詞、近義詞、相關詞等關鍵詞庫對映射關系進行擴充,得到標簽匹配模型的訓練語料;
步驟三、建立標簽匹配模型:利用NLP技術和深度學習算法對步驟二中的標簽匹配語料進行特征學習,形成公司產業鏈節點標準化標簽匹配模型算法;
步驟四、模型運作:利用步驟三中獲得的標簽匹配模型算法對原始產品和業務描述本文進行特征匹配,得到不同數據源的標準化標簽結果和各自的置信度;
步驟五、人工篩選:利用人工質檢,剔除有明顯偏差和置信度較低的標準化標簽;
步驟六、排序篩選:通過排序模塊對經過步驟五篩選后的標準化標簽進行綜合排名,選擇前三項作為公司標準化標簽;
步驟七、節點匹配:根據步驟六中輸出的公司標準化標簽結果,將公司匹配到對應的步驟一中編制的產業鏈圖譜節點上。
優選的,所述步驟一中的不同數據源具體包括上市公司企業年報、非上市公司工商經營范圍、公司官網、互聯網招聘、相關百科等。
優選的,所述步驟四中的模型運作具體方式包括以下步驟:通過輸入模塊將公司原始產品和業務描述本文輸入到嵌入詞向量的BERT模型中,通過功能塊處理后,經過n維向量導入到softmax函數中,經過計算后通過輸出模塊輸出每個標準化標簽分類的置信度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽智侒信信息技術有限公司,未經安徽智侒信信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110469464.7/2.html,轉載請聲明來源鉆瓜專利網。





