[發(fā)明專利]一種基于自然語言處理技術(shù)的公司產(chǎn)業(yè)鏈節(jié)點匹配方法在審
| 申請?zhí)枺?/td> | 202110469464.7 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113139066A | 公開(公告)日: | 2021-07-20 |
| 發(fā)明(設(shè)計)人: | 方正平 | 申請(專利權(quán))人: | 安徽智侒信信息技術(shù)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/951;G06F40/216;G06F40/247;G06F40/284;G06F40/289 |
| 代理公司: | 重慶項乾光宇專利代理事務(wù)所(普通合伙) 50244 | 代理人: | 高姜 |
| 地址: | 230601 安徽省合肥市經(jīng)*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 自然語言 處理 技術(shù) 公司 產(chǎn)業(yè)鏈 節(jié)點 匹配 方法 | ||
1.一種基于自然語言處理技術(shù)的公司產(chǎn)業(yè)鏈節(jié)點匹配方法,其特征在于:具體包括以下步驟:
步驟一、數(shù)據(jù)采集:通過編制細(xì)分產(chǎn)品標(biāo)準(zhǔn)化標(biāo)簽,然后根據(jù)標(biāo)準(zhǔn)化標(biāo)簽編制產(chǎn)業(yè)鏈關(guān)系圖譜,利用爬蟲從不同數(shù)據(jù)源中收集公司原始產(chǎn)品和業(yè)務(wù)描述本文;
步驟二、人工匹配:行業(yè)相關(guān)研究人員根據(jù)步驟一中編制的標(biāo)準(zhǔn)化標(biāo)簽對原始文本進行匹配,形成產(chǎn)品業(yè)務(wù)與標(biāo)準(zhǔn)化標(biāo)簽映射集,并整理同義詞、近義詞、相關(guān)詞等關(guān)鍵詞庫對映射關(guān)系進行擴充,得到標(biāo)簽匹配模型的訓(xùn)練語料;
步驟三、建立標(biāo)簽匹配模型:利用NLP技術(shù)和深度學(xué)習(xí)算法對步驟二中的標(biāo)簽匹配語料進行特征學(xué)習(xí),形成公司產(chǎn)業(yè)鏈節(jié)點標(biāo)準(zhǔn)化標(biāo)簽匹配模型算法;
步驟四、模型運作:利用步驟三中獲得的標(biāo)簽匹配模型算法對原始產(chǎn)品和業(yè)務(wù)描述本文進行特征匹配,得到不同數(shù)據(jù)源的標(biāo)準(zhǔn)化標(biāo)簽結(jié)果和各自的置信度;
步驟五、人工篩選:利用人工質(zhì)檢,剔除有明顯偏差和置信度較低的標(biāo)準(zhǔn)化標(biāo)簽;
步驟六、排序篩選:通過排序模塊對經(jīng)過步驟五篩選后的標(biāo)準(zhǔn)化標(biāo)簽進行綜合排名,選擇前三項作為公司標(biāo)準(zhǔn)化標(biāo)簽;
步驟七、節(jié)點匹配:根據(jù)步驟六中輸出的公司標(biāo)準(zhǔn)化標(biāo)簽結(jié)果,將公司匹配到對應(yīng)的步驟一中編制的產(chǎn)業(yè)鏈圖譜節(jié)點上。
2.根據(jù)權(quán)利要求1所述的一種基于自然語言處理技術(shù)的公司產(chǎn)業(yè)鏈節(jié)點匹配方法,其特征在于:所述步驟一中的不同數(shù)據(jù)源具體包括上市公司企業(yè)年報、非上市公司工商經(jīng)營范圍、公司官網(wǎng)、互聯(lián)網(wǎng)招聘、相關(guān)百科等。
3.根據(jù)權(quán)利要求1所述的一種基于自然語言處理技術(shù)的公司產(chǎn)業(yè)鏈節(jié)點匹配方法,其特征在于:所述步驟四中的模型運作具體方式包括以下步驟:通過輸入模塊將公司原始產(chǎn)品和業(yè)務(wù)描述本文輸入到嵌入詞向量的BERT模型中,通過功能塊處理后,經(jīng)過n維向量導(dǎo)入到softmax函數(shù)中,經(jīng)過計算后通過輸出模塊輸出每個標(biāo)準(zhǔn)化標(biāo)簽分類的置信度。
4.根據(jù)權(quán)利要求3所述的一種基于自然語言處理技術(shù)的公司產(chǎn)業(yè)鏈節(jié)點匹配方法,其特征在于:所述BERT可以被其它相關(guān)的模型,例如BiLSTM、GPT、XLNet等等替代。
5.根據(jù)權(quán)利要求3所述的一種基于自然語言處理技術(shù)的公司產(chǎn)業(yè)鏈節(jié)點匹配方法,其特征在于:所述softmax函數(shù)針對多分類問題設(shè)計,可以被多個針對二分類問題的logistic回歸所替代。
6.根據(jù)權(quán)利要求1所述的一種基于自然語言處理技術(shù)的公司產(chǎn)業(yè)鏈節(jié)點匹配方法,其特征在于:所述步驟六中的排序模塊根據(jù)數(shù)據(jù)源置信度和各數(shù)據(jù)源形成的標(biāo)準(zhǔn)化標(biāo)簽的交叉匹配結(jié)果進行從高到低的排序。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽智侒信信息技術(shù)有限公司,未經(jīng)安徽智侒信信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110469464.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





