[發明專利]一種基于標簽分層延深建模的企業畫像方法有效
| 申請號: | 202011303829.0 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112580332B | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 李翔;丁行碩;王媛媛;朱全銀;高尚兵;王留洋;馬甲林;張柯文;成潔怡 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/242;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 223005 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標簽 分層 建模 企業 畫像 方法 | ||
1.一種基于標簽分層延深建模的企業畫像方法,其特征在于,具體步驟如下:
(1)對企業標簽數據集D和企業多源數據集D1進行去重、去空,清洗后得到企業數據集D2和D3;
(2)統計和篩選數據集D2,篩選出不能完整概括企業特點的標簽數據集,將其定義為D4,并統計出所有標簽集合作為延深依據;
(3)構建Bert模型,將數據集D4作為模型的輸入,在進行語義學習后,使用softmax層進行第一層標簽的分類延深;
(4)將D3數據集中的企業名稱、企業簡介、經營范圍信息整合,分別使用TextRank、TF-IDF、LDA主題模型進行關鍵詞抽取,然后對抽取后的關鍵詞進行處理,將處理后的詞作為分類延深后第二層的延深標簽具體包含以下步驟:
(4.1)數據集D3={T1,T2,…,Tb1,…,Tlen(D3)},且T={id,content1,content2,content3},其中id,content1,content2,content3分別為企業序號、企業名稱、企業簡介和企業經營范圍;
(4.2)定義D6為待整合數據集,len(D6)為D6中待整合文本數量,D6={T1,T2,…,Ta,…,Tlen(D6)};
(4.3)將企業名稱、企業簡介、經營范圍信息整合,整合后企業文本為content4,且滿足T1={id,content4},D7={T11,T12,…,T1a,…,T1len(D7)},其中T1為單個整合后文本,D7為整合后企業數據集;
(4.4)對影響抽取結果的詞語進行統計,建立停用詞詞典;
(4.5)通過收集企業領域專業詞匯建立企業字典;
(4.6)使用TextRank對D7企業整合數據集中所有名詞進行關鍵詞抽取,得到抽取結果K1集合;
(4.7)然后使用TF-IDF對D7企業整合數據集中所有名詞進行關鍵詞抽取,得到抽取結果K2集合;
(4.8)最后使用LDA主題模型對D7企業整合數據集中所有名詞進行關鍵詞抽取,得到抽取結果K3集合;
(4.9)對抽取出的K1、K2和K3關鍵詞集合進行合并,得到關鍵詞集合K,其中K={W1,W2,…,Wi,…,Wlen(D7)},Wi為單個企業關鍵詞集合,ilen(D7);
(4.10)將抽取出的關鍵詞Wi作為分類延深后第二層的延深標簽;
(4.11)統計獲得的標簽,按照層次關系為企業打上所有標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011303829.0/1.html,轉載請聲明來源鉆瓜專利網。





