[發明專利]一種基于知識圖譜的集成電路產業鏈識別方法及系統在審
| 申請號: | 202011043221.9 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112115277A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 陳青山;許國良;蔣淵洋;鄧楊;高宏華 | 申請(專利權)人: | 中國建設銀行股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06Q10/04;G06Q10/06;G06F40/279;G06N20/00 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 賈磊;李輝 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 集成電路 產業鏈 識別 方法 系統 | ||
1.一種基于知識圖譜的集成電路產業鏈識別方法,其特征在于,包括:
建立集成電路產業鏈本體模型;
建立集成電路行業關系圖譜;
根據所述集成電路產業鏈本體模型和所述集成電路行業關系圖譜,建立用于識別企業是否屬于集成電路一級行業的識別模型;
根據所述識別模型,確定待識別的企業是否屬于集成電路一級行業。
2.根據權利要求1所述的方法,其特征在于,所述的建立集成電路產業鏈本體模型,具體包括:
建立集成電路產業鏈本體模型,所述集成電路產業鏈本體模型包括:兩種實體和兩種關系;所述兩種實體包括:行業和企業;所述兩種關系包括:父子行業關系、企業和行業關系。
3.根據權利要求1所述的方法,其特征在于,所述的建立集成電路行業關系圖譜,具體包括:
根據行業分類標準,建立集成電路行業實體,所述集成電路行業實體包括一級行業和二級行業,并且建立行業之間的父子行業關系,形成集成電路行業關系圖譜。
4.根據權利要求1-3中任一項所述的方法,其特征在于,所述的建立用于識別企業是否屬于集成電路一級行業的識別模型,具體包括:
根據工商數據,建立二分類機器學習識別模型,以識別企業是否屬于集成電路一級行業。
5.根據權利要求4所述的方法,其特征在于,所述的根據工商數據,建立二分類機器學習識別模型,以識別企業是否屬于集成電路一級行業,具體包括:
正負樣本定義:從包括人工標記的企業數據和工商企業數據的數據源中獲取正樣本和負樣本;所述正樣本對應的行業標簽為集成電路一級行業標簽,所述負樣本對應的行業標簽不是集成電路一級行業標簽;
特征處理:對包括正樣本和負樣本在內的第一樣本數據進行數據特征預處理,所述的數據特征預處理是指對文本特征數據進行向量化處理;其中,所述向量化處理包括:
利用分詞算法對企業經營描述文本進行分詞處理;
利用停用詞表對分詞處理獲得的單詞進行停用詞過濾處理;
利用word_to_ix編碼表對企業經營描述文本中所有出現過的單詞進行編號處理;所述的word_to_ix編碼表用于將漢語文本數據編碼成1~N數字的索引表;利用word_to_ix編碼表中的編號,替換經過分詞處理和停用詞過濾處理后的企業經營描述文本的對應單詞;
對文本編碼化處理后的企業經營描述文本進行文本長度截斷處理和填補處理,以使得處理后的每個企業經營描述文本包括相同數量的詞匯;
對經過文本長度截斷處理和填補處理后得到的數據進行文本向量化處理,形成二維矩陣;
得到包括所述正樣本、所述負樣本和所述二維矩陣在內的第二樣本數據后,將所述第二樣本數據按照預設的比例劃分為訓練集和測試集;
模型訓練:根據分類算法、所述訓練集和所述測試集進行集成電路二分類機器學習識別模型訓練,通過網格搜索法對多個超參數進行迭代,確定所述多個超參數的最佳配置組合。
6.根據權利要求5所述的方法,其特征在于,所述分類算法包括:Xgboost分類算法、邏輯回歸分類算法、或者隨機森林分類算法。
7.根據權利要求1或5所述的方法,其特征在于,還包括:建立識別集成電路二級行業的多分類模型;根據所述多分類模型,確定待識別的企業所屬于的集成電路行業的二級行業。
8.根據權利要求7所述的方法,其特征在于,所述的建立識別集成電路二級行業的多分類模型,具體包括:
根據文本匹配法,識別企業所屬的集成電路二級行業標簽,作為機器學習多分類模型的訓練樣本;
根據機器學習多分類方法和所述訓練樣本,建立用于識別企業所屬的集成電路行業的二級行業的多分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國建設銀行股份有限公司,未經中國建設銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011043221.9/1.html,轉載請聲明來源鉆瓜專利網。





