[發明專利]全息城市大數據模型和知識圖譜的企業畫像構建方法有效
| 申請號: | 202011008544.4 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112131275B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 連德富;陳鋼 | 申請(專利權)人: | 長三角信息智能創新研究院 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/28;G06F16/25;G06F16/36;G06F16/35;G06F40/289 |
| 代理公司: | 北京潤平知識產權代理有限公司 11283 | 代理人: | 董杰 |
| 地址: | 241000 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 全息 城市 數據模型 知識 圖譜 企業 畫像 構建 方法 | ||
1.一種全息城市大數據模型和知識圖譜的企業畫像構建方法,其特征在于,包括企業全息數據模型構建、企業知識圖譜構建和企業標簽自動化提取;其中,
企業全息數據模型包括企業背景模型、企業風險模型、企業經營模型和知識產權模型,具體的:
企業背景模型包括企業的基本信息、股東信息、主要人員、分支機構和對外投資信息;
企業風險模型包括企業的工商變更、法院裁判文書、法院公告信息、法院失信信息、法院被執行人信息、行政處罰、清算信息、股權出質、動產抵押、經營異常、政府嚴重采購違法、稅務違法信息和工商的經營異常信息;
企業經營模型包括企業的招投標信息、抽查檢查信息、資質證書、行政許可和招聘信息;
構建企業全息數據模型包括對政務大數據和互聯網大數據加以融合,包括:
步驟a1、利用數據采集工具自動獲取全國企業信用信息公示系統企業基本屬性數據和事項數據、多個省份及其下屬地市的政務服務網涉企業務事項數據、中國裁判文書網企業涉訴事項數據、中國執行信息公開網企業被執行事項數據、各地市公共資源交易網事項數據、信用中國紅黑榜事項數據和國家知識產權局事項數據;
步驟a2、自動化獲取步驟a1中的數據到本地,使用xpath和BeautifulSoup以及JSON數據解析方法對網頁進行數據清洗和數據提取;
步驟a3、采用Bert模型訓練生成詞向量,計算對應文本詞向量的相似度,將步驟a2中的數據匹配到企業背景、企業風險、企業經營模型和知識產權全息數據模型中;
步驟a4、將步驟a2中提取的數據進行規整,通過pymysql技術連接到本地MySQL數據庫,將規整后的數據存入數據庫中;
步驟a5、對步驟a4存儲的數據,運用詞向量計算文本相似度,運用Bert模型訓練生成詞向量,計算基本屬性和事項詞向量的相似度,設定指定閾值,對政務大數據和互聯網大數據的基本屬性數據和事項數據進行融合;
步驟a6、將步驟a5中融合后的數據構造成字典形式(key:企業全息數據模型名稱,value:[企業事項1,企業事項2,……,企業事項n]),形成企業全息數據模型;
構建企業知識圖譜包括:
步驟b1、知識獲取,即從企業全息數據中采集和處理構建企業知識圖譜構所需要的數據集合;首先,定義企業實體、法人股東高管、產品和知識產權、司法風險、經營風險、企業變更事件、企業關系;其次,針對企業全息數據中已經獲取的結構化、半結構化或非結構化數據,利用信息抽取技術,結合領域知識優化中文分詞工具,進行初始的分詞及詞性標注;同時,選取自然語言處理算法模型,利用人工訓練的訓練數據進行模型訓練及優化,使用表現較好的模型作為分類器,將處理后的數據進行關系抽取;
步驟b2、知識融合,即將構建企業知識圖譜需要的數據分成基礎數據和擴展數據兩大類別;其中,基礎數據包括企業基本信息、法人、高管信息、投資信息以及它們之間已經存在的靜態關系數據;擴展數據包括企業專利數據、企業招投標數據、企業招聘數據、企業訴訟數據、企業失信數據和企業新聞數據;
步驟b3、知識存儲,采用MongoDB數據庫和Neo4j數據庫聯合存儲;其中,Neo4j主要作為企業知識圖譜知識庫的存儲,圖譜的一些擴展數據存儲在MongoDB數據庫中;最后,構建一個數據監聽增量式更新流程,用以實現企業知識圖譜的更新和維護;
企業標簽自動化提取包括:
步驟c1、將企業知識圖譜中事件文本摘要進行預處理,包括分詞和過濾掉停用詞;每個事件文本摘要T被分割成m個句子S,即T=[S1,S2,…,Sm];每個句子Si再被分詞成一個個詞語t,即Si=[ti1,ti2,…tin],其中tij∈Si是保留后的候選關鍵詞;
步驟c2、構建候選關鍵詞圖G=(V,E),其中V為節點集,是由步驟c1生成的候選關鍵詞組成,使用一個大小為5的窗口依次滑過這些關鍵詞,當任意兩個節點在這個窗口中共同出現的時候,在這兩點間連接一條邊;
步驟c3、迭代傳播各節點的權重,直至收斂;將得到的各節點權重值進行從從高到低排序,取Top5詞語作為企業標簽;
步驟c4、從企業全息數據模型中的原始指標出發,借助企業知識圖譜,引入步驟c3中所獲取的Top5標簽,在原始指標的基礎上擴展出新的標簽;借助企業知識圖譜挖掘出多個原始指標的共同屬性,并利用Apriori關聯規則挖掘算法將其泛化成一個共性標簽;
步驟c5、根據企業全息數據模型和標簽集合構建企業全息畫像,包括:基本屬性標簽、經營范圍標簽、行業標簽、司齡標簽、地域標簽、規模標簽、創新力標簽、競爭力標簽、發展潛力標簽、發展動力標簽、自身風險標簽、周邊風險標簽、預警提醒標簽和經營風險標簽。
2.根據權利要求1所述的全息城市大數據模型和知識圖譜的企業畫像構建方法,其特征在于,步驟b2包括:
步驟b21、對于基礎數據,首先,構建企業知識圖譜的模式圖,包含企業、法人、高管、投資這些頂層概念本體以及它們之間的關系;然后,將數據庫中的企業信息轉換為企業實體,法人和高管轉換為人物實體,并存入Neo4j圖數據庫構成圖節點;最后,抽取和分類實體之間的關系并存入圖數據庫構成關系邊,此時完成一個基本企業知識圖譜;
步驟b22、對于擴展數據,對步驟b1中所形成的關系進行實體鏈接、實體歧義消除、屬性決策處理,最終生成知識三元組表示;對于已經處理完成的數據,以圖的模型將其組織起來,也即形成一個三元組元關系(實體1,關系,實體2)、(實體,屬性,屬性值)和(關系,屬性,屬性值)數據集,并構建關系圖譜;并且,從非結構化文本數據中提取實體關聯關系的事件摘要說明,作為關聯圖譜的具體關聯描述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長三角信息智能創新研究院,未經長三角信息智能創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011008544.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種日志分析方法、裝置及電子設備
- 下一篇:一種混凝土阻泥劑組合物及其應用





