[發明專利]一種企業曾用名識別方法、系統、介質及設備在審
| 申請號: | 201910901339.1 | 申請日: | 2019-09-23 |
| 公開(公告)號: | CN110705297A | 公開(公告)日: | 2020-01-17 |
| 發明(設計)人: | 柏楊 | 申請(專利權)人: | 北京海致星圖科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/36 |
| 代理公司: | 11589 北京勁創知識產權代理事務所(普通合伙) | 代理人: | 張鐵蘭 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預處理 企業實體 維度 圖譜 抽取 抓取 候選集合 單一性 網站 互聯網 | ||
本發明涉及一種企業曾用名識別方法、系統、介質及設備,其中的方法包括:對從知識圖譜中獲取的企業實體數據進行預處理:從企業的至少一個維度對經過預處理的企業實體數據中的企業曾用名進行抽取,生成第一企業曾用名候選集合。本發明從知識圖譜中企業的多個維度對企業曾用名進行抽取,擴大了企業曾用名信息的來源,解決了單從互聯網抓取網站里登記的企業曾用名而進行企業合并的單一性。
技術領域
本發明涉及企業知識圖譜領域,具體涉及一種企業曾用名識別方法、系統、介質及設備。
背景技術
由于企業名稱的頻繁變動,而在企業知識圖譜中,變更名稱前后的企業應該歸納為同一個節點,所以必須有一種方法可以在圖譜中識別變更前后的兩個企業節點,也就是需要識別出圖譜中企業的曾用名。現有的方法大多數是基于從互聯網中抓取人工登記的信息的方法,該方法覆蓋范圍有限,沒有識別和擴展功能。
發明內容
針對上述技術問題,本發明提供一種企業曾用名識別方法、系統、介質及設備。
本發明解決上述技術問題的技術方案如下:一種企業曾用名識別方法,包括:
對從知識圖譜中獲取的企業實體數據進行預處理:
從企業的至少一個維度對經過預處理的企業實體數據中的企業曾用名進行抽取,生成第一企業曾用名候選集合。
本發明的有益效果是:從知識圖譜中企業的多個維度對企業曾用名進行抽取,擴大了企業曾用名信息的來源,解決了單從互聯網抓取網站里登記的企業曾用名而進行企業合并的單一性。
在上述技術方案的基礎上,本發明還可以做如下改進。
進一步,所述從企業的至少一個維度對經過預處理的企業實體數據中的企業曾用名進行抽取,生成第一企業曾用名候選集合,具體包括:
從互聯網中抓取企業曾用名;和/或
從企業名稱變更信息中提取出變更前企業名稱和變更后的企業名稱,將所述變更前企業名稱和變更后的企業名稱中與當前企業名稱不一致的企業名稱作為企業曾用名;和/或
從社會統一信用代碼相同的企業名稱提取出企業曾用名;和/或
從由企業和自然人構成的點集合、點與點之間的關系構成的邊集合構成的圖譜中,具有同樣關系二度關聯的企業對應的企業名稱中提取出企業曾用名;
將所有的企業曾用名去重,加入第一企業曾用名候選集合。
進一步,還包括:
按照預設規則對所述第一企業曾用名候選集合中的企業曾用名進行過濾。
采用上述進一步方案的有益效果是,使用規則對抽取出的曾用名進行判別,減少了企業曾用名的誤判,提高識別的精確率。
進一步,還包括:
將被過濾掉的企業曾用名加入第二企業曾用名候選集合;
將所述第二企業曾用名候選集合中的企業曾用名與企業現用名進行相似度計算;
將與企業現用名的相似度大于預設閾值的所述第二企業曾用名候選集合中的企業曾用名加入所述第一企業曾用名候選集合。
采用上述進一步方案的有益效果是,對企業名稱之間的相似度進行計算,使用計算的結果對被過濾掉的曾用名進行判斷,對其中滿足相似度要求的企業曾用名進行召回,從而在企業曾用名判斷的精確率和召回率之間達到一個平衡。
為實現上述發明目的,本發明還提供一種企業曾用名識別系統,包括:
預處理模塊,用于對從知識圖譜中獲取的企業實體數據進行預處理:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京海致星圖科技有限公司,未經北京海致星圖科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910901339.1/2.html,轉載請聲明來源鉆瓜專利網。





