[發明專利]企業自然人實體綜合判斷對齊方法及系統在審
| 申請號: | 201911424404.2 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111241153A | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 李煥;劉世林;羅鎮權;張發展;康青楊;吳桐;曾途 | 申請(專利權)人: | 成都數聯銘品科技有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610093 四川省成都市武侯*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 企業 自然人 實體 綜合 判斷 對齊 方法 系統 | ||
本發明涉及企業自然人實體綜合判斷對齊方法及系統;本發明方法及系統引入機器學習方法,綜合多個企業投資數據特征,對不同企業的重要同名自然人是否是同一自然人做出準確的判斷。選取企業投資路徑的遠近來作為判斷相同姓名自然人是否是同一人的主要判斷依據之一,充分使用企業投資數據的本來特性,同時借助企業名稱、企業地址以及同名自然人數量等綜合特征來構建模型。集成多個特征相互配合共同得出計算結果,判斷結果準確率非常高;為企業自然人實體對齊提供十分重要且有效的方法。
技術領域
本發明涉及自然語言處理技術領域,特別涉及企業自然人實體綜合判斷對齊方法及系統。
背景技術
隨著大數據技術的發展,對于不同數據源中的自然人是否是同一的判斷越來越重要;自然人重名的情況十分常見,再者現實生活中,經常出現同一自然人投資多家企業的情況。大數據技術中,將企業和股東、高管等信息抽離出來建立起知識圖譜,對于市場調查,投資分析,金融監管等領域有十分重要的應用。當將多個數據源中的信息提取出來時進行關聯分析時,身份的唯一性識別就變得非常重要。比如說在繪制關聯圖譜時,如果不能判斷不同企業信息的自然人是同一個人,則不會將圖譜節點進行合并,會在一張圖譜中出現多個同名節點(這些節點事實上是同一個實體自然人),影響圖譜的推理分析能力。且同一人身份的判斷的準確性要求很高,不確定同名的兩個人是同一個人的情況下,貿然將不同的數據進行合并,則可能產生關聯網絡構建的錯誤。
目前識別企業間同名人的方法主要依賴于數據,如招聘數據、身份證數據。現有的情況是大多數數據來源都不會公布身份證信息;一則進行隱私保護,二則信息簡化;比如工商登記信息中不含有股東等人的身份證信息。或者從其他海量的非正式文本比如新聞、輿情等中獲取的數據中更不會含有身份證信息。因此面臨巨大的實體識別需求,急需一種準確高效的企業自然人實體唯一性識別方法。
發明內容
本發明的目的在于提供企業自然人實體綜合判斷對齊方法及系統;充分挖掘數據的關聯性,發揮數據集成分析的優勢;引入機器學習方法,綜合多個企業投資數據特征,對不同企業的重要同名自然人是否是同一自然人做出準確的判斷。
為解決上述技術問題,本發明實施例提供了以下技術方案:
企業自然人實體綜合判斷對齊方法,利用企業投資關系的遠近等特征來輔助判斷不同企業間相同姓名的自然人是否是同一人。當兩個企業投資關系度數小于設置閾值時,認為這兩個企業間相同姓名的自然人是同一人。本專利中自然人為企業的主要股東、董事、監事、高管等。
包含以下實現步驟:
(1)獲取企業數據,所述企業數據包含投資關系、主要相關自然人、企業地址、企業名稱;
(2)用包含企業間投資路徑、企業名稱相似性、企業地址相似性、同名自然人個數的特征向量來構建判斷模型;
(3)使用標注數據訓練模型;
(4)將待判定企業對之間的特征向量輸入到訓練后的模型中,由模型判斷出同名自然人是否是同一人的概率;當概率值大于設置閾值時判斷為同一人。
進一步的,所述步驟(2)中的投資路徑數據為兩企業之間的最短投資路徑。
進一步的,所述方法包含將投資路徑數據向量化轉化的過程。
進一步的,所述步驟(2)中所述特征向量為:x=[X1、X2、X3、X4…];
其中X為待判定企業對的特征向量數據,X1為最短投資路徑的倒數,X2為同名自然人個數、X3為企業名稱關鍵字的相似度、X4企業地址的相似度。
進一步的,所述模型公式為:
其中f(x)為不同企業同名人為同一人的概率;其中θ為模型需要訓練的參數,x為量化后的特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都數聯銘品科技有限公司,未經成都數聯銘品科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911424404.2/2.html,轉載請聲明來源鉆瓜專利網。





