[發明專利]一種實體對象的動態多屬性匹配方法有效
| 申請號: | 202110475662.4 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113297213B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 楊雄軍;田群;寧希;吳元立;崔子騰;戴永恒 | 申請(專利權)人: | 軍事科學院系統工程研究院網絡信息研究所;電科云(北京)科技有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/28;G06F18/22;G06F18/214 |
| 代理公司: | 北京眾元弘策知識產權代理事務所(普通合伙) 11462 | 代理人: | 宋磊 |
| 地址: | 100141 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 對象 動態 屬性 匹配 方法 | ||
本發明屬于計算機領域,特別是一種實體對象的動態多屬性匹配方法。本發明在預處理階段即實現字段類型的標記,利用字段標記進行相似性計算函數的選擇,差異化、針對性的相似性計算函數能夠大幅提升相似性計算過程的精度。本發明使用動態熵權法進行權重調整,實現復雜實體在屬性缺失、屬性增加變化的場景下的權重衡量的統一,不會因為實體屬性的缺失、增加變化導致相似性計算函數出現較大范圍的波動和偏差,并保留主要的屬性特征。本發明采用三角形不等式進行二級分區索引。雙索引結構能夠在原有的分區索引結構上優化實體匹配的搜索空間,減少不必要的匹配過程,從而大幅度提高大規模數據場景下的實體對齊過程。
技術領域
本發明屬于計算機領域,特別是一種實體對象的動態多屬性匹配方法、平臺和計算機可讀存儲介質,可應用于從大數據中進行實體對象的挖掘與提取過程,以及實現知識融合過程,實現知識圖譜領域中的實體對象匹配對齊。
背景技術
傳統的實體對齊需把來源不同的數據中相同實體實現一一映射,其中映射的依據主要依靠實體的多種不同的屬性。實體對齊主要有兩種技術路線,基于分庫索引與相似度計算的傳統路線,以及采用表示學習模型的圖嵌入方法。
其中,采用傳統的實體對齊方法關鍵在于分區索引技術與相似度計算函數,高效的分區索引技術是大規模知識庫進行實體對齊的必要條件,而相似性計算函數則是對齊精度的保證。在屬性對齊過程,不同的特征屬性通常采用不同的相似性計算函數,這與自然語言處理領域相似性的判斷截然不同,如物資規格的相似性計算通常需要涉及更為精確的業務規則。
采用表示學習模型的圖嵌入實體對齊,在計算效率上通常具有更好的表現。知識表示學習通過將實體和關系映射到向量空間,簡化了計算過程,同時相似性也可以通過損失函數等形式進行表示。但表示學習模型的實體對齊計算在大規模數據集以及高精度的實體對齊場景仍然面臨巨大的挑戰,如年齡、性別、喜好等具有特定領域特征的屬性時,表示學習模型仍難以有效表達。
發明內容
本發明的目的在于從傳統的實體對齊方法出發實現動態多屬性匹配,以及在分區索引的基礎上利用三角不等式關系減少實體對齊過程中的搜索空間,從相似性計算精度和分區索引效率兩方面改進了現有的實體對齊方法,通過動態多屬性匹配過程,使得實體對齊方法可以適應屬性缺失、屬性動態變化等復雜的應用場景。
為實現上述目的,本發明提供了一種實體對象的動態多屬性匹配方法,包括步驟:
S1,對第一實體對象數據集進行歸一化處理;
該步驟中,針對第一實體對象數據集,根據實體屬性的類型進行歸一化處理,所述實體屬性的類型包括整型、浮點數型、布爾型、字符串型、日期型以及枚舉型,所述歸一化處理的規則具體是:
(1)如果實體屬性的類型是枚舉類型的數據,那么對第一實體對象數據集中包含該實體屬性的實體對象進行一致性檢查和校正處理;
(2)如果實體屬性的類型是整型、浮點數型、布爾型、字符串型或日期型的數據,那么對第一實體對象數據集中包含該實體屬性的實體對象進行剔除無效值和缺失值補全處理;
(3)對實體對象數據集中的實體屬性打上標記,根據該標記查詢就能找到該實體屬性對應的預先設定的相似度計算函數S(a,b),k,其中,S(a,b),k表示實體對象a與實體對象b在第k個實體屬性上的相似度;
S2,計算第一實體對象數據集中每個實體屬性的信息熵,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于軍事科學院系統工程研究院網絡信息研究所;電科云(北京)科技有限公司,未經軍事科學院系統工程研究院網絡信息研究所;電科云(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110475662.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種緊縮場測量系統
- 下一篇:一種基于音圈元件的排氣裝置及方法





