[發明專利]面向多模異構特征的實體識別方法及裝置有效
| 申請號: | 201910435097.1 | 申請日: | 2019-05-23 |
| 公開(公告)號: | CN110188148B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 周小平 | 申請(專利權)人: | 北京建筑大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/2458 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王慶龍;苗曉靜 |
| 地址: | 100044*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 多模異構 特征 實體 識別 方法 裝置 | ||
本發明提供一種面向多模異構特征的實體識別方法及裝置,方法包括:將第一數據中第一實體之間的關系和第二數據中第二實體之間的關系進行融合,獲取關系特征融合結果;根據預設實體類型的第一實體生成第一數據的異構特征矩陣,根據預設實體類型的第二實體生成第二數據的異構特征矩陣,對第一數據的異構特征矩陣和第二數據的異構特征矩陣進行融合,獲取異構特征融合結果;計算第一實體和第二實體的屬性特征之間的相似度,生成屬性特征相似度矩陣;根據關系特征融合結果、異構特征融合結果和屬性特征相似度矩陣進行關聯實體挖掘,確定關聯實體。本發明實施例不需要先驗知識,泛化能力強,提升了關聯實體挖掘的質量。
技術領域
本發明實施例屬于數據挖掘技術領域,更具體地,涉及一種面向多模異構特征的實體識別方法及裝置。
背景技術
建筑全生命周期過程中會產生大量分散的數據,數據融合是最大程度發揮大數據價值的一種手段。通過關聯實體挖掘實現分散、孤立數據的有機融合,保證了建筑數據的一致性和完整性,是解決建筑工程所存在“信息孤島”和“信息斷層”等問題和提升數據價值的有效方法。例如,階段1,MA和MB分別為不同工具生成的數據并已建立關聯;階段2,MA升級為版本2后,建立MA版本2和MB版本1的數據關聯能避免階段1和階段2數據產生“數據斷層”,形成“數據孤島”。
關聯實體是指不同數據中指代真實世界相同對象的實體,關聯實體挖掘旨在無先驗條件下準確、全面、快速地發現不同數據間的關聯實體。通常,數據M可表示為實體集合E及實體間關系集合R的組合,即M=(E,R)。給定兩個數據MA=(EA,RA)和MB=(EB,RB),若EAi∈EA和EBj∈EB指代真實世界中的相同對象,則稱EAi和EBj為關聯實體,記EAi=EBj;否則EAi≠EBj。關聯實體挖掘是指通過MA和MB中的數據特征發現兩者之間所有關聯實體的方法。通常,關聯實體挖掘轉化為判定EAi∈EA和EBj∈EB是否為關聯實體,也即
關聯實體挖掘旨在準確、全面和快速地發現兩個數據中的所有關聯實體。無疑,基于實體唯一標識UUID的關聯實體挖掘是最簡單、最準確的方法;然而,不同工具維護不同的UUID,甚至不同版本的同一工具所形成的UUID也不同。因此,現有方法大都使用數據中所包含的實體特征進行關聯實體挖掘。現階段,大多數的關聯實體挖掘都基于幾何屬性匹配、手工標注或者文本屬性建模。基于幾何屬性匹配的關聯實體挖掘方法雖然能夠檢測兩個模型之間的三維異同,然而該類方法只從幾何形狀上識別模型差異,很難應用于引用和繼承等關系復雜的關聯實體挖掘,且無法識別無幾何形狀的實體。因此,這些方法都只能挖掘一部分的關聯實體。手工標注的關聯實體挖掘主要用于版本變更管理。該類方法通過建立變更管理系統,以用于變更管理、評價變更對項目的影響等。該類方法的效果依賴于變更關系模型的構建質量和人工變更標記的精確度,人工工作量繁重且易出錯。
關聯實體挖掘還同自然語言處理中的語言翻譯、知識庫中的實體對齊、數據庫記錄鏈接、實體匹配、信息檢索中的命名辨別、社會網絡關聯用戶挖掘、二分圖匹配和生物信息中的同構網絡對齊等的研究相似或相關。然而,這些方法在關聯實體挖掘上都有一定的局限性,具體表現為:(1)許多方法都需要有部分先驗關聯實體,而后采用有監督或半監督學習從先驗關聯實體中挖掘關聯實體,這些方法較難直接應用于無法獲取先驗關聯實體的關聯實體挖掘。(2)大多數方法都為特定領域設計,大多適用于單模或同構的場景,這些方法也無法直接應用于多模異構特征下的關聯實體挖掘。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京建筑大學,未經北京建筑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910435097.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于知識圖譜的文獻實體關系發現方法及系統
- 下一篇:一種數據倉庫系統





