[發(fā)明專利]一種面向公共安全領(lǐng)域的多源異構(gòu)數(shù)據(jù)實(shí)體對(duì)齊方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010587383.2 | 申請(qǐng)日: | 2020-06-24 |
| 公開(公告)號(hào): | CN111753024A | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 魏忠誠(chéng);張潔瀅;趙繼軍;王超;陳湘國(guó);生龍;任丹萍;李志華 | 申請(qǐng)(專利權(quán))人: | 河北工程大學(xué) |
| 主分類號(hào): | G06F16/28 | 分類號(hào): | G06F16/28;G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 河北東尚律師事務(wù)所 13124 | 代理人: | 王文慶 |
| 地址: | 056038 河北省邯鄲*** | 國(guó)省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 公共安全 領(lǐng)域 多源異構(gòu) 數(shù)據(jù) 實(shí)體 對(duì)齊 方法 | ||
本發(fā)明公開了一種面向公共安全領(lǐng)域的多源異構(gòu)數(shù)據(jù)實(shí)體對(duì)齊方法,屬于數(shù)據(jù)融合處理領(lǐng)域。其包括以下步驟:獲取公共安全領(lǐng)域多個(gè)系統(tǒng)基礎(chǔ)數(shù)據(jù);抽取多源異構(gòu)數(shù)據(jù)實(shí)體及關(guān)系信息;提取實(shí)體屬性信息為三元組形式;結(jié)合第三方知識(shí)庫(kù),計(jì)算實(shí)體屬性權(quán)重大??;對(duì)實(shí)體屬性信息進(jìn)行詞級(jí)別和句級(jí)別向量訓(xùn)練;獲取實(shí)體關(guān)系鄰接矩陣,使用圖嵌入模型訓(xùn)練獲得實(shí)體結(jié)構(gòu)嵌入向量表示;通過(guò)實(shí)體名稱進(jìn)行初步實(shí)體對(duì)齊作為對(duì)齊種子;在屬性權(quán)重約束下聯(lián)合實(shí)體結(jié)構(gòu)信息,計(jì)算實(shí)體相似度,通過(guò)SameAs進(jìn)行相似實(shí)體鏈接。本發(fā)明不依賴于已對(duì)齊實(shí)體對(duì)種子,可以根據(jù)需求對(duì)齊兩個(gè)或多個(gè)系統(tǒng)所需數(shù)據(jù),能夠?qū)崿F(xiàn)公共安全領(lǐng)域不同部門、不同場(chǎng)景上數(shù)據(jù)的融合互通。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)融合處理技術(shù)領(lǐng)域,具體來(lái)說(shuō)是指一種面向公共安全領(lǐng)域的多源異構(gòu)數(shù)據(jù)實(shí)體對(duì)齊方法。
背景技術(shù)
公共安全領(lǐng)域具有多樣化場(chǎng)景服務(wù),同時(shí)產(chǎn)生大量多源異構(gòu)數(shù)據(jù)。融合公共安全領(lǐng)域數(shù)據(jù)應(yīng)用在多個(gè)方面都具有重要意義,如防止事故災(zāi)難、預(yù)防自然災(zāi)害、輔助交通管理,打擊違法犯罪等。由于公共安全數(shù)據(jù)的不同場(chǎng)景、不同部門存儲(chǔ),單一部門數(shù)據(jù)信息覆蓋率低,無(wú)法支撐應(yīng)用層操作;不同數(shù)據(jù)集間存在較大冗余性和差異性,但是系統(tǒng)間數(shù)據(jù)異構(gòu)性強(qiáng),不易于共享與集成。如何實(shí)現(xiàn)不同系統(tǒng)的知識(shí)融合,合理高效的使用數(shù)據(jù)是公共安全領(lǐng)域應(yīng)用的迫切需求。其中,實(shí)體對(duì)齊是首要的關(guān)鍵技術(shù)。
實(shí)體對(duì)齊也叫實(shí)體匹配,用來(lái)協(xié)調(diào)不同數(shù)據(jù)源之間的差異,是判斷相同或不同數(shù)據(jù)集中兩個(gè)實(shí)體是否指向真實(shí)世界同一對(duì)象的處理過(guò)程,能夠解決數(shù)據(jù)集中實(shí)體的復(fù)用問(wèn)題,進(jìn)而支持知識(shí)推理等上層應(yīng)用。實(shí)體對(duì)齊最傳統(tǒng)的方法是基于映射技術(shù),該方法擴(kuò)展性較差,而且只考慮一種類型的實(shí)體,不具備普遍適用性;基于屬性相似度匹配方法,這些方法依賴實(shí)體的外部信息,如Wikipedia的鏈接,需要人工設(shè)計(jì)屬性匹配規(guī)則,因此,該方法需要耗費(fèi)大量人力,而且難以在多領(lǐng)域空間遷移;之后加入屬性權(quán)重,但只考慮了屬性范圍,未考慮屬性權(quán)重;基于聚類思想的方法,只考慮了屬性值字符串層面的相似度,忽略了語(yǔ)義層面的信息;近年來(lái),基于表示學(xué)習(xí)的實(shí)體對(duì)齊算法逐漸成為主流,這類方法將實(shí)體和關(guān)系映射到低維向量空間,但是僅對(duì)語(yǔ)義信息進(jìn)行了建模,忽略了實(shí)體的屬性等相關(guān)信息。
因此,現(xiàn)有技術(shù)中的實(shí)體對(duì)齊方法還有待改進(jìn),而且如何提高實(shí)體對(duì)齊精確度,并將其應(yīng)用到公共安全領(lǐng)域,已經(jīng)成為急需解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中公共安全領(lǐng)域數(shù)據(jù)量大難以高效利用的缺陷,提供一種面向公共安全領(lǐng)域的多源異構(gòu)數(shù)據(jù)實(shí)體對(duì)齊方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
一種面向公共安全領(lǐng)域的多源異構(gòu)數(shù)據(jù)實(shí)體對(duì)齊方法,包括以下步驟:
(1)獲取公共安全多源異構(gòu)數(shù)據(jù),所述公共安全多源異構(gòu)數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);
(2)對(duì)公共安全多源異構(gòu)數(shù)據(jù)進(jìn)行實(shí)體識(shí)別及關(guān)系抽取,得到實(shí)體關(guān)系,每個(gè)實(shí)體關(guān)系表示為一個(gè)三元組形式;
(3)對(duì)公共安全多源異構(gòu)數(shù)據(jù)進(jìn)行屬性信息提取,得到實(shí)體屬性,每個(gè)實(shí)體屬性表示為一個(gè)三元組形式;
(4)對(duì)步驟(3)得到的實(shí)體屬性進(jìn)行預(yù)處理,計(jì)算屬性權(quán)重;
(5)訓(xùn)練一個(gè)知識(shí)庫(kù)中實(shí)體屬性的詞向量,根據(jù)訓(xùn)練結(jié)果,得到其他知識(shí)庫(kù)的詞向量表示,進(jìn)而得到數(shù)據(jù)集中屬性值的句級(jí)別向量;
(6)獲取鄰接矩陣,使用只有前向傳播的Att_GCN模型學(xué)習(xí)實(shí)體的結(jié)構(gòu)信息,采用兩層卷積結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練實(shí)體結(jié)構(gòu)向量,并加入注意力機(jī)制加強(qiáng)訓(xùn)練結(jié)果的準(zhǔn)確性;
(7)進(jìn)行初步實(shí)體對(duì)齊并將結(jié)果作為對(duì)齊種子;
(8)計(jì)算實(shí)體距離打分函數(shù);
(9)根據(jù)種子對(duì)齊訓(xùn)練實(shí)體對(duì)齊模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河北工程大學(xué),未經(jīng)河北工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010587383.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng)
- 用于電網(wǎng)的多源異構(gòu)數(shù)據(jù)處理方法及裝置
- 一種配用電數(shù)據(jù)的處理方法及系統(tǒng)
- 一種面向水下探測(cè)的多源異構(gòu)數(shù)據(jù)預(yù)處理方法及系統(tǒng)
- 一種基于深度學(xué)習(xí)的綜采工作面多源異構(gòu)數(shù)據(jù)融合方法
- 基于業(yè)務(wù)規(guī)則的多源異構(gòu)數(shù)據(jù)表示與分發(fā)方法、裝置
- 一種基于邊緣計(jì)算的電力異構(gòu)數(shù)據(jù)處理方法
- 適用于多源異構(gòu)電網(wǎng)的運(yùn)行方式拓?fù)浣Y(jié)構(gòu)特征提取方法
- 一種多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)方法
- 一種多源異構(gòu)數(shù)據(jù)的描述方法、解析方法及裝置





