[發(fā)明專利]一種知識圖譜動態(tài)更新方法及其終端在審
| 申請?zhí)枺?/td> | 202310074337.6 | 申請日: | 2023-01-16 |
| 公開(公告)號: | CN116108201A | 公開(公告)日: | 2023-05-12 |
| 發(fā)明(設計)人: | 吳弘毅;林永清;劉添強;戴詩琪;吳閩帆 | 申請(專利權(quán))人: | 四創(chuàng)科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/23;G06F16/28;G06F16/215;G06F16/242 |
| 代理公司: | 福州市博深專利事務所(普通合伙) 35214 | 代理人: | 謝子能 |
| 地址: | 350000 福建省福州市晉安*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 圖譜 動態(tài) 更新 方法 及其 終端 | ||
本發(fā)明公開一種知識圖譜動態(tài)更新方法及其終端,包括以下步驟:S1、更新數(shù)據(jù)源并捕獲更新信息,將捕獲的所述更新信息存入消息隊列;S2、提取所述更新信息,并清洗和篩選數(shù)據(jù),將數(shù)據(jù)映射到實體關系中;S3、根據(jù)所述實體關系更新知識圖譜,判斷是否更新成功;S4、若更新失敗,則將更新失敗的數(shù)據(jù)存入重試隊列,并重復執(zhí)行步驟S2、S3,直至更新成功,完成知識圖譜的更新。從而避免更新過程中產(chǎn)生延遲,并且使得所有數(shù)據(jù)只需要處理一次,同時也不會遺漏或重復抽取內(nèi)容,進一步地適用于需要低延遲更新知識圖譜的場景中。
技術領域
本發(fā)明涉及知識圖譜更新技術領域,特別是涉及一種知識圖譜動態(tài)更新方法及其終端。
背景技術
知識圖譜的更新側(cè)重修訂知識,提高準確性;知識圖譜的補全側(cè)重擴充知識,提高知識容量;知識圖譜的集成是以上兩種工作起到的實際效果,本質(zhì)上是實現(xiàn)了信息的集成。
動態(tài)更新是為了在不影響知識圖譜使用的前提下,集成最新的數(shù)據(jù),如智慧水利、應急響應系統(tǒng)中,實時更新水位、雨量、道路積水、物質(zhì)儲備信息,避免因為滯后信息影響決策指揮,在傳統(tǒng)的集成方案中,使用ETL的模式,即數(shù)據(jù)批量抽取(Extract)→處理轉(zhuǎn)換(Transform)→裝載(Load)。在抽取步驟中,每隔一定窗口周期(1秒乃至1天)向數(shù)據(jù)源發(fā)起查詢,獲取該窗口期內(nèi)的新增的數(shù)據(jù),或者給數(shù)據(jù)增加修改時間字段,通過該字段來獲取到修改和新增的數(shù)據(jù)。這會造成對數(shù)據(jù)源的侵入,對于無法控制數(shù)據(jù)源的場景,無法使用這個方法。
同時為了保證不遺漏數(shù)據(jù),有時候還要向前回溯,抽取已經(jīng)抽取過的內(nèi)容。這個方法難以處理數(shù)據(jù)源里被刪除的數(shù)據(jù),因為無法抽取到已經(jīng)不存在的記錄。在處理轉(zhuǎn)換步驟中,處理包含了數(shù)據(jù)處理和知識圖譜的操作,如數(shù)據(jù)的統(tǒng)計維度對齊,計量單位對齊,知識圖譜層面的實體對齊,共指消歧等等。轉(zhuǎn)換步驟則是把數(shù)據(jù)格式轉(zhuǎn)成通用的三元組或知識圖譜平臺指定的導入格式。裝載步驟的常見方案有通過知識圖譜底層的圖數(shù)據(jù)庫的管理工具進行數(shù)據(jù)導入,或者通過編程實現(xiàn)的API接口進行更新,由此將知識更新到知識圖譜平臺。
傳統(tǒng)方案中存在操作上的延遲,延遲來自抽取數(shù)據(jù)的窗口周期、抽取批量數(shù)據(jù)時數(shù)據(jù)源的響應時間和數(shù)據(jù)傳輸時間,并可能遺漏內(nèi)容,所以常常需要在抽取時向前回溯一段,從而抽取到部分重復內(nèi)容。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題是:提供一種知識圖譜動態(tài)更新方法及其終端,使得所有數(shù)據(jù)只需要處理一次,也不會遺漏或重復抽取內(nèi)容。
為了解決上述技術問題,本發(fā)明采用的一種技術方案為:
一種知識圖譜動態(tài)更新方法,包括以下步驟:
S1、更新數(shù)據(jù)源并捕獲更新信息,將捕獲的所述更新信息存入消息隊列;
S2、提取所述更新信息,并清洗和篩選數(shù)據(jù),將數(shù)據(jù)映射到實體關系中;
S3、根據(jù)所述實體關系更新知識圖譜,判斷是否更新成功;
S4、若更新失敗,則將更新失敗的數(shù)據(jù)存入重試隊列,并重復執(zhí)行步驟S2、S3,直至更新成功,完成知識圖譜的更新。
為了解決上述技術問題,本發(fā)明采用的另一種技術方案為:
一種知識圖譜動態(tài)更新終端,包括存儲器、處理器以及存儲在所述存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述的一種知識圖譜動態(tài)更新方法中的各個步驟。
本發(fā)明的有益效果在于:提供一種知識圖譜動態(tài)更新方法及其終端,運用大數(shù)據(jù)中的實時流處理技術,以分布式消息隊列和流處理平臺作為消費者,避免來自抽取數(shù)據(jù)的窗口周期、抽取批量數(shù)據(jù)時數(shù)據(jù)源的響應時間和數(shù)據(jù)傳輸時間產(chǎn)生的延遲,并且使得所有數(shù)據(jù)只需要處理一次,同時也不會遺漏或重復抽取內(nèi)容。適用于需要低延遲更新知識圖譜的場景中,尤其適用于臺風知識圖譜的動態(tài)更新。
附圖說明
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四創(chuàng)科技有限公司,未經(jīng)四創(chuàng)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310074337.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





