[發(fā)明專利]面向在線百科的知識(shí)庫(kù)自動(dòng)更新方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201410072608.5 | 申請(qǐng)日: | 2014-02-28 |
| 公開(kāi)(公告)號(hào): | CN103823879B | 公開(kāi)(公告)日: | 2017-06-16 |
| 發(fā)明(設(shè)計(jì))人: | 程學(xué)旗;王元卓;林海倫;賈巖濤;熊錦華;許洪波;馮凱 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京泛華偉業(yè)知識(shí)產(chǎn)權(quán)代理有限公司11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 在線 百科 知識(shí)庫(kù) 自動(dòng)更新 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)知識(shí)庫(kù),尤其涉及網(wǎng)絡(luò)知識(shí)庫(kù)自動(dòng)更新方法及系統(tǒng)。
背景技術(shù)
知識(shí)庫(kù)通常包含一組概念、實(shí)例和關(guān)系的集合,是結(jié)構(gòu)化、全面有組織的知識(shí)集群,是采用某種知識(shí)表示方式組織、管理和使用的互相聯(lián)系的知識(shí)集合。這些知識(shí)包括與領(lǐng)域相關(guān)的理論知識(shí)、事實(shí)數(shù)據(jù),由專家經(jīng)驗(yàn)得到的啟發(fā)式知識(shí),如某領(lǐng)域內(nèi)有關(guān)的定義、定理和運(yùn)算法則以及常識(shí)性知識(shí)等。在知識(shí)工程領(lǐng)域中,知識(shí)描述的要素一般包括概念、實(shí)例、關(guān)系和屬性四個(gè)要素。
近年來(lái),構(gòu)建知識(shí)庫(kù)是國(guó)內(nèi)外工業(yè)界開(kāi)發(fā)和學(xué)術(shù)界研究的一個(gè)熱點(diǎn),目前,世界各國(guó)各個(gè)組織建立的知識(shí)庫(kù)多達(dá)50余種,相關(guān)的應(yīng)用系統(tǒng)更是達(dá)到了上百種。其中,有代表性的知識(shí)庫(kù)有DBpedia、YAGO、Probase、WikiTaxonomy、Freebase、Omega等。知識(shí)庫(kù)之所以得到廣泛關(guān)注,原因在于知識(shí)庫(kù)在很多應(yīng)用中起到至關(guān)重要的作用,如在搜索引擎中,Google、Bing、百度、搜狗等使用知識(shí)庫(kù)幫助理解用戶查詢、感知用戶查詢意圖、進(jìn)行查詢擴(kuò)展和查詢問(wèn)答等;在Deep Web資源發(fā)現(xiàn)中,知識(shí)庫(kù)可以輔助進(jìn)行Deep Web查詢選擇;在社交網(wǎng)絡(luò)中,知識(shí)庫(kù)可以輔助挖掘社交數(shù)據(jù)等。
而在知識(shí)庫(kù)構(gòu)造中,在線百科(如Wikipedia、百度百科、互動(dòng)百科等)作為聚集互聯(lián)網(wǎng)用戶的群體智慧建立的大規(guī)模、隨時(shí)間演化、可分享的網(wǎng)絡(luò)百科全書,成為構(gòu)造知識(shí)庫(kù)首選的知識(shí)語(yǔ)料來(lái)源。在線百科知識(shí)語(yǔ)料,比起結(jié)構(gòu)性較弱的普通網(wǎng)頁(yè),其包含的百科詞條不僅具有較高的質(zhì)量而且可以保證所得到知識(shí)的精度,因此,在線百科數(shù)據(jù)成為構(gòu)造知識(shí)庫(kù)的重要語(yǔ)料來(lái)源,很多知識(shí)庫(kù)都是基于百科數(shù)據(jù)構(gòu)造的,如:DBpedia、YAGO、WikiTaxonomy、Omega等。然而,在線百科數(shù)據(jù)是隨時(shí)間不斷演化的,其在不斷的增加、刪除和修改,因此,為了保持知識(shí)庫(kù)的時(shí)新性,在最大程度上避免知識(shí)庫(kù)的滯后,需要不斷對(duì)知識(shí)庫(kù)進(jìn)行更新,以適應(yīng)用戶對(duì)知識(shí)的實(shí)時(shí)性的需求。知識(shí)庫(kù)的更新可分為兩個(gè)層面的工作:一是已有知識(shí)的更新;二是新的知識(shí)的加入。
目前,專門針對(duì)知識(shí)庫(kù)的更新的工作較少,很多工作都是從數(shù)據(jù)庫(kù)更新的角度展開(kāi),如對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù)的增加、刪除和修改等。從更新方式來(lái)講,知識(shí)庫(kù)的更新方法可分為兩類:一種是定期重建的方式,另一種是實(shí)時(shí)更新的方式。
a)定期重建的方式。該方式本質(zhì)上是一種離線更新的方式:按照知識(shí)庫(kù)構(gòu)造的方法,定期在知識(shí)語(yǔ)料源上重新執(zhí)行知識(shí)庫(kù)構(gòu)造流程,從而得到最新的知識(shí)庫(kù),這種方式雖然操作簡(jiǎn)單,但是仍然存在很多缺陷,例如,知識(shí)庫(kù)更新過(guò)程耗時(shí)長(zhǎng)、難以重用知識(shí)庫(kù)構(gòu)造過(guò)程中人工修正的工作、無(wú)法滿足適應(yīng)用戶對(duì)知識(shí)的時(shí)新性的需求。
b)實(shí)時(shí)更新的方式。該方式定期采集數(shù)據(jù)源,檢測(cè)數(shù)據(jù)源內(nèi)容的變化,將發(fā)生變化的內(nèi)容提供給領(lǐng)域?qū)<?,由人工判斷發(fā)生變化的內(nèi)容涉及哪些知識(shí),或者基于由專家制定的各種規(guī)則來(lái)判斷哪些知識(shí)發(fā)生了變化并將其同步到知識(shí)庫(kù)中,從而得到更新的知識(shí)庫(kù)。這種方式存在以下局限性:(1)難以編寫完備的規(guī)則表示知識(shí)的增加、刪除、修改等;(2)難以滿足用戶實(shí)時(shí)更新的需求。
綜上所述,目前,對(duì)知識(shí)庫(kù)的更新仍然沒(méi)有很有效的方法,尤其是在面對(duì)用戶對(duì)知識(shí)的實(shí)時(shí)性更新需求方面,遠(yuǎn)遠(yuǎn)達(dá)不到用戶的要求。在更新數(shù)據(jù)的自動(dòng)化感知方面,缺乏有效的辦法能夠自動(dòng)識(shí)別知識(shí)的變化,和能夠動(dòng)態(tài)響應(yīng)這些變化的更新機(jī)制。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種面向在線百科的知識(shí)庫(kù)自動(dòng)更新的方法。
本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
一方面,本發(fā)明提供了一種面向在線百科的知識(shí)庫(kù)自動(dòng)更新的方法,包括:
步驟1,實(shí)時(shí)監(jiān)控知識(shí)庫(kù)的知識(shí)語(yǔ)料來(lái)源,根據(jù)知識(shí)語(yǔ)料更新時(shí)間和知識(shí)語(yǔ)料內(nèi)容變化,獲取新增的知識(shí)語(yǔ)料與內(nèi)容改變的知識(shí)語(yǔ)料;
步驟2,從所獲取的知識(shí)語(yǔ)料識(shí)別其表示的知識(shí),其中所識(shí)別的知識(shí)包括實(shí)例、實(shí)例的屬性以及實(shí)例所屬的概念;
步驟3,基于所識(shí)別的知識(shí)來(lái)更新知識(shí)庫(kù)。
在上述技術(shù)方案中,在步驟1中,所述知識(shí)語(yǔ)料來(lái)源可包括定期備份的知識(shí)語(yǔ)料庫(kù),所述步驟1可包括:
從該知識(shí)語(yǔ)料庫(kù)的源網(wǎng)站獲取新的語(yǔ)料庫(kù)備份和語(yǔ)料庫(kù)修改歷史;
對(duì)于所獲取的新的語(yǔ)料庫(kù)備份中的每個(gè)知識(shí)語(yǔ)料,獲取該知識(shí)語(yǔ)料在語(yǔ)料庫(kù)修改歷史中第一次出現(xiàn)的時(shí)間和最后一次出現(xiàn)的時(shí)間,
如果所述第一次出現(xiàn)的時(shí)間大于與知識(shí)庫(kù)當(dāng)前使用的知識(shí)語(yǔ)料庫(kù)備份的時(shí)間,則確定該知識(shí)語(yǔ)料是新增的知識(shí)語(yǔ)料;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,未經(jīng)中國(guó)科學(xué)院計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410072608.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種用于治療急性乳腺炎的乳炎消膏及制備方法
- 下一篇:保毛脫毛法工藝
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用于呈現(xiàn)在線實(shí)體在線狀態(tài)的系統(tǒng)和方法
- 提供web服務(wù)接入的在線系統(tǒng)和方法
- 定制在線圖標(biāo)
- 一種水質(zhì)在線檢測(cè)預(yù)處理裝置
- 在線測(cè)試學(xué)習(xí)方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種在線文檔的分頁(yè)方法、裝置、設(shè)備以及可讀介質(zhì)
- 一種基于web在線學(xué)習(xí)的資源訪問(wèn)平臺(tái)
- 一種在線學(xué)習(xí)系統(tǒng)
- 在線文檔提交方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 空調(diào)冷媒量確定方法、系統(tǒng)和可讀存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)百科數(shù)據(jù)獲取方法及系統(tǒng)
- 網(wǎng)絡(luò)百科內(nèi)容形成方法、網(wǎng)絡(luò)服務(wù)器和客戶端
- 一種信息處理方法及終端
- 面向語(yǔ)義網(wǎng)的中文百科知識(shí)組織與集成方法
- 基于百科詞條構(gòu)建問(wèn)答知識(shí)庫(kù)數(shù)據(jù)項(xiàng)的方法和裝置
- 一種百科內(nèi)容輸入方法及系統(tǒng)
- 一種信息展示的方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 融合維基知識(shí)的變分半監(jiān)督百度百科分類方法
- 百科詞條的展示方法、裝置、設(shè)備、介質(zhì)及程序產(chǎn)品
- 一種信息處理的方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種專利文本自動(dòng)分析的系統(tǒng)及方法
- 基于知識(shí)的故障恢復(fù)支持系統(tǒng)
- 一種鐵磁諧振故障知識(shí)庫(kù)構(gòu)建方法
- 融合知識(shí)庫(kù)處理方法和裝置,以及知識(shí)庫(kù)管理系統(tǒng)
- 一種基于病理生理路徑的臨床知識(shí)庫(kù)系統(tǒng)
- 一種面向網(wǎng)絡(luò)安全的知識(shí)庫(kù)構(gòu)建方法
- 基于多知識(shí)庫(kù)推理的數(shù)據(jù)匹配決策方法及系統(tǒng)
- 一種語(yǔ)義知識(shí)庫(kù)構(gòu)建方法
- 基于人工智能的知識(shí)庫(kù)生成方法和智能機(jī)器人應(yīng)答方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)





