[發(fā)明專利]一種面向知識庫更新的實體細粒度分類方法與系統有效
| 申請?zhí)枺?/td> | 201510033050.4 | 申請日: | 2015-01-22 |
| 公開(公告)號: | CN104615687B | 公開(公告)日: | 2018-05-22 |
| 發(fā)明(設計)人: | 程學旗;王元卓;林海倫;賈巖濤;靳小龍;熊錦華;李曼玲;常雨驍;許洪波 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業(yè)知識產權代理有限公司 11280 | 代理人: | 王勇;李科 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 知識庫 更新 實體 細粒度 分類 方法 系統 | ||
本發(fā)明提供一種面向知識庫更新的實體細粒度分類方法與系統。所述方法包括:從文本中識別出實體;將識別出的實體、知識庫中與其相關的實體以及相關實體在知識庫中的分類作為結點構建依賴圖,其中依賴圖中的邊的權值表示該邊連接的兩個結點之間的相關程度;以及,通過在所述依賴圖上執(zhí)行重啟動隨機游走,得到識別出的實體所屬的分類。本發(fā)明能夠克服現有技術在實體上下文缺乏的情況下難以實現對該實體進行細粒度分類的缺陷,并且提高了實體細粒度分類的準確率。
技術領域
本發(fā)明涉及信息處理技術領域,具體涉及一種面向知識庫更新的實體細粒度分類方法與系統。
背景技術
知識庫是采用某種知識表示方式組織和管理的互相聯系的知識集合。在知識工程領域,知識描述的要素一般包括分類、實體、關系、屬性等要素,其中分類用于對知識庫中的知識項進行語義分組或語義標注。知識庫在很多領域中起到至關重要的作用,例如在信息檢索中,知識庫可以幫助搜索引擎理解用戶查詢、感知用戶查詢意圖、進行查詢擴展和查詢問答等;此外,知識庫在數據分析、輿情監(jiān)控、深網資源發(fā)現等領域中也有廣泛的應用。雖然目前存在眾多知識庫,但是它們在知識的覆蓋率和時新性方面仍存在諸多限制,根本原因在于,隨著大數據時代的到來,數據正以爆炸速度增長,在Web中每天都會產生新的知識。因此,為了構造高質量的知識庫,將新產生的知識動態(tài)、實時、自動地更新到已有的知識庫中,并且保障知識庫的擴展能力、覆蓋能力和時新性變得至關重要。
實體作為知識描述的重要組成要素,知識庫必然需要具備自動擴展實體的能力。要將新出現的實體更新到知識庫中,需要首先確定實體在知識庫中的位置,即實體在知識庫中所屬的分類信息。在確定了實體的分類之后,將新出現的實體添加到知識庫的該分類下,從而豐富知識庫中包含的實體集合。目前,實體分類方法主要有兩類:實體粗粒度分類和實體細粒度分類。
實體粗粒度分類將實體劃分為粗粒度類別,如人名、地名、機構名等。主要采用有監(jiān)督的方式訓練實體分類模型,需要大量的人工標注的訓練數據。這種方式無法直接應用到面向知識庫的實體分類中,原因在于知識庫將實體劃分成成百上千個類別,它需要的訓練數據的規(guī)模更大,而且創(chuàng)建如此規(guī)模的訓練數據需要大量的人力。
實體細粒度分類將實體劃分為更細致的類別,主要采用啟發(fā)式規(guī)則或基于弱監(jiān)督的方法對實體進行分類。其中,基于啟發(fā)式規(guī)則的方法直接通過定義的句法模式為實體進行類別標注,這種方法操作簡單,但是需要人工維護和定義大量的規(guī)則。基于弱監(jiān)督的方法提取實體的上下文,利用上下文的詞法、句法特征計算實體所屬的分類信息,然而這種方法的準確率較低,而且這種方法在上下文缺乏的情況下將難以推斷實體的分類信息。
綜上所述,現有的實體粗粒度分類方法并不適用于知識庫的更新,而現有的實體細粒度分類方法準確率較低。
發(fā)明內容
為解決上述問題,根據本發(fā)明的一個實施例,提供一種面向知識庫更新的實體細粒度分類方法,包括:
步驟1)、從文本中識別出實體;
步驟2)、將識別出的實體、知識庫中與其相關的實體以及相關實體在知識庫中的分類作為結點構建依賴圖,其中依賴圖中的邊的權值表示該邊連接的兩個結點之間的相關程度;
步驟3)、通過在所述依賴圖上執(zhí)行重啟動隨機游走,得到識別出的實體所屬的分類。
上述方法中,步驟2)包括:
步驟21)、根據語義相容度獲得識別出的實體在知識庫中的相關實體,并且獲得該相關實體在知識庫中的分類;其中,語義相容度表示識別出的實體的上下文信息與相關實體的描述文本的相似度;
步驟22)、將識別出的實體、知識庫中與其相關的實體以及相關實體在知識庫中的分類作為結點;
步驟23)、在表示識別出的實體的結點和表示相關實體的結點之間添加邊,邊的權值為該識別出的實體與該相關實體之間的語義相容度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510033050.4/2.html,轉載請聲明來源鉆瓜專利網。





