[發明專利]一種知識圖譜的構建系統及方法有效
| 申請號: | 201810415531.5 | 申請日: | 2018-05-03 |
| 公開(公告)號: | CN108874878B | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 李勇;倪博溢;周笑添 | 申請(專利權)人: | 眾安信息技術服務有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 趙然 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 圖譜 構建 系統 方法 | ||
本發明公開了一種知識圖譜的構建系統及方法,屬于自然語言處理、計算機信息處理技術領域。所述系統包括:爬蟲模塊,對文本進行爬蟲以及數據清洗;基礎標注模塊,用于進行包括主語補全操作在內的基礎標注工作;候選關系提取模塊,用于提取包括候選關系句子和/或關系實體對的候選關系;特征提取模塊,用于進行特征提取;關系分類器訓練模塊,用于根據候選關系提取結果和特征提取結果進行模型訓練,構建關系分類器;關系審核模塊,用于對所述關系分類器獲得的候選句子關系進行審核確定,根據審核確定的結果對所述關系分類器進行相應調整。本發明實現了更強的關系抽取能力,減少了人工參與的成本,提高了構建知識圖譜的效率。
技術領域
本發明涉及自然語言處理、計算機信息處理技術領域,特別涉及一種知識圖譜的構建系統及方法。
背景技術
知識圖譜是一種以自然語言處理(NLP)為中心,結合應用數學、圖形學、信息可視化的多種技術的知識組織形式和規范。近來知識圖譜在人工智能很多行業擁有成熟的應用,如搜索引擎、聊天機器人、智能醫療、智能硬件等。知識圖譜分為行業知識圖譜和通用知識圖譜,2012年谷歌提出通用知識圖譜的概念。通用知識圖譜強調廣度,很難生成全局性本體層統一管理。常見通用知識圖譜包括:Freebase、DBpedia、zhishi.me等。行業知識圖譜是基于特定領域,應對不同的業務場景,具有一定深度和完備性的知識庫系統。當然通用知識圖譜和行業知識圖譜并不是相互對立,而是相互互補的一個關系,利用通用的知識圖譜的廣度結合行業知識圖譜的深度,可以形成更加完善的知識圖譜。
知識圖譜是關系的一種有效的表現方式,把不同種類的信息連接在一起得到一個關系網絡。通過知識圖譜,利用關系推導實現語義理解和推理。關系的基本表現形式為三元組如:node,relation,node,可以表示兩個實體具有某一種關系,或者某一個實體含有某一種屬性。例如:張三,父母,李四,陳六,父母,李四,張三,性別,男,陳六,性別,女=張三,配偶,陳六,四個三元組依次表示為:張三和李四是父母關系,陳六和李四也是父母關系,張三擁有性別屬性為男,陳六擁有性別屬性為女,可以通過這四條知識推導出張三和陳六是配偶關系。
知識圖譜的構建核心環節就是關系抽取。現有行業知識圖譜的構建的方案主要有:一是至頂向下式,先創建基于本體的數據模式,利用高質量的結構化連接數據根據圖映射得到關系三元組。這種方法可靠性較高,但是非常耗時耗力,且需要較強的領域知識作為支撐,一般數據規模無法做得很大。二是由底向上式,采用一定技術手段從公開數據集中實現關系抽取。公開數據集往往包含少量半結構化數據和大量非結構化數據,半結構化數據如表格、列表、字典、infobox等,通常采用裝飾器(wrapper),根據數據呈現的形式編寫規則來提取關系。而非結構化的純文本中的關系往往呈現多種多樣。比如下面四段文本都可以表示A和B的配偶關系:1、A與B結婚了。2、A娶了B。3、B嫁給A。4、C的爸爸媽媽A和B。四句話均體現了配偶關系,雖然有一些特性可循,但是很難單純靠規則模式來處理。非結構化文本中關系往往和該句子的語義特征相關聯。現有的方案中也有用規則模版來提取關系三元組的,這種方法的優點是比較準確可靠。但是缺點很明顯,一是需要人工編寫模版無法自動化,二是只能適配特定的句子模式。有方案基于規則抽取的基礎上提出先進行人工規則學習,生成新的規則集,再用新的規則提取未分類的關系模式。此方案雖然能提高規則提取的能力,但是無法進行自動化的部署,規則學習的階段需要不斷介入人工審核,不是一個很好的解決方案。從非結構化的純文本中抽取關系構建知識圖譜,始終是一個棘手的難題。
發明內容
為了解決現有技術的問題,本發明實施例提供了一種知識圖譜的構建系統及方法。所述技術方案如下:
第一方面,提供了一種知識圖譜的構建系統,包括:
爬蟲模塊,對文本進行爬蟲以及數據清洗;
基礎標注模塊,用于進行包括主語補全操作在內的基礎標注工作;
候選關系提取模塊,用于提取包括候選關系句子和/或關系實體對的候選關系;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于眾安信息技術服務有限公司,未經眾安信息技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810415531.5/2.html,轉載請聲明來源鉆瓜專利網。





