[發明專利]基于BERT神經網絡的中文人物關系抽取構建方法在審
| 申請號: | 202110186063.0 | 申請日: | 2021-02-14 |
| 公開(公告)號: | CN112926325A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 劉登濤;張建;王謙超 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 神經網絡 中文 人物 關系 抽取 構建 方法 | ||
本發明涉及一種基于BERT神經網絡的中文人物關系抽取方法,用于解決非結構化的中文文本內人物關系難以抽取的技術問題,具體內容包括數據收集模塊,對訓練數據的獲取、清洗、標注;特征獲取與關系抽取模塊,包括對句子上下文編碼、命名實體識別、實體關系的預測;關系存儲模塊和應用服務模塊,利用圖數據庫存儲文本人物關系抽取出的人物實體關系圖譜,基于SOA設計核心業務服務API接口,提供數據交互服務,Docker容器封裝系統應用,使系統平臺具有高可移植性和可擴展性,最終提供文本人物關系知識圖譜功能。本發明能夠有效地解決目前所面臨的人物關系抽取召回率低、關系不準等問題。以達到更好的關系抽取平臺服務。
技術領域
本發明屬于計算機自然語言處理領域,是一種基于BERT神經網絡的對中文人物關系進行抽取的方法。不同于目前主流的基于傳統方法的依存句法分析的方法,本發明方法是一種深度學習的抽取方法,相比于傳統中文人物關系抽取,本系統通過基于BERT的深度學習的方法能夠在一定程度上緩解基于傳統中文人物關系抽取模型的弊端,即對特征的選取是由模型訓練完成,在沒有人工干預的條件下得到高性能的關系抽取模型。在最終對文本的抽取當中,有著非常高的準確率和召回率。
背景技術
隨著大數據時代的到來和信息技術的不斷發展,現如今的社會已經進入到了人工智能(Artificial Intelligence,簡稱AI)時代。各種各樣的人工智能應用產品不斷的出現,在諸多領域中發揮著各樣的重要作用,比如在AI+農業、AI+醫療、AI+自動駕駛、AI+教育等人工智能與傳統行業相結合的全新應用場景中大放異彩。而在人工智能領域當中有一個非常重要的子領域--自然語言處理領域(Natural Language Processing,簡稱NLP),在NLP當中人物關系抽取又作為NLP的重要內容之一有著十分廣闊的應用前景。
隨著大數據時代的到來,數據規模不斷增大,信息過載的問題日益嚴重,面對領域交叉、海量異構、碎片化的激增的各種文本數據,如何才能快速高效的準確地獲取關鍵信息有著重大意義。從當中抽取關鍵信息進行分析成為一個研究熱點,而信息抽取又需要高質量的語義實體做支撐。根據這一特定問題,這時實體關系抽取就發揮了重要作用,此技術可以從網絡中海量的非結構化數據中抽取特定的實體、事件、關系等信息,進而轉化成符合人類認知世界的表示形式,形成結構化的數據存儲在數據庫中,為各類用戶提供一種有組織、可查詢、可使用的數據知識。從大數據到大知識[3]的過程中,人物關系抽取研究對于智能語義搜索、人物知識圖譜構建、問答系統等領域具有重要意義。
(1)智能語義搜索中的應用
隨著互聯網的發展,如今人們越來越依賴搜索引擎,當大家遇到解決不了的問題或有不懂的信息時都會習慣性的去百度、谷歌、bing、360等搜索引擎搜索一下來獲取想要的結果。隨著搜索引擎相關技術的不斷發展,在信息檢索過程中不是簡單的關鍵詞匹配,搜索引擎會自動根據語義知識進行聯想,搜索并反饋用戶真正需要的信息,其能實現數字、字母的精準搜索,而不是模糊匹配,并且數據庫增刪改可實時同步到搜索引擎中,在搜索引擎為人們提供便利的背后就有實體關系抽取這項技術為其提供了支持。例如,當檢索框中輸入“豬八戒的師兄用的是什么武器”,面對此類復雜的查詢時,搜索引擎會直接返回其豬八戒師兄的姓名(孫悟空)以及其別名,表明搜索引擎返回結果過程中會對用戶輸入的內容進行語義分析,通過實體關系抽取來讀懂用戶的問題,提煉出問題主體,然后與知識圖譜中對應的節點相鏈接,對搜索結果進行去重并推送精準的、用戶想要的結果。
(2)人物知識圖譜構建的應用
人物知識圖譜構建技術的第一步就是信息抽取,而人物關系抽取是信息抽取的核心內容之一,其可以通過人物識別和關系抽取得到有效的關系三元組。最終在人與人之間構建知識圖譜,以實現跨姓的大知識挖掘和推理服務。例如在家庭人物圖譜當中,我們可以輕易的得到與主人公直接相關和簡介相關的各種人物及與主人公的關系;在歷史人物圖譜當中,通過使用歷史人物圖譜掌握和評價歷史人物的方法在歷史學習和探究中具有重要的作用;在小說人物圖譜當中可以更快的梳理清楚人物關系,以達到對小說更深刻的理解。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110186063.0/2.html,轉載請聲明來源鉆瓜專利網。





