[發明專利]基于BERT神經網絡的中文人物關系抽取構建方法在審
| 申請號: | 202110186063.0 | 申請日: | 2021-02-14 |
| 公開(公告)號: | CN112926325A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 劉登濤;張建;王謙超 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 神經網絡 中文 人物 關系 抽取 構建 方法 | ||
1.一種基于BERT神經網絡的中文人物關系抽取系統,其特征在于,包括:
數據收集模塊,對訓練數據的獲取、數據清洗、數據的標注,使用收集到的數據作為訓練數據,獲得各句子中存在的人物實體標簽以及人物實體標簽間的關系標簽;
特征獲取與關系抽取模塊,包括對每個句子進行上下文編碼、對每個句子的上下文語義表征進行命名實體識別、綜合其上下文語義表征和命名實體識別結果以及關系標簽嵌入表示,預測每個句子中所有的實體關系;
關系存儲模塊和應用服務模塊,利用圖數據庫存儲文本人物關系抽取出的人物實體關系圖譜,基于SOA設計核心業務服務API接口,提供數據交互服務,Docker容器封裝系統應用,最終提供文本人物關系知識圖譜功能。
2.根據權利要求1所述的中文人物關系抽取系統,其特征在于,數據收集模塊具體為:
首先收集大量包含人物關系的互聯網數據作為訓練數據,然后使用爬蟲將每一個人物關系對拼接到百度搜索URL之后進行搜索,將搜索到的文本語料爬取到數據庫當中存儲下來,將其人工清洗、標注,構建了人物關系語料。
3.根據權利要求1所述的中文人物關系抽取系統,其特征在于,特征獲取與關系抽取模塊具體為:
對整理好的訓練數據中的每個句子中出現的人物進行命名實體識別;
對訓練數據的每個句子進行BERT Embedding字向量轉化;
對轉換過的字向量句子進行上下文編碼得到每個句子的上下文語義表征;
對于待預測數據的每個句子,綜合其上下文語義表征和命名實體識別結果進行人物實體之間的兩兩預測,預測出每個句子中所有的人物實體關系。
4.根據權利要求1所述的中文人物關系抽取系統,其特征在于,關系存儲模塊和應用服務模塊,具體為:
利用圖數據庫提供中文人物關系知識圖譜存儲服務,保存中文文本當中抽取出來的人物實體關系;基于SOA將中文人物關系抽取系統按照服務功能進行拆分,設計API接口包括用戶門戶模塊接口、管理模塊接口、總體展示模塊接口、平臺服務模塊接口;利用Mongodb數據庫提供用戶相關數據存儲服務以及相關系統訪問日志存儲服務;利用Redis分布式緩存數據庫提供API接口訪問緩存服務;利用Docker容器技術,將知識服務應用進行封裝,方便分布式應用于部署;針對用戶傳入的文檔信息進行文本分句,命名實體識別,BERT字向量轉化,特征提取,關系推斷,再對人物實體與推斷的關系構造成關系三元組,通過構造的三元組進行知識圖譜構建、提供人物關系查詢、文本關系抽取服務。
5.一種基于BERT神經網絡的中文人物關系抽取方法,其特征在于,包括:
對訓練數據的獲取、數據清洗、數據的標注,使用收集到的數據作為訓練數據,獲得各句子中存在的人物實體標簽以及人物實體標簽間的關系標簽;
包括對每個句子進行上下文編碼、對每個句子的上下文語義表征進行命名實體識別、綜合其上下文語義表征和命名實體識別結果以及關系標簽嵌入表示,預測每個句子中所有的實體關系;
利用圖數據庫存儲文本人物關系抽取出的人物實體關系圖譜,基于SOA設計核心業務服務API接口,提供數據交互服務,Docker容器封裝系統應用最終提供文本人物關系知識圖譜功能。
6.根據權利要求5所述的中文人物關系抽取方法,其特征在于:
首先收集大量包含人物關系的互聯網數據作為訓練數據,然后使用爬蟲將每一個人物關系對拼接到百度搜索URL之后進行搜索,將搜索到的文本語料爬取到數據庫當中存儲下來,將其人工清洗、標注,構建了人物關系語料。
7.根據權利要求5所述的中文人物關系抽取方法,其特征在于:
對整理好的訓練數據中的每個句子中出現的人物進行命名實體識別;
對訓練數據的每個句子進行BERT Embedding字向量轉化;
對轉換過的字向量句子進行上下文編碼得到每個句子的上下文語義表征;
對于待預測數據的每個句子,綜合其上下文語義表征和命名實體識別結果進行人物實體之間的兩兩預測,預測出每個句子中所有的人物實體關系。
8.根據權利要求5所述的中文人物關系抽取方法,其特征在于:
利用圖數據庫提供中文人物關系知識圖譜存儲服務,保存中文文本當中抽取出來的人物實體關系;基于SOA將中文人物關系抽取系統按照服務功能進行拆分,設計API接口包括用戶門戶模塊接口、管理模塊接口、總體展示模塊接口、平臺服務模塊接口;利用Mongodb數據庫提供用戶相關數據存儲服務以及相關系統訪問日志存儲服務;利用Redis分布式緩存數據庫提供API接口訪問緩存服務;利用Docker容器技術,將知識服務應用進行封裝,方便分布式應用于部署;針對用戶傳入的文檔信息進行文本分句,命名實體識別,BERT字向量轉化,特征提取,關系推斷,再對人物實體與推斷的關系構造成關系三元組,通過構造的三元組進行知識圖譜構建、提供人物關系查詢、文本關系抽取服務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110186063.0/1.html,轉載請聲明來源鉆瓜專利網。





