[發明專利]一種基于預定義關系的知識聯合抽取的方法及裝置在審
| 申請號: | 202011002707.8 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112101036A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 于文才;鐘琴隆;杜明本;李鑫宇;張亞寧;董林林;杜志誠;馬強 | 申請(專利權)人: | 山東旗幟信息有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 濟南千慧專利事務所(普通合伙企業) 37232 | 代理人: | 趙長林 |
| 地址: | 250000 山東省濟南市高新*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 預定 關系 知識 聯合 抽取 方法 裝置 | ||
一種基于預定義關系的知識聯合抽取的方法及裝置,包括如下步驟:提取目標信息,所述目標信息包括拓展關系和實體;以拓展關系作為出發點,將得到的實體按照第一規則與拓展關系進行組隊得到信息組;所述第一規則包括拓展關系預設的若干連接節點,所述連接節點有對預設連接的實體預設條件。本申請將實體和拓展關系分離設置,并將拓展關系作為中心,使得在識別時,可以通過對第一規則的定義實現對于目標信息的處理方向的把控。
技術領域
本申請涉及一種基于預定義關系的知識聯合抽取的方法及裝置。
背景技術
自然語言是指一種自然地隨文化演化的語言。例如,漢語、英語、日語為自然語言的例子,這一種用法可見于自然語言處理一詞中。自然語言是人類交流和思維的主要工具。自然語言是人類智慧的結晶,自然語言處理是人工智能中最為困難的問題之一,而對自然語言處理的研究也是充滿魅力和挑戰的,也是各國人表達的方法其中之一。現在的自然語言處理一般從實體識別出發,然后利用深度學習的方式建立識別模塊,達到識別的目的。雖然深度學習大大提高了在知識抽取方面的效率,但是其適用性卻受到原有素材的影響,且對于實體層面的重視反而弱化了自然語言所進行的內在關系的表達。
發明內容
為了解決上述問題,本申請一方面提出了一種基于預定義關系的知識聯合抽取的方法,包括如下步驟:提取目標信息,所述目標信息包括拓展關系和實體;以拓展關系作為出發點,將得到的實體按照第一規則與拓展關系進行組隊得到信息組;所述第一規則包括拓展關系預設的若干連接節點,所述連接節點有對預設連接的實體預設條件。本申請將實體和拓展關系分離設置,并將拓展關系作為中心,使得在識別時,可以通過對第一規則的定義實現對于目標信息的處理方向的把控。本申請的所說的第一規則是指的一些預定規則,如對于出版項目,實體為“出版社”和“書籍”,拓展關系為“出版”,對于作者項目,實體為“人物”和“作品”,拓展關系為“作者”,對于出生地項目,實體為“地點”和“人物”,拓展關系為“出生地”。
優選的,所述拓展關系的識別模型采用bert-wwm-ext+膨脹門卷積神經網絡模型訓練得到。
優選的,所述拓展關系識別模型按照如下方法訓練得到:構建訓練樣本,針對采集的語料按照語句進行人工標注;根據人工經驗,及預定義的關系類型,對語句進行拓展關系標注;使用bert-wwm-ext針對訓練樣本,構建成向量,輸入到膨脹門卷積神經網絡(DGCNN)進行拓展關系識別模型的訓練。
優選的,所述實體識別模型采用bert-wwm-ext+BILSTM+CRF實體識別模型訓練得到。bert中文模型是以字為粒度進行切分,沒有考慮到中文的最小語義粒度詞語。bert-wwm-ext是居于bert升級的整詞mask,是更適合中文的預訓練模型。
優選的,所述實體識別模型按照如下方法訓練得到:構建訓練樣本,針對采集的語料對其中的實體進行人工標注;標注采用BIOES標注,實體類型分為PER人員,ORG機構,ADDR地點,BK書籍;將標注好的樣本通過bert-wwm-ext預訓練模型生成向量,輸入到的BILSTM+CRF網絡進行實體識別模型的訓練。本申請實體識別模型和拓展關系識別模型的訓練可以采用同一語料進行,以提高二者在訓練過程中其衍生得到的識別模型的相近性和可靠性。
優選的,在進行實體識別模型中,采用BIOES標注按照如下方式進行,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東旗幟信息有限公司,未經山東旗幟信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011002707.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種在線式煤層氣井水質檢測設備及檢測方法
- 下一篇:一種能夠進行光轉化的膜





