[發明專利]一種基于多標簽分類的實體關系聯合抽取模型的建立方法有效
| 申請號: | 202010937094.0 | 申請日: | 2020-09-08 |
| 公開(公告)號: | CN112069328B | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 李愛平;劉運璇;賈焰;江榮;周斌;涂宏魁;王曄 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30;G06F40/284;G06N3/04 |
| 代理公司: | 西安研創天下知識產權代理事務所(普通合伙) 61239 | 代理人: | 郭璐 |
| 地址: | 410073 湖南省長沙市開*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標簽 分類 實體 關系 聯合 抽取 模型 建立 方法 | ||
本發明公開了一種基于多標簽分類的實體關系聯合抽取模型的建立方法,包括:S1.搭建基于Encoder?Decoder的模型框架;S2.設計基于多標簽分類的實體關系聯合抽取模型的標注方式;S3.設計基于DCNN和Bi?LSTM的編碼器;S4.設計基于CNN鏈和Attention的解碼器;S5.設計基于Encoder?Decoder模型框架的三元組正確性評估模塊;通過利用Encoder?Decoder模型框架將實體抽取和關系抽取放在同一個模型中進行,解決了串聯抽取存在的問題,實驗證明本模型能夠在包含很多錯誤標注的數據集上進行訓練并得到好的測試結果,具有強的魯棒性。
技術領域
本發明涉及數字處理技術領域,具體涉一種基于多標簽分類的實體關系聯合抽取模型的建立方法。
背景技術
知識圖譜技術分為知識圖譜建立技術和應用技術,屬于語義Web、自然語言處理和機器學習的交叉學科,雖然知識圖譜對于大數據人工智能的實現有非凡的意義,但是知識圖譜的構建過程十分困難;現有的知識圖譜包括WordNet、CYC和HowNet等,大多依靠專家人工撰寫,在該種方法中,知識圖譜所包含的實體、實體屬性及實體關系需要完全依靠專家人工構造,其中存在的問題有以下幾個方面:
(1)雖然依靠專家進行知識圖譜構建可以獲得精度較高的知識,然而人工構建知識圖譜耗費的人力資源巨大;
(2)隨著互聯網的發展,知識呈爆炸式增長,人工構建知識圖譜,尤其是在構建領域知識圖譜方面遇到了很大困難,該方式不僅費時費力,而且存在知識覆蓋率低、數據稀疏和更新緩慢等問題,其規模和構建速度已經無法適應大數據時代發掘大量涌現知識的需求;自動構建知識庫能很好的解決人工構建知識庫的弊端;知識庫的構建包括實體關系學習、實體識別與鏈接、事件知識學習等多個任務,其多個任務可以獨立進行;目前實體識別、關系抽取等任務多數采用機器學習的方法自動進行知識抽取,極大的減輕了人力資源的消耗,具有較好的可擴展性,具備快速構建大規模知識庫的能力;
關系抽取作為知識圖譜構建和信息抽取中的一個關鍵環節,為多種應用提供支持,具有重要的理論意義和廣闊的應用前景,主要包括實體關系串聯抽取和實體關系聯合抽取,在傳統的串聯抽取模型中,由于實體抽取和關系抽取的分離導致了抽取過程中誤差積累的問題,在實體關系的抽取過程中,如何實現三元組的重疊問題,成為了本領域研究急需解決的一個問題。
發明內容
針對上述存在的問題,本發明旨在提供一種基于多標簽分類的實體關系聯合抽取模型的建立方法,通過利用Encoder-Decoder模型框架將實體抽取和關系抽取放在同一個模型中進行,解決了串聯抽取存在的問題,且通過實驗證明本模型能夠在包含很多錯誤標注的數據集上進行訓練并得到較好的測試結果,具有較強的魯棒性,對于關系抽取的研究具有重要意義。
為了實現上述目的,本發明所采用的技術方案如下:
一種基于多標簽分類的實體關系聯合抽取模型的建立方法,包括:
S1.搭建基于Encoder-Decoder的模型框架;
S2.設計基于多標簽分類的實體關系聯合抽取模型的標注方式:根據句子S中的實體關系的數量,為句子S標注相同數量的標簽序列,且在每個序列中只標注一對實體及實體間的關系;
S3.設計基于DCNN和Bi-LSTM的編碼器,利用DCNN和Bi-LSTM的編碼器將3層空洞卷積輸出的語義單元表示,與步驟S2Bi-LSTM輸出的單詞語義信息相連接,共同作為編碼器的輸出,實現將不同長度的句子編碼為固定長度的向量;
S4.設計基于CNN鏈和Attention的解碼器,實現利用CNN鏈和Attention將得到的語義信息生成多個實體關系三元組,進行實體關系的抽取;
S5.設計基于Encoder-Decoder模型框架的三元組正確性評估模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010937094.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種碳素纖維機器人手臂叉的表面處理方法
- 下一篇:一種用于果園的地下灌溉管





