[發明專利]實體關系抽取方法及裝置有效
| 申請號: | 201911342897.5 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111126067B | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 賈丹丹;張丹;于琳琳;王九碩 | 申請(專利權)人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 張子青;臧建明 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 關系 抽取 方法 裝置 | ||
本發明提供一種實體關系抽取方法及裝置,該方法包括:根據訓練語料的實體信息和關鍵詞生成正則表達式;將訓練語料進行分詞獲得分詞結果;將分詞結果轉換為向量,并將向量輸入神經網絡;將向量輸入神經網絡的第一隱藏層,輸出向量集合;根據正則表達式將向量集合輸入神經網絡的第二隱藏層,輸出向量表達式;將向量表達式輸入神經網絡的輸出層,輸出實體關系類別的概率;根據實體關系類別的概率對實體信息進行關系抽取。通過利用正則表達式與神經網絡相結合的方法對實體信息進行關系抽取,解決了遠程監督模型受到噪聲數據干擾導致準確率低的問題。
技術領域
本發明涉及計算機領域,尤其涉及一種實體關系抽取方法及裝置。
背景技術
互聯網技術的發展與普及給人們的生活帶來了很多便利,通過提取網絡海量的文本數據中有價值的信息,對改善人們的生活有著十分重要的作用和意義。通過信息抽取技術,實現了從海量自然語言文本中抽取結構化的數據,從而為人們構建知識庫、自動問答及文本挖掘等領域提供了有效幫助。
在根據信息抽取技術構建知識庫的過程中,通常利用關系抽取技術,從非結構化文本中抽取三元組用于構建知識庫。隨著網絡中數據的不斷增加,知識庫中的信息也需要持續更新,關系抽取技術實現了知識庫自動更新,因此關系抽取模型的效果很大程度上決定了知識庫的質量。現有技術中,一般采用深度神經網絡的關系抽取方法構建知識庫。在利用深度神經網絡關系抽取方法訓練模型時,采用遠程監督的方法生成關系抽取的訓練語料,解決了關系抽取數據匱乏的問題。
但是,現有的遠程監督關系抽取方法易受到噪聲數據的影響,導致模型的準確率普遍很低。
發明內容
本發明的目的在于提供一種實體關系抽取方法及裝置,提高了實體關系抽取方法的準確率。
第一方面,本發明提供一種實體關系抽取方法,包括:
根據訓練語料的實體信息和關鍵詞生成正則表達式;
將所述訓練語料進行分詞獲得分詞結果,將所述分詞結果轉換為向量,并將所述向量輸入神經網絡;
將所述向量輸入神經網絡的第一隱藏層,輸出向量集合;
根據正則表達式將所述向量集合輸入神經網絡的第二隱藏層,輸出向量表達式;
將所述向量表達式輸入神經網絡的輸出層,輸出實體關系類別的概率;
根據所述實體關系類別的概率對實體信息進行關系抽取。
在一種可能的設計中,所述將所述分詞結果輸入神經網絡的第一隱藏層,輸出向量集合,包括:
將所述分詞結果輸入神經網絡的第一隱藏層,根據所述第一隱藏層中的參數輸出向量集合,其中,所述參數包括輸入門參數、遺忘門參數、細胞狀態參數和輸出門參數。
在一種可能的設計中,所述根據訓練語料的實體信息和關鍵詞生成正則表達式,包括:
通過對訓練語料進行分詞,獲得候選關鍵詞;
通過對所述候選關鍵詞進行聚類,獲得聚類結果;
對聚類結果進行篩選處理類別關鍵詞;
根據訓練語料的實體信息和所述類別關鍵詞生成正則表達式。
在一種可能的設計中,所述通過對訓練語料進行分詞,獲得候選關鍵詞,包括:
通過對訓練語料進行分詞;
利用TF-IDF算法對所述分詞結果進行過濾,獲得候選關鍵詞。
在一種可能的設計中,所述通過對所述候選關鍵詞進行聚類,獲得類別關鍵詞,包括:
利用word2vec算法對所述候選關鍵詞進行聚類,獲得類別關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911342897.5/2.html,轉載請聲明來源鉆瓜專利網。





