[發明專利]文本的實體關系抽取方法和模型訓練方法有效
| 申請號: | 202010082707.7 | 申請日: | 2020-02-07 |
| 公開(公告)號: | CN111339774B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 陳曦;盧睿軒;文瑞;孫繼超;劉羽 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/36 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 譚英強 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 實體 關系 抽取 方法 模型 訓練 | ||
本申請公開了一種文本的實體關系抽取方法和模型訓練方法,本申請可以應用于人工智能領域的自然語言處理技術中,本申請的通過圖狀態循環神經網絡和BERT模型的結合,從文本中分別抽取用于表征文本的語義特征的第一向量和用于表征文本的依存關系特征的第二向量,并將第一向量和第二向量拼接后進行分類,使得實體對的關系抽取在長句和跨句的應用場景中獲得較好的準確度,改善了現有技術中在長句和跨句等應用場景下準確度不足的問題,此外,本申請在模型訓練階段,基于預設規則和預訓練模型,通過遠程監督的方式大量生產標注數據,可以在較低的成本下獲得大量較為準確的訓練數據。可見,本申請可以廣泛應用于自然語言處理技術中。
技術領域
本申請涉及自然語言處理技術,尤其是一種文本的實體關系抽取、模型訓練方法、裝置和存儲介質。
背景技術
隨著人工智能(Artificial Intelligence,AI)技術的發展和具體領域的應用需求的不斷增長,將人工智能技術應用到諸如醫療領域等具體領域的研究得到了發展。其中,自然語言處理(Natural Language Processing,NLP)技術為人工智能技術的重要分支。其中,在自然語言處理技術中,知識圖譜(Knowledge Graph)的構建對人工智能應用有著重要的作用。例如人工智能可以利用知識圖譜完成檢索和問答等工作。
知識圖譜由多個實體對之間的關系所構成,因此,對于構建知識圖譜的工作而言,從海量文本中抽取實體對的關系是一項重要的基礎工作。
現有的關系抽取模型通常基于word2vec、openAI-GPT、語義表示模型(Embeddingsfrom Language Models,ELMo)、雙向轉換編碼器(Bidirectional EncoderRepresentation from Transformer,BERT)模型等預訓練模型,這些預訓練模型可以在短句的實體關系抽取中取得較好的效果。但是文本長度的增加,文本中實體的數量增加,會使得這些預訓練模型對輸入文本的語義抽取能力削弱,導致模型提取的特征丟失詞語之間的關聯信息,致使現有技術在長句或者跨句的實體關系抽取中性能較差。
發明內容
為解決上述技術問題的至少之一,本申請提供了一種文本的實體關系抽取、模型訓練方法、裝置和存儲介質,以提高文本的實體關系抽取的準確性。
根據本申請的第一方面,提供了一種文本的實體關系抽取方法,包括以下步驟:
獲取輸入文本;
對所述輸入文本進行識別處理,得到所述輸入文本中的至少兩個實體和所述至少兩個實體的類型;
從所述至少兩個實體中確定目標實體對;
根據目標實體的類型,將所述輸入文本中的所述目標實體替換成用于表示所述目標實體的類型的字符,得到所述輸入文本的替換文本;
從所述替換文本中提取語義特征信息;
從所述輸入文本中提取依存關系特征信息;
將所述語義特征信息和所述依存關系特征信息進行組合處理再分類,得到所述目標實體對的關系分類結果,以確定所述目標實體對的關系。
根據本申請的第二方面,提供了一種關系抽取模型訓練方法,包括以下步驟:
獲取訓練樣本,所述訓練樣本包括輸入文本和標注信息;所述標注信息用于標注輸入文本中一組實體對的關系;
對所述輸入文本進行識別處理,得到所述輸入文本中的至少兩個實體和所述至少兩個實體的類型;
將所述輸入文本中被標注的所述實體對確定為目標實體對;
根據目標實體的類型,將所述輸入文本中的所述目標實體替換成用于表示所述目標實體的類型的字符,得到所述輸入文本的替換文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010082707.7/2.html,轉載請聲明來源鉆瓜專利網。





