[發明專利]基于少量訓練樣本的信息抽取方法及裝置在審
| 申請號: | 202010138072.8 | 申請日: | 2020-03-03 |
| 公開(公告)號: | CN111506696A | 公開(公告)日: | 2020-08-07 |
| 發明(設計)人: | 譚瑩;黃麟越;許開河;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06F40/30 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 518000 廣東省深圳市福田街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 少量 訓練 樣本 信息 抽取 方法 裝置 | ||
本發明公開了一種基于少量訓練樣本的信息抽取方法及裝置,涉及數據處理技術領域,為解決現有技術中不能得到待提取文本的有效目標文本信息的問題而發明。該方法主要包括:獲取訓練樣本,所述訓練樣本是已標注的待抽取關鍵信息的文本;根據BERT語言模型,提取所述訓練樣本中每個句子的樣本特征向量;根據所述訓練樣本、所述待抽取關鍵信息和所述樣本特征向量,訓練初始模型,得到文本預測模型;根據所述文本預測模型,抽取待抽取文本的抽取信息。本發明主要應用于信息抽取的過程中。
技術領域
本發明涉及一種數據處理技術領域,特別是涉及一種基于少量訓練樣本的信息抽取方法及裝置。
背景技術
信息抽取是將非結構化的文本包含的信息進行結構化處理,輸出固定格式的信息點,從而幫助用戶對海量內容進行分類、提取和重構。信息抽取的標簽通常包括實體、關系、事件,如抽取時間、地點、關鍵人物等。信息抽取具有重要意義,由于其能從大量文本中抽取出用戶感興趣的信息框架和內容,可用于信息檢索、信息整合等,在情感分析、文本挖掘等方面有豐富的應用場景。
現有技術中,采用獲取通用文本提取模型,然后獲取少量訓練樣本,再將訓練樣本數據通用文本提取模型中進行訓練得到通用文本提取模型對訓練樣本提取得到的訓練標準字段,再根據訓練標準字段和目標標準字段對通用文本提取模塊的參數進行調整,知道滿足收斂條件,得到目標文本提取模型,最后將待提取文本輸入模板文本提取模型中個,通過目標文本提取模型從待提取文本中得到目標文本信息。
采用上述方法,由于訓練樣本較少,目標文本信息與訓練標注字段可能不一致,導致不能得到待提取文本的有效目標文本信息。
發明內容
有鑒于此,本發明提供一種基于少量訓練樣本的信息抽取方法及裝置,主要目的在于解決現有技術中不能得到待提取文本的有效目標文本信息的問題。
依據本發明一個方面,提供了一種基于少量訓練樣本的信息抽取方法,包括:
獲取訓練樣本,所述訓練樣本是已標注的待抽取關鍵信息的文本;
根據BERT語言模型,提取所述訓練樣本中每個句子的樣本特征向量;
根據所述訓練樣本、所述待抽取關鍵信息和所述樣本特征向量,訓練初始模型,得到文本預測模型;
根據所述文本預測模型,抽取待抽取文本的抽取信息。
依據本發明另一個方面,提供了一種基于少量訓練樣本的信息抽取裝置,包括:
獲取模塊,用于獲取訓練樣本,所述訓練樣本是已標注的待抽取關鍵信息的文本;
提取模塊,用于根據BERT語言模型,提取所述訓練樣本中每個句子的樣本特征量;
訓練模塊,用于根據所述訓練樣本、所述待抽取關鍵信息和所述樣本特征向量,訓練初始模型,生成文本預測模型;
抽取模塊,用于根據所述文本預測模型,抽取待抽取文本的抽取信息。
根據本發明的又一方面,提供了一種計算機存儲介質,所述計算機存儲介質中存儲有至少一可執行指令,所述可執行指令使處理器執行如上述基于少量訓練樣本的信息抽取方法對應的操作。
根據本發明的再一方面,提供了一種計算機設備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;
所述存儲器用于存放至少一可執行指令,所述可執行指令使所述處理器執行上述基于少量訓練樣本的信息抽取方法對應的操作。
借由上述技術方案,本發明實施例提供的技術方案至少具有下列優點:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010138072.8/2.html,轉載請聲明來源鉆瓜專利網。





