[發明專利]基于少量樣本的信息提取方法、裝置和計算機設備在審
| 申請號: | 201811535440.1 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109783604A | 公開(公告)日: | 2019-05-21 |
| 發明(設計)人: | 鄭子歐;劉媛源;張翔;于修銘;汪偉;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F17/27 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 王寧 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字段 文本提取 標注 樣本 計算機設備 信息提取 文本 參數調整 目標文本 輸入目標 字段信息 通用 大數據 高效性 預定義 申請 | ||
1.一種基于少量樣本的信息提取方法,所述方法包括:
獲取通用文本提取模型,所述通用文本提取模型用于提取標注字段;
獲取少量訓練樣本,所述訓練樣本攜帶有目標標注字段;
將所述訓練樣本輸入所述通用文本提取模型中進行訓練,得到所述通用文本提取模型對所述訓練樣本提取得到的訓練標注字段;
根據所述訓練標注字段和所述目標標注字段對所述通用文本提取模型的參數進行調整,直到滿足收斂條件,得到目標文本提取模型;
獲取待提取文本,將所述待提取文本輸入所述目標文本提取模型中,通過所述目標文本提取模型從所述待提取文本中得到目標文本信息,所述目標文本信息與所述目標標注字段為同一類型的字段信息。
2.根據權利要求1所述的方法,其特征在于,所述通用文本提取模型的建立步驟包括:
構建數據集,所述數據集包含多個任務樣本,各個任務樣本的文本類型不重合;
獲取訓練集和驗證集;
通過所述訓練集中的任務訓練數據對所述各個任務樣本進行訓練,得到每個任務樣本對應的多個候選任務樣本子模型,所述候選任務樣本模型用于提取標注字段;
將驗證集中的驗證數據輸入所述候選任務樣本模型中進行驗證,得到各個候選任務樣本子模型對應的準確率;
將準確率最高的候選任務樣本子模型作為任務樣本對應的目標任務樣本子模型,將各個任務樣本對應的目標任務樣本子模型組成所述通用文本提取模型。
3.根據權利要求2所述的方法,其特征在于,將所述準確率最高的候選任務樣本子模型作為任務樣本對應的目標任務樣本子模型的步驟,還包括:
獲取所述準確率最高的候選任務樣本子模型對應的第一參數;
根據所述第一參數對各任務樣本的參數進行第一次梯度下降,得到所述各任務樣本的共性參數;
根據所述第一參數對所述共性參數進行第二次梯度下降,得到目標共性參數,根據所述目標共性參數得到各個任務樣本對應的目標共性模型,將目標共性模型作為目標任務樣本子模型。
4.根據權利要求2所述的方法,其特征在于,將各個任務樣本對應的目標任務樣本子模型組成所述通用文本提取模型的步驟之后,還包括:
獲取所述任務訓練數據,所述任務訓練數據攜帶有標記數據;
將所述任務訓練數據輸入所述通用文本提取模型中進行測試,得到任務測試數據;
將所述任務測試數據與所述標記數據進行比對,若任務測試數據與標記數據相同,則將所述訓練樣本輸入所述通用文本提取模型中進行訓練,得到所述通用文本提取模型對所述訓練樣本提取得到的訓練標注字段;根據所述訓練標注字段和所述目標標注字段對所述通用文本提取模型的參數進行調整,直到滿足收斂條件,得到目標文本提取模型;
若任務測試數據與標記數據不相同,則根據所述標記數據和所述任務測試數據對所述任務訓練數據進行修正,得到修正任務訓練數據,通過所述修正任務訓練數據對所述各個任務樣本進行再次訓練,得到修正通用文本提取模型;
將所述修正任務訓練數據輸入修正通用文本提取模型中進行再次測試,得到修正任務測試數據,將所述修正任務測試數據與所述標記數據進行比對,直到所述修正任務測試數據與所述標記數據相同時,則停止對所述修正任務測試數據的修正,并將所述訓練樣本輸入所述修正通用文本提取模型中進行訓練,得到所述修正通用文本提取模型對所述訓練樣本提取得到的修正訓練標注字段;
根據所述修正訓練標注字段和所述目標標注字段對所述修改通用文本提取模型的參數進行調整,直到滿足收斂條件,得到修改目標文本提取模型,將所述修改目標文本提取模型作為目標文本提取模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811535440.1/1.html,轉載請聲明來源鉆瓜專利網。





