[發明專利]數值數據的獲取系統、神經網絡全連接模型及訓練方法在審
| 申請號: | 202011045408.2 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN111898757A | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 郁思俊;杜向陽 | 申請(專利權)人: | 北京擎盾信息科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/02;G06Q50/18 |
| 代理公司: | 北京中政聯科專利代理事務所(普通合伙) 11489 | 代理人: | 鄭久興 |
| 地址: | 100070 北京市豐臺區南四環*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數值 數據 獲取 系統 神經網絡 連接 模型 訓練 方法 | ||
本發明提供了數值數據的獲取系統、神經網絡全連接模型及訓練方法,其特征在于,包括:提取訓練數據中的數值信息;對所述數值信息進行預設類別的標注,得到標注序列;將所述標注序列輸入至特征序列矩陣輸出模型,得到特征序列矩陣;基于所述特征序列矩陣,神經網絡全連接模型進行多次所述反向迭代訓練。通過本發明提供的訓練方法,能夠得到具有數值語義分析能力的神經網絡全連接模型,利用神經網絡全連接模型能夠獲準確地取法律文本中特定的數值信息,提高了在法律領域中新文本中的數值提取能力。
技術領域
本發明涉及自然語言分析處理技術領域,特別涉及數值數據的獲取系統、神經網絡全連接模型及訓練方法。
背景技術
在法律領域中,非常關注法律文本中的特定數值信息,比如標的數值信息、酒駕酒精量數值信息等,將這些信息提取出來,對于后續的分析應用具有非常高的價值。現在普遍使用的數值抽取方法是編寫正則表達式的方法,即通過編寫模板,將文本中與模板匹配的字符串找出來,但是,數值信息描述方式變化多樣,無用數字帶來的干擾,且用語言文字表達的數值形式多樣化,使用正則表達式解決以上困難需要編寫至少成百上千的模板,工作量巨大,而且泛化適應能力非常弱,耗時耗力,因此,使用正則表達式進行數值信息抽取應用效果受到局限。因此,需要研發新的數值數據的獲取系統、神經網絡全連接模型及訓練方法。
發明內容
(一)發明目的
本發明的目的是提供一種能基于法律文本中的數值語義,且獲取特定的數值信息的數值數據的獲取系統、神經網絡全連接模型及訓練方法。
(二)技術方案
為解決上述問題,根據本發明的第一方面,提供一種神經網絡全連接模型的訓練方法,包括:提取訓練數據中的數值信息;對所述數值信息進行預設類別的標注,以得到標注序列;將所述標注序列輸入至特征序列矩陣輸出模型,得到特征序列矩陣;神經網絡全連接模型進行多次所述反向迭代訓練。
進一步地,所述神經網絡全連接模型進行多次所述反向迭代訓練前,所述神經網絡全連接模型將所述特征序列矩陣進行形式變換,得到變換后的特征序列矩陣。
進一步地,所述神經網絡全連接模型進行多次所述反向迭代訓練包括:將所述變換后的特征序列矩陣輸入至所述神經網絡全連接模型的CRF模型層;將所述CRF模型層的輸出結果通過softmax激活函數進行概率映射;將概率映射結果和實際標簽數據進行交叉熵損失比對。
進一步地,所述特征序列矩陣包括與所述標注序列每個字符對應的字向量編碼。
進一步地,對所述數值信息進行半監督式BIO標注。
根據本發明的另一個方面,提供一種神經網絡全連接模型,由前述第一方面的技術方案中任一項所述的訓練方法訓練后得到。
根據本發明的另一個方面,提供一種用于法律領域的數值數據獲取方法,包括:前述技術方案中所述的神經網絡全連接模型從目標數據中提取數值信息;對提取到的所述數值信息進行數值表達形式統一化和數值單位統一化,得到統一化數值信息;將符合匹配規則的所述統一化數值信息之間進行匹配,以獲取數值數據。
進一步地,所述對提取到的所述數值信息進行數值表達形式統一化和數值單位統一化包括:將所述數值信息中的數值化信息轉化為相同的表達形式;將所述數值信息中不同表達形式的量綱轉化為相同表達形式的量綱。
進一步地,所述將符合匹配規則的所述統一化數值信息之間進行匹配,以獲取數值數據包括:基于預設的所述統一化數值信息類別的對應關系,對符合對應關系的所述統一化數值信息之間進行匹配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京擎盾信息科技有限公司,未經北京擎盾信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011045408.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種全自動化精密焊接線材彈片設備
- 下一篇:柔性線貼附PSA裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





