[發明專利]一種構建部署文本實體關系提取模型的方法和存儲設備有效
| 申請號: | 202011258349.7 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112417083B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 伍臣周;莊莉;蘇江文;王秋琳;宋立華 | 申請(專利權)人: | 福建億榕信息技術有限公司;國網信息通信產業集團有限公司;國網信通億力科技有限責任公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/36;G06F40/295 |
| 代理公司: | 福州市景弘專利代理事務所(普通合伙) 35219 | 代理人: | 魏小霞;林祥翔 |
| 地址: | 350000 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 構建 部署 文本 實體 關系 提取 模型 方法 存儲 設備 | ||
1.一種構建部署文本實體關系提取模型的方法,其特征在于,包括步驟:
在源碼管理平臺上按第一預設規范創建項目工程,在數據存儲平臺按第二預設規范創建數據存儲目錄;
采集數據,并按第三預設規范對所述數據進行預處理,并存儲預處理后的數據至對應的數據存儲目錄中;
根據第四預設規范對所述預處理后的數據進行標注,抽取評估數據,并根據第五預設規范對所述評估數據進行數據評估;
對標注后的數據進行切分成不同類型數據,所述不同類型數據包括以下中的一種或多種:訓練數據、測試數據、評估數據,存儲所述不同類型數據至對應的數據存儲目錄中;
選定訓練模型,并將所述不同類型數據進行處理使得符合所述訓練模型接收的數據格式,輸入處理后的訓練數據對所述訓練模型進行訓練;
根據處理后的測試數據和處理后的評估數據對訓練后的訓練模型進行模型評估,若評估合格,則發布評估合格的模型;
所述第一預設規范包括以下中的一種或多種:定義工程命名格式、定義過程數據、模型源碼、輔助工具、相關文檔存儲目錄;
所述第二預設規范包括以下中的一種或多種:定義數據存儲目錄命名格式,定義原始數據、預處理數據、標注數據、訓練數據存儲目錄、測試數據存儲目錄、評估數據存儲目錄;
所述第三預設規范包括:將非結構化文檔轉換為純文本文檔;
所述第四預設規范包括:使用json格式存儲標注數據,一份純文本文檔生成一份json文件;
所述第五預設規范包括以下中的一種或多種:各類數據數量分布情況、各類數據包含實體數量情況、標注質量、標注方式及時長;所述對標注后的數據進行切分成不同類型數據,所述不同類型數據包括以下中的一種或多種:訓練數據、測試數據、評估數據,存儲所述不同類型數據至對應的數據存儲目錄中,還包括步驟:
根據第六預設規范來劃分訓練數據,所述第六預設規范包括:將文本原本、標簽類型、關系類型、實體詳情、實體關系詳情分別存儲至不同的json文件;
根據第七預設規范來劃分測試數據,所述測試數據包括以下中的一種或多種:原始數據、標簽類型數據、關系類型數據;
根據第八預設規范來劃分評估數據,所述評估數據包括以下中的一種或多種:實體標注數據、實體關系數據。
2.根據權利要求1所述的一種構建部署文本實體關系提取模型的方法,其特征在于,所述根據處理后的測試數據和處理后的評估數據對訓練后的訓練模型進行模型評估,還包括步驟:
通過模型評估腳本對處理后的測試數據和處理后的評估數據進行計算得評估指標值,所述評估指標值包括以下中的一種或多種:準確率、召回率、F1值;
通過綜合分析訓練模型的不同評估維度判斷所述訓練模型是否可發布,所述不同評估維度包括以下中的一種或多種:評估指標值、運行環境、Badcase分析。
3.根據權利要求1所述的一種構建部署文本實體關系提取模型的方法,其特征在于,所述則發布評估合格的模型,還包括步驟:
對所述評估合格的模型的訓練進行自動化構建,并將所述模型的運行環境進行打包鏡像處理,根據模型發布規范發布評估合格的模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建億榕信息技術有限公司;國網信息通信產業集團有限公司;國網信通億力科技有限責任公司,未經福建億榕信息技術有限公司;國網信息通信產業集團有限公司;國網信通億力科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011258349.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種擾流式污水處理攪拌裝置
- 下一篇:一種便于清潔的裝配式陽臺封閉玻璃窗結構





