[發明專利]一種實體預標注方法和裝置以及設備在審
| 申請號: | 201911418886.0 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111177414A | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 李威;肖龍源;蔡振華;李稀敏;劉曉葳 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295 |
| 代理公司: | 廈門原創專利事務所(普通合伙) 35101 | 代理人: | 高巍 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 標注 方法 裝置 以及 設備 | ||
1.一種實體預標注方法,其特征在于,包括:
構建典型的實體標注數據庫;
根據所述構建的典型的實體標注數據庫,對所述實體標注數據庫中的實體標示實體類別與對應所述實體類別的關鍵詞;
根據所述標示的實體類別與對應所述實體類別的關鍵詞,對所述實體標注數據庫中的實體進行實體預標注模型訓練,訓練得到實體預標注模型;
根據所述訓練得到的實體預標注模型,對待標注實體進行預標注。
2.如權利要求1所述的實體預標注方法,其特征在于,所述構建典型的實體標注數據庫,包括:
采用對實體標注抽取重要類別、不同長度文本和常見錯別字文本方式,構建典型的實體標注數據庫。
3.如權利要求1所述的實體預標注方法,其特征在于,所述根據所述標示的實體類別與對應所述實體類別的關鍵詞,對所述實體標注數據庫中的實體進行實體預標注模型訓練,訓練得到實體預標注模型,包括:
根據所述標示的實體類別與對應所述實體類別的關鍵詞,結合變換器的雙向編碼器表征量、卷積神經網絡和雙向長短時記憶特征融合以及條件隨機場方式,對所述實體標注數據庫中的實體進行實體預標注模型訓練,訓練得到實體預標注模型。
4.如權利要求1所述的實體預標注方法,其特征在于,在所述根據所述訓練得到的實體預標注模型,對待標注實體進行預標注之后,還包括:
采用數據擴充的方式,對所述預標注后的實體數據進行優化。
5.一種實體預標注裝置,其特征在于,包括:
構建模塊、標示模塊、訓練模塊和預標注模塊;
所述構建模塊,用于構建典型的實體標注數據庫;
所述標示模塊,用于根據所述構建的典型的實體標注數據庫,對所述實體標注數據庫中的實體標示實體類別與對應所述實體類別的關鍵詞;
所述訓練模塊,用于根據所述標示的實體類別與對應所述實體類別的關鍵詞,對所述實體標注數據庫中的實體進行實體預標注模型訓練,訓練得到實體預標注模型;
所述預標注模塊,用于根據所述訓練得到的實體預標注模型,對待標注實體進行預標注。
6.如權利要求5所述的實體預標注裝置,其特征在于,所述構建模塊,具體用于:
采用對實體標注抽取重要類別、不同長度文本和常見錯別字文本方式,構建典型的實體標注數據庫。
7.如權利要求5所述的實體預標注裝置,其特征在于,所述訓練模塊,具體用于:
根據所述標示的實體類別與對應所述實體類別的關鍵詞,結合變換器的雙向編碼器表征量、卷積神經網絡和雙向長短時記憶特征融合以及條件隨機場方式,對所述實體標注數據庫中的實體進行實體預標注模型訓練,訓練得到實體預標注模型。
8.如權利要求5所述的實體預標注裝置,其特征在于,所述實體預標注裝置,還包括:
優化模塊;
所述優化模塊,用于采用數據擴充的方式,對所述預標注后的實體數據進行優化。
9.一種實體預標注設備,其特征在于,包括:
至少一個處理器;以及,
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如權利要求1至4中任一項所述的實體預標注方法。
10.一種計算機可讀存儲介質,存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至4中任一項所述的實體預標注方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911418886.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種阻燃可降解塑料及其制備方法
- 下一篇:一種屏幕及電子設備





