[發明專利]一種文本標注方法、裝置、電子設備及存儲介質有效
| 申請號: | 202110986482.2 | 申請日: | 2021-08-26 |
| 公開(公告)號: | CN113723051B | 公開(公告)日: | 2023-09-15 |
| 發明(設計)人: | 李釗;趙凱;鄧曉雨;劉巖;宋慧駒 | 申請(專利權)人: | 泰康保險集團股份有限公司 |
| 主分類號: | G06F40/117 | 分類號: | G06F40/117;G06F40/126;G06F40/216;G06F40/30;G06F18/214;G06F16/33 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 王寧寧 |
| 地址: | 100031 北京市西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 標注 方法 裝置 電子設備 存儲 介質 | ||
1.一種文本標注方法,其特征在于,包括:
獲取待標注文本,并接收用戶針對所述待標注文本輸入的關鍵詞;
根據所述待標注文本生成文本數據特征,并根據所述關鍵詞生成關鍵詞特征;
通過特征融合模型對所述文本數據特征和所述關鍵詞特征進行處理,得到針對所述待標注文本的文本標注結果;所述特征融合模型包括相同數量的交叉注意力模塊和融合注意力模塊,所述交叉注意力模塊和所述融合注意力模塊交替排列;其中,所述交叉注意力模塊用于根據所述文本數據特征和所述關鍵詞特征生成交叉文本數據特征和交叉關鍵詞特征,所述融合注意力模塊用于根據所述交叉文本數據特征和所述交叉關鍵詞特征生成所述文本標注結果;所述文本標注結果用于指示所述關鍵詞在所述待標注文本中的位置;
所述特征融合模型是基于訓練數據集中的訓練樣本的樣本特征和樣本關鍵詞特征訓練得到的;
所述樣本關鍵詞特征是通過如下方式生成的:
將包含在待訓練關鍵詞集合中,且未包含在所述訓練樣本中的待訓練關鍵詞,使用預設字符進行替換,得到所述訓練樣本對應的樣本關鍵詞表;所述待訓練關鍵詞集合是根據所述訓練數據集生成的;
根據所述樣本關鍵詞表中的每個字符對應的字符標識,得到標識樣本關鍵詞特征;
將所述標識樣本關鍵詞特征中的各個字符標識分別與對應的位置編碼相加,得到樣本關鍵詞特征。
2.根據權利要求1所述的方法,其特征在于,所述特征融合模型的訓練過程包括:
根據訓練數據集中的訓練樣本,生成用于訓練特征融合模型的樣本特征;
根據所述訓練數據集生成待訓練關鍵詞集合,并根據所述待訓練關鍵詞集合生成用于訓練特征融合模型的樣本關鍵詞特征;
基于所述樣本特征以及所述樣本關鍵詞特征,對待訓練的特征融合模型進行迭代訓練,得到已訓練的特征融合模型。
3.根據權利要求2所述的方法,其特征在于,所述根據訓練數據集中的訓練樣本,生成用于訓練特征融合模型的樣本特征,包括:
根據所述訓練樣本中的每個字符對應的字符標識,得到所述訓練樣本的標識樣本特征;
將所述標識樣本特征中的各個字符標識分別與對應的位置編碼相加,得到所述樣本特征。
4.根據權利要求2所述的方法,其特征在于,基于所述樣本特征以及所述樣本關鍵詞特征訓練待訓練的特征融合模型,得到已訓練的特征融合模型,包括:
將所述樣本特征以及所述樣本關鍵詞特征輸入特征融合單元,得到融合特征向量;所述特征融合模型包括至少一個特征融合單元,所述特征融合單元包括交叉注意力模塊和融合注意力模塊;
將所述融合特征向量輸入預測單元,得到預測概率;
根據所述預測概率確定損失值,并根據所述損失值調整特征融合模型的參數,直至所述損失值滿足閾值為止,得到所述已訓練的特征融合模型。
5.根據權利要求4所述的方法,其特征在于,所述將所述樣本特征以及所述樣本關鍵詞特征輸入特征融合單元,得到融合特征向量,包括:
將所述樣本特征以及所述樣本關鍵詞特征輸入交叉注意力模塊中,得到交叉關鍵詞特征向量和交叉樣本特征向量;
將所述交叉關鍵詞特征向量和所述交叉樣本特征向量輸入融合注意力模塊,得到融合關鍵詞特征向量和融合樣本特征向量,以作為下一個特征融合單元的輸入;所述特征融合模型輸出的融合特征向量為最后一層的特征融合單元得到的融合樣本特征向量中設定維度對應的特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于泰康保險集團股份有限公司,未經泰康保險集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110986482.2/1.html,轉載請聲明來源鉆瓜專利網。





