[發明專利]一種文本分類打標框架在審
| 申請號: | 202310202398.6 | 申請日: | 2023-02-23 |
| 公開(公告)號: | CN116204835A | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 蔡奇 | 申請(專利權)人: | 杭州貝賽迪科技有限公司 |
| 主分類號: | G06F18/2431 | 分類號: | G06F18/2431;G06F16/35;G06N20/00 |
| 代理公司: | 北京億知臻成專利代理事務所(普通合伙) 16123 | 代理人: | 張毅 |
| 地址: | 310000 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 框架 | ||
本發明提供一種文本分類打標框架,涉及文本分類技術領域。包括采用多標簽的方式引入語義和標簽差異進行建模,該方法包括以下步驟:S1、標簽體系規劃。由運營專家根據業務需求規劃標簽體系,以樹型結構呈現。S2、訓練語料標注。根據標簽體系制定相應的標注規范,參考該規范由人工對一批資訊數據進行打標,生產訓練數據。S3、數據預處理及采樣。對訓練數據中的標題、正文等字段進行預處理,如去除空白字符、字段拼接等;針對訓練數據中標簽分布不平衡問題,進行欠采樣、過采樣等操作。S4、分類打標任務配置。根據標簽體系進行任務配置,包括任務類型、標簽樹定義等。
技術領域
本發明涉及標簽識別技術領域,特別涉及一種文本分類打標框架。
背景技術
文本,是指書面語言的表現形式,從文學角度說,通常是具有完整、系統含義的一個句子或多個句子的組合。一個文本可以是一個句子、一個段落或者一個篇章廣義“文本”:任何由書寫所固定下來的任何話語。(利科爾)狹義“文本”:由語言文字組成的文學實體,代指“作品”,相對于作者、世界構成一個獨立、自足的系統。
傳統的文本在進行分類時需要進行打標框架,并且現有的打標框架并沒有將多分類、多標簽分類、層級標簽分類這三個細分問題統一到一個模型框架內,而且沒有將層級標簽信息建模與預訓練技術有機結合起來。
發明內容
(一)解決的技術問題
針對現有技術的不足,本發明提供了一種文本分類打標框架,解決了傳統的文本在進行分類時需要進行打標框架,并且現有的打標框架并沒有將多分類、多標簽分類、層級標簽分類這三個細分問題統一到一個模型框架內,而且沒有將層級標簽信息建模與預訓練技術有機結合起來的問題。
(二)技術方案
為實現以上目的,本發明通過以下技術方案予以實現:一種文本分類打標框架,包括采用多標簽的方式引入語義和標簽差異進行建模,該方法包括以下步驟:
S1、標簽體系規劃。由運營專家根據業務需求規劃標簽體系,以樹型結構呈現。
S2、訓練語料標注。根據標簽體系制定相應的標注規范,參考該規范由人工對一批資訊數據進行打標,生產訓練數據。
S3、數據預處理及采樣。對訓練數據中的標題、正文等字段進行預處理,如去除空白字符、字段拼接等;針對訓練數據中標簽分布不平衡問題,進行欠采樣、過采樣等操作。
S4、分類打標任務配置。根據標簽體系進行任務配置,包括任務類型、標簽樹定義等。
S5、分類打標模型訓練。加載模型配置,將訓練數據輸入模型進行訓練。
S6、模型持久化。訓練完成后將模型存儲到本地,用于在線預測。
S7、實時資訊流。對資訊隊列中的實時數據依次處理。
S8、文章預處理。預處理方式與S3中保持一致。
S9、分類打標模型預測。加載持久化后的模型,進行打標推理。
S10、打標結果持久化。將文章及相應模型打標結果入庫存儲。
優選的,所述訓練數據轉tfrecord格式,用助于加速模型訓練。
進一步,所述分類打標模型使用基于ELECTRA預訓練模型的技術,以f?i?netun?ing的方式完成訓練。
更進一步,所述一級標簽輸出層根據一級標簽個數使用全連接網絡實現。
更加進一步,所述根據一級標簽與二級標簽的父子映射關系,結合一級標簽輸出層,生成由0/1組成的mask?i?ng向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州貝賽迪科技有限公司,未經杭州貝賽迪科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310202398.6/2.html,轉載請聲明來源鉆瓜專利網。





