[發明專利]一種文本自動打標簽方法及其裝置和終端在審
| 申請號: | 202110150303.1 | 申請日: | 2021-02-03 |
| 公開(公告)號: | CN113312476A | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 周忠清;武昆峰;許冬件 | 申請(專利權)人: | 珠海卓邦科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F16/33;G06F40/242;G06F40/289;G06F16/951 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 盧澤明 |
| 地址: | 519000 廣東省珠海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 自動 標簽 方法 及其 裝置 終端 | ||
1.一種文本自動打標簽方法,其特征在于,包括以下步驟:
步驟S1,收集水務行業常用詞語建立自定義行業字典,收集文本常用停用詞建立停用詞字典;
步驟S2,對爬蟲爬取的HTML網頁進行處理,去除無關內容,獲取其中的文本數據再根據文本內容進行人工標注標簽,再利用分詞算法對文本數據進行分詞預處理,分詞過程中使用自定義行業字典對相關詞進行保留,分詞后使用停用詞字典和正則對無關詞進行去除,剩余詞建立語料庫;
步驟S3,利用自然語言相關技術對預處理后的詞語訓練詞向量,并建立語料庫和詞向量索引對應的詞向量庫;
在獲取訓練集數據和測試集數據時,對每個文本進行分詞處理后產生的詞語去語料庫中去獲取索引,再根據索引去詞向量庫中獲取對應的詞向量,結合文本所有的詞語獲取的詞向量建立每篇文本的文章向量,對文章向量集進行分割,形成訓練集及測試集;
步驟S4,獲取文章向量后,由于每篇文本的詞語數量存在不一致情況,對每篇文章的文章向量就進行降至指定維度;
步驟S5,針對文本的標簽較多,每個標簽對應樣本數據較少,即樣本存在正負樣本數量不平衡情況,采用采樣算法處理正負樣本不平衡問題,最終使每個標簽的正負樣本數據比例接近1∶1;
步驟S6,通過詞向量訓練集及測試集,對分類器模型進行訓練和評估,即訓練集數據和測試集數據處理完畢后,輸入訓練集數據到分類器模型中訓練模型,并通過網格搜索、交叉驗證方式對模型參數進行優化;
步驟S7,模型訓練完畢后,使用測試集數據對模型進行測試,根據準確率、召回率結果最終確認分類器模型;
步驟S8,根據分類器模型對處理后的文本進行打標分類;
步驟S9,對測試過程中沒有標簽的文本,采用新的標簽推薦算法模型推薦標簽,通過專家驗證后加入到標簽體系中。
2.根據權利要求1所述的一種文本自動打標簽方法,其特征在于,所述步驟S2和步驟S3中,將獲取文本數據進行分詞,去除停用詞,保留自定義詞典預處理方法進行預處理,利用自然語言技術中的BERT中文預訓練模型訓練詞向量,結合文本所有的詞語獲取的詞向量建立每篇文本的文章向量,對文章向量集進行分割,形成訓練集及測試集。
3.根據權利要求1所述的一種文本自動打標簽方法,其特征在于,所述步驟S5中,處理樣本不平衡的采樣算法包括SMOTE算法、BorderlineSMOTE算法、SVMSMOTE算法和ADASYN算法中的至少一種,并最終采用SVMSMOTE算法處理樣本不平衡。
4.根據權利要求1所述的一種文本自動打標簽方法,其特征在于,所述步驟S6中,根據處理后的文章向量訓練分類器,對通過網格搜索、迭代方式對模型進行優化,通過K-Fold準確率確定分類模型。
5.根據權利要求1所述的一種文本自動打標簽方法,其特征在于,所述步驟S9中,對測試過程中沒有標簽的文本采用TF-IDF標簽推薦算法進行推薦,并通過水務領域專家驗證來保證準確性。
6.根據權利要求5所述的一種文本自動打標簽方法,其特征在于,所述TF-IDF標簽推薦算法具體為:
對于沒有打上標簽的文本,使用TF-IDF算法模型提取文本的關鍵詞,TF表示指定詞在該文本中出現的次數,并進行歸一化處理,IDF反映指定詞在所有文本中出現的頻率;
TF的計算公式如下:
其中,Nw是在某一文本中詞語w出現的次數,N是該文本總詞語數;
IDF的計算公式如下:
其中,Y是文本的總數量,Yw是包含詞條的文檔數,分母加一是為了避免未出現在任何文檔中從而導致分母為0的情況;
TF-IDFw就是將TFw和IDFw相乘:
TF-IDFw=TFw*IDFw
將TF-IDFw較大的關鍵詞作為為文本的推薦標簽,通過水務行業專家確認后加入標簽體系或添加其他標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海卓邦科技有限公司,未經珠海卓邦科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110150303.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:冷卻回路以及具有冷卻回路的交通工具
- 下一篇:光學單元





