[發明專利]一種文本數據分類方法及服務器在審
| 申請號: | 201710356683.8 | 申請日: | 2017-05-19 |
| 公開(公告)號: | CN108959293A | 公開(公告)日: | 2018-12-07 |
| 發明(設計)人: | 馬洪芹 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征詞 目標類別 服務器 文本數據 影響因子 目標文本數據 文本數據分類 特征向量 組合詞 詞語 服務器獲取 次數計算 分類模型 權重因子 預設條件 準確度 詞組合 分類 | ||
本發明實施例公開了一種文本數據分類方法及服務器,該方法包括:服務器獲取S類文本數據中的特征詞并確定每個特征詞在所屬文本數據類別中的影響因子,該每個特征詞的影響因子為根據該每個特征詞在所屬的文本數據類別中出現的次數計算得到;該服務器將目標類別中該影響因子滿足預設條件的特征詞組合以得到該目標類別的組合詞,該目標類別為該S類中的任意一類;該服務器生成描述目標文本數據的特征向量,描述該目標文本數據的特征向量包含與該目標類別中的該特征詞和該組合詞兩類詞語中每個詞語一一對應的權重因子。采用本發明實施例,能夠訓練出分類的準確度更高的分類模型。
技術領域
本發明涉及計算機技術領域,尤其涉及一種文本數據分類方法及服務器。
背景技術
支持向量機(英文:Support Vector Machine,簡稱:SVM)是一個有監督的學習模型,通常用來進行模式識別、分類、以及回歸分析等。圖1A是現有技術中基于SVM算法進行數據分類的流程示意圖,具體包括:
分類服務器獲取已分類的文本數據并通過預設的分詞算法提取該已分類的文本數據中的特征詞。計算各個特征詞的權重并通過向量分別表示每個特征詞的權重。將得到的向量中的一部分向量作為訓練集,以及將得到的向量中的另一部分向量作為測試集。通過SVM訓練系統對該訓練集中的向量進行分析以得到模型文件,通過該模型文件對該測試集中的向量分類。參照預先分類的結果判斷通過該分類模型分類的結果的錯誤率是否在預設范圍內,若錯誤率不在預設范圍內,則重新獲取訓練集并基于獲取的新訓練集計算模型文件,若錯誤率在預設范圍內,則將該模型文件作為對文本數據進行分類的模型。然后,獲取未分類數據并通過預設的分詞算法提取該未分類數據中的特征詞;計算各個特征詞的權重并通過向量表示特征詞的權重;通過分類的錯誤率落入預設范圍的模型文件對該向量分類并輸出分類結果。
請參見圖1B,文本數據根據內容性質通常可以分為主題單一的文本數據和主題多樣化的文本數據,例如,一個游戲網站主要含有游戲相關的特征詞,因此屬于主題單一的文本數據;再如,一個購物網站可能含有電子產品、家用產品、美容產品等多個領域的特征詞,因此屬于主題多樣化的文本數據。主題多樣化的文本數據分類分為兩種情況,一種情況是無論分類結果怎么樣后續針對該文本數據的操作相同,可稱這種情況為兼容情況;另一種情況是分類結果不同則后續針對該文本數據的操作不同,可稱這種情況為非兼容情況。兼容情況和非兼容情況均存在兩種分類方案,一種分類方案是分類結果只能分出一個類別,另一種分類方案是分類結果需要分出多個類別。對于非兼容情況下只能分出一個類別的方案而言,很容易出現分類錯誤的情況,從而導致后續對文本數據的操作(例如,當文本數據為網頁時該操作可以為阻斷、重定向、推送警告等)出錯,例如,毒癮治療的網站既包含了用于表征毒品類別的特征詞,又包含了表征健康醫療類別的特征詞;屬于毒品類別的網站需要阻斷而屬于健康醫療類別的網站不需要阻斷,如果一個屬于健康醫療類別的網站被錯誤地歸類為了毒品類別的網站,則會導致該網站被阻斷而無法被用戶訪問。綜上所述,如何提高對主題多樣化的文本數據分類的準確度是本領域的技術人員急需解決的技術問題。
發明內容
本發明實施例所要解決的技術問題在于,提供一種文本數據分類方法和服務器,能夠訓練出分類的準確度更高的分類模型。
第一方面,本發明實施例提供了一種文本數據分類方法,該方法包括:服務器獲取S類文本數據中的特征詞并確定每個特征詞在所屬文本數據類別中的影響因子,該每個特征詞的影響因子為根據該每個特征詞在所屬的文本數據類別中出現的次數計算得到,該S類中每類文本數據包括至少一個文本數據,S為大于等于1的正整數;該服務器將目標類別中該影響因子滿足預設條件的特征詞組合以得到該目標類別的組合詞,該目標類別為該S類中的任意一類;該服務器生成描述目標文本數據的特征向量,描述該目標文本數據的特征向量包含與該目標類別中的該特征詞和該組合詞兩類詞語中每個詞語一一對應的權重因子,該每個詞語對應的權重因子的數值大小與該每個詞語在該目標文本數據中出現的次數呈正相關,該目標文本數據為該目標類別的文本數據中的任意一個文本數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710356683.8/2.html,轉載請聲明來源鉆瓜專利網。





