[發明專利]文本分類方法和裝置有效
| 申請號: | 201410143815.5 | 申請日: | 2014-04-10 |
| 公開(公告)號: | CN104978354B | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 黃凱峰;林寶晶;郭春 | 申請(專利權)人: | 中電長城網際系統應用有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 彭瑞欣;張天舒 |
| 地址: | 102200 北京市昌平區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 | ||
1.一種文本分類方法,其特征在于,包括:
從訓練集文本中獲取訓練集文本的特征詞;
所述從所述訓練集文本中獲取訓練集文本的特征詞包括:對所述訓練集文本的自然段進行劃分得出訓練文本塊,并為所述訓練文本塊設置塊標記;對所述訓練文本塊進行分詞處理和去停用詞處理,得出訓練集文本的待處理特征詞;通過特征詞提取方法,從所述訓練集文本的待處理特征詞中提取出所述訓練集文本的特征詞;
通過特征詞權重量化方法計算出所述訓練集文本的特征詞的權重;
根據所述訓練集文本的特征詞的權重,對所述訓練集文本的特征詞進行組合形成所述訓練集文本的特征詞對;
所述根據所述訓練集文本的特征詞的權重,對所述訓練集文本的特征詞進行組合形成所述訓練集文本的特征詞對包括:獲取與某一訓練集文本的特征詞位于同一自然段不同訓練文本塊中的權重最大的另一訓練集文本的特征詞;將某一訓練集文本的特征詞與權重最大的另一訓練集文本的特征詞進行組合,形成所述訓練集文本的特征詞對;
根據訓練集文本的特征詞對和與所述訓練集文本的特征詞對對應的訓練集文本的特征詞對的權重,生成訓練集文本向量;
對所述訓練集文本向量進行訓練,得出文本分類器;
根據待分類文本的特征詞對和與所述待分類文本的特征詞對對應的待分類文本的特征詞對的權重,生成待分類文本向量;
通過所述文本分類器對所述待分類文本向量進行分類,得出分類結果。
2.根據權利要求1所述的文本分類方法,其特征在于,所述根據所述訓練集文本的特征詞的權重,對所述訓練集文本的特征詞進行組合形成所述訓練集文本的特征詞對之后,所述根據訓練集文本的特征詞對和與所述訓練集文本的特征詞對對應的訓練集文本的特征詞對的權重,生成訓練集文本向量之前還包括:
所述訓練集文本的特征詞對形成訓練集文本的特征詞對集合;
根據所述訓練集文本的特征詞對中的訓練集文本的特征詞的權重,得出所述訓練集文本的特征詞對的原始權重;
根據所述訓練集文本的特征詞對中的訓練集文本的特征詞之間的塊間隔數,生成所述訓練集文本的特征詞對的權重系數;
根據所述訓練集文本的特征詞對的權重系數和所述訓練集文本的特征詞對的原始權重,生成所述訓練集文本的特征詞對的權重。
3.根據權利要求2所述的文本分類方法,其特征在于,
所述根據所述訓練集文本的特征詞對中的訓練集文本的特征詞的權重,得出所述訓練集文本的特征詞對的原始權重包括:從所述訓練集文本的特征詞對中的訓練集文本的特征詞的權重中選取較小的權重作為所述訓練集文本的特征詞對的原始權重;
所述根據所述訓練集文本的特征詞對中的訓練集文本的特征詞之間的塊間隔數,生成所述訓練集文本的特征詞對的權重系數包括:通過公式對訓練塊間隔數進行計算處理得出訓練集文本的特征詞對的權重系數,其中,hd為訓練集文本的特征詞之間的塊間隔數,f(hd)為訓練集文本的特征詞對的權重系數,所述訓練集文本的特征詞之間的塊間隔數為所述訓練集文本的特征詞對中訓練集文本的特征詞所在的訓練文本塊之間的最小間隔;
所述根據所述訓練集文本的特征詞對的權重系數和所述訓練集文本的特征詞對的原始權重,生成所述訓練集文本的特征詞對的權重包括:將所述訓練集文本的特征詞對的權重系數和所述訓練集文本的特征詞對的原始權重相乘,得出所述訓練集文本的特征詞對的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電長城網際系統應用有限公司,未經中電長城網際系統應用有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410143815.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種同義詞的識別方法及裝置
- 下一篇:一種桌面應用的生成控制方法、裝置及系統





