[發明專利]一種文本分類方法及裝置有效
| 申請號: | 201711044663.3 | 申請日: | 2017-10-31 |
| 公開(公告)號: | CN107844553B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 王妍 | 申請(專利權)人: | 浪潮通用軟件有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/216 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 裝置 | ||
1.一種文本分類方法,其特征在于,包括:
預先確定至少兩個分類類別所分別對應的至少一個特征詞;
利用每一個所述分類類別所分別對應的至少一個特征詞訓練初始分類器,以形成目標分類器;還包括:
從待分類文本中提取至少一個特征分詞;
將所述至少一個特征分詞輸入所述目標分類器,并接收所述目標分類器根據所述至少一個特征分詞輸出的當前分類類別;
將接收的所述當前分類類別確定為所述待分類文本所屬的分類類別;
所述確定至少兩個分類類別所分別對應的至少一個特征詞,包括:
獲取至少兩個參考文本,并確定每一個所述參考文本所分別對應的分類類別;
針對于每一個所述參考文本,從當前所述參考文本中提取至少一個備選分詞;
計算每一個所述備選分詞與各個所述分類類別之間所分別對應的第一權重值;
根據每一個所述備選分詞與各個所述分類類別之間所分別對應的第一權重值,從各個所述當前備選分詞中確定出每一個所述分類類別所分別對應的至少一個特征詞;
所述計算每一個所述備選分詞與各個所述分類類別之間所分別對應的第一權重值,包括:
通過如下公式計算每一個所述備選分詞與各個所述分類類別之間所分別對應的第一權重值:
其中,Wj,k是第j個備選分詞tj與第k個分類類別之間對應的第一權重值、TF(tj,k)是備選分詞tj在第k個分類類別所對應的各個參考文本中出現的頻次、nk是在第k個分類類別所對應的各個參考文本的第一文本數量、nj是各個參考文本中所有包含備選分詞tj的第二文本數量、L為常數;
所述針對于每一個所述參考文本,從當前所述參考文本中提取至少一個備選分詞,包括:
針對于每一個所述參考文本,執行:
對當前所述參考文本進行分詞處理以獲取至少兩個分詞;
去除所述至少兩個分詞中不符合預設規則的分詞以得到至少兩個特征分詞;
從所述至少兩個特征分詞中提取至少一個備選分詞;
所述從所述至少兩個特征分詞中提取至少一個備選分詞,包括:
通過TF-IDF算法計算每一個所述特征分詞所分別對應的第二權重值;
將對應第二權重值不小于預設閾值的各個所述特征分詞確定為備選分詞。
2.一種文本分類裝置,其特征在于,包括:
特征詞確定模塊,用于預先確定至少兩個分類類別所分別對應的至少一個特征詞;
訓練模塊,用于利用每一個所述分類類別所分別對應的至少一個特征詞訓練初始分類器,以形成目標分類器;
特征詞提取模塊,用于從待分類文本中提取至少一個特征分詞;
處理模塊,用于將所述至少一個特征分詞輸入所述目標分類器,并接收所述目標分類器根據所述至少一個特征分詞輸出的當前分類類別;
分類模塊,用于將接收的所述當前分類類別確定為所述待分類文本所屬的分類類別;
所述特征詞確定模塊,包括:樣本確定單元、分詞處理單元、計算單元和特征詞確定單元;其中,
所述樣本確定單元,用于獲取至少兩個參考文本,并確定每一個所述參考文本所分別對應的分類類別;
所述分詞處理單元,用于針對于每一個所述參考文本,從當前所述參考文本中提取至少一個備選分詞;
所述計算單元,用于計算每一個所述備選分詞與各個所述分類類別之間所分別對應的第一權重值;
所述特征詞確定單元,用于根據每一個所述備選分詞與各個所述分類類別之間所分別對應的第一權重值,從各個所述當前備選分詞中確定出每一個所述分類類別所分別對應的至少一個特征詞;
所述計算單元,用于通過如下公式計算每一個所述備選分詞與各個所述分類類別之間所分別對應的第一權重值:
其中,Wj,k是第j個備選分詞tj與第k個分類類別之間對應的第一權重值、TF(tj,k)是備選分詞tj在第k個分類類別所對應的各個參考文本中出現的頻次、nk是在第k個分類類別所對應的各個參考文本的第一文本數量、nj是各個參考文本中所有包含備選分詞tj的第二文本數量、L為常數;
所述分詞處理單元,用于針對于每一個所述參考文本,執行:
對當前所述參考文本進行分詞處理以獲取至少兩個分詞;
去除所述至少兩個分詞中不符合預設規則的分詞以得到至少兩個特征分詞;
從所述至少兩個特征分詞中提取至少一個備選分詞;
所述分詞處理單元,用于通過TF-IDF算法計算每一個所述特征分詞所分別對應的第二權重值;將對應第二權重值不小于預設閾值的各個所述特征分詞確定為備選分詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮通用軟件有限公司,未經浪潮通用軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711044663.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:彈性履帶和彈性履帶裝置
- 下一篇:用于監測車身組裝線的驅動部的方法及其裝置





