[發明專利]一種文本分類方法、裝置、終端及存儲介質有效
| 申請號: | 201811495730.8 | 申請日: | 2018-12-07 |
| 公開(公告)號: | CN109284392B | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 王正魁;賈志強;張世西 | 申請(專利權)人: | 達闥機器人有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京智晨知識產權代理有限公司 11584 | 代理人: | 張婧 |
| 地址: | 200245 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 裝置 終端 存儲 介質 | ||
1.一種文本分類方法,其特征在于,包括:
提取待分類文本的文本特征;
通過最佳匹配模型BM25算法,確定每個待分類文本的文本特征與各個類別的語料的相關度;
根據每個所述待分類文本的文本特征與各個類別的語料的相關度,確定所述待分類文本屬于各個類別的置信度;其中,所述根據每個所述待分類文本的文本特征與各個類別的語料的相關度,確定所述待分類文本屬于各個類別的置信度,具體包括:
針對每個類別,分別進行以下操作:確定每個所述待分類文本的文本特征在所述類別的語料中出現的次數;根據每個所述待分類文本的文本特征與所述類別的語料的相關度和所述每個所述待分類文本的文本特征在所述類別的語料中出現的次數,確定所述待分類文本相對于所述類別的類條件概率;根據所述待分類文本相對于所述類別的類條件概率,確定所述待分類文本屬于所述類別的置信度;
根據所述待分類文本屬于各個類別的置信度,確定所述待分類文本所屬的類別。
2.根據權利要求1所述的文本分類方法,其特征在于,所述待分類文本的文本特征由所述待分類文本中任意M個字符組成,M為大于1的正整數。
3.根據權利要求2所述的文本分類方法,其特征在于,所述提取待分類文本的文本特征,具體包括:
確定指示數據;其中,所述指示數據用于指示是否考慮提取的字符各自在所述待分類文本中的先后順序;
判斷所述指示數據是否指示考慮提取的字符各自在所述待分類文本中的先后順序;
若確定是,在一次文本特征的提取過程中,從所述待分類文本中提取M個字符,其中,所述M個字符未被同時提取過;按所述M個字符在所述待分類文本中的先后順序,確定所述M個字符的先后順序;按照所述M個字符的先后順序,組合所述M個字符,得到本次提取過程中的所述待分類文本的文本特征,記錄本次提取得到的待分類文本的文本特征;判斷所述待分類文本中是否存在T個字符未被同時提取過,若確定是,進行下一次文本特征的提取過程,直至所述待分類文本中任意T個字符均被同時提取過;其中,T等于M,為正整數;
否則,在一次文本特征的提取過程中,從所述待分類文本中提取M個字符,其中,所述M個字符未被同時提取過;按所述M個字符的字符特征,確定所述M個字符的先后順序;按照所述M個字符的先后順序,組合所述M個字符,得到本次提取過程中的所述待分類文本的文本特征,記錄本次提取得到的待分類文本的文本特征;判斷所述待分類文本中是否存在T個字符未被同時提取過;若確定是,進行下一次文本特征的提取過程,直至所述待分類文本中任意T個字符均被同時提取過;其中,T等于M,為正整數。
4.根據權利要求2所述的文本分類方法,其特征在于,所述提取待分類文本的文本特征,具體包括:
提取所述待分類文本的候選文本特征,所述候選文本特征由待分類文本中的任意M個字符組成,且所述候選文本特征中的M個字符的先后順序與所述M個字符在所述待分類文本中的先后順序相同;
確定指示數據;其中,所述指示數據用于指示是否考慮提取的字符各自在所述待分類文本中的先后順序;
判斷指示數據是否指示考慮提取的字符各自在所述待分類文本中的先后順序;
若確定是,將所述候選文本特征作為所述待分類文本的文本特征;
否則,針對每個所述候選文本特征,分別進行以下操作:按照所述候選文本特征中的M個字符的字符特征,調整所述候選文本特征,得到所述待分類文本的文本特征。
5.根據權利要求1至4中任一項所述的文本分類方法,其特征在于,所述通過最佳匹配模型BM25算法,確定每個待分類文本的文本特征與各個類別的語料的相關度,具體包括:
針對每個待分類文本的文本特征,分別進行以下操作:確定所述待分類文本的文本特征的逆向文檔概率;根據所述待分類文本的文本特征的逆向文檔概率,確定所述待分類文本的文本特征與各個類別的語料的相關度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達闥機器人有限公司,未經達闥機器人有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811495730.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文獻自動分類方法
- 下一篇:一種針對家譜人物屬性名稱的融合方法





