[發明專利]一種文本分類方法及智能設備在審
| 申請號: | 202210080130.5 | 申請日: | 2022-01-24 |
| 公開(公告)號: | CN114491034A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 車進 | 申請(專利權)人: | 聚好看科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/205;G06F40/284 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 郭放;許偉群 |
| 地址: | 266061 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 智能 設備 | ||
1.一種文本分類方法,其特征在于,包括:
獲取待分類文本;
計算每個分類標簽對應類別的支撐詞得分,所述支撐詞得分為所述待分類文本中關鍵詞的逆向文本頻率IDF數值;所述支撐詞為所述IDF數值大于預設IDF判斷值的關鍵詞;
將所述待分類文本切分為多個文本片段;
計算每個所述文本片段的第一得分,所述第一得分為類別得分向量的信息熵;所述類別得分向量為所述文本片段對于每個類別的零次學習模型分類結果組成的向量;
計算每個所述文本片段的第二得分,所述第二得分根據所述文本片段中的所述支撐詞得分計算獲得;
計算綜合得分,所述綜合得分為所述第一得分和所述第二得分的標準化求和結果;
根據所述綜合得分重新切分所述待分類文本,以及將重新切分結果輸入自然語言處理模型。
2.根據權利要求1所述的文本分類方法,其特征在于,計算每個分類標簽對應類別的支撐詞得分的步驟包括:
基于預設詞庫,剔除所述待分類文本中的噪聲詞,以獲得關鍵詞集合;
遍歷所述關鍵詞集合中每個關鍵詞在所述待分類文本中的出現總次數;
遍歷所述關鍵詞集合中每個關鍵詞在每個類別中的出現次數;
計算所述出現次數與所述出現總次數的比值,以獲得所述IDF數值。
3.根據權利要求2所述的文本分類方法,其特征在于,遍歷所述關鍵詞集合中每個關鍵詞在所述待分類文本中的出現總次數的步驟后,所述方法還包括:
獲取預設低頻詞概率;
計算第一超參數,所述第一超參數用于判斷關鍵詞中的低頻詞;
剔除所述關鍵詞集合中的低頻詞,所述低頻詞為所述出現總次數小于第一超參數的關鍵詞。
4.根據權利要求2所述的文本分類方法,其特征在于,獲得所述IDF數值的步驟后,所述方法還包括:
計算歸一得分量,所述歸一得分量為類別總數的倒數;
設置第二超參數,所述第二超參數為大于0,小于或等于所述類別總數的常數;
計算所述第二超參數與所述歸一得分量的乘積,以獲得IDF判斷值;
如果所述IDF數值大于所述IDF判斷值,標記所述IDF數值對應的關鍵詞為當前類別的支撐詞;
如果所述IDF數值小于或等于所述IDF判斷值,標記所述IDF數值對應的關鍵詞不是當前類別的支撐詞。
5.根據權利要求1所述的文本分類方法,其特征在于,將所述待分類文本切分為多個文本片段的步驟包括:
遍歷所述待分類文本中的句子標識,所述句子標識包括標點符號、段落符號以及空格字符;
按照所述句子標識將所述待分類文本逐句拆分,以獲得句子集合;
設置第三超參數,所述第三超參數用于表征每個文本片段中包含的句子數;
根據所述第三超參數,在所述句子集合中提取文本片段。
6.根據權利要求1所述的文本分類方法,其特征在于,計算每個所述文本片段的第一得分的步驟包括:
獲取零次學習模型,所述零次學習模型以所述文本片段作為文本輸入,以所述分類標簽作為類別描述輸入,以每個類別的分類結果得分作為輸出;
將所述文本片段輸入所述零次學習模型,以獲得所述零次學習模型輸出的每個文本片段對每個類別的分類結果得分;
將每個類別的分類結果得分組合,以形成所述類別得分向量;
按照下式計算所述類別得分向量的信息熵,以獲得所述第一得分:
式中,為第一得分,N為類別總數;scorei,j為文本片段i對類別j的分類結果得分。
7.根據權利要求1所述的文本分類方法,其特征在于,計算每個所述文本片段的第二得分的步驟包括:
根據所述支撐詞得分計算關鍵詞最終得分,所述關鍵詞最終得分為關鍵詞對于所有類別的支撐詞得分的最大值或者平均值;
遍歷文本片段中各類別對應關鍵詞的次數;
按照下式計算所述第二得分:
式中,為第二得分;為關鍵詞k的最終得分;count(i,k)為文本片段i中出現類別對應關鍵詞的次數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聚好看科技股份有限公司,未經聚好看科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210080130.5/1.html,轉載請聲明來源鉆瓜專利網。





