[發(fā)明專利]文本分類方法、裝置、計算機設(shè)備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010568354.1 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111723206A | 公開(公告)日: | 2020-09-29 |
| 發(fā)明(設(shè)計)人: | 李函擎 | 申請(專利權(quán))人: | 北京明略軟件系統(tǒng)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216 |
| 代理公司: | 北京超成律師事務(wù)所 11646 | 代理人: | 裴素英 |
| 地址: | 100000 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 分類 方法 裝置 計算機 設(shè)備 存儲 介質(zhì) | ||
本申請?zhí)峁┝艘环N文本分類方法、裝置、計算機設(shè)備和存儲介質(zhì),該方法包括:生成多個主題數(shù);針對多個主題數(shù)中的每個主題數(shù),根據(jù)多個文本中包括的詞匯的詞頻,對每個文本屬于該主題數(shù)個主題的初始概率進行校準(zhǔn),得到每個文本屬于該主題數(shù)個主題的校準(zhǔn)概率;針對多個主題數(shù)中的每個主題數(shù),基于每個文本屬于該主題數(shù)個主題的校準(zhǔn)概率對所述多個文本進行預(yù)分類處理的分類結(jié)果,從所述多個主題數(shù)中,選擇目標(biāo)主題數(shù);基于所述目標(biāo)主題數(shù),對所述多個文本進行分類處理,得到所述多個文本的分類結(jié)果。本申請能夠提供對文本進行分類的分類結(jié)果的準(zhǔn)確度。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體而言,涉及一種文本分類方法、裝置、計算機設(shè)備和存儲介質(zhì)。
背景技術(shù)
將文本信息按照相應(yīng)的主題進行文本聚類在文本處理領(lǐng)域有著非常重要的應(yīng)用,然而由于文本信息覆蓋面非常廣,每天產(chǎn)生的文本信息數(shù)目也非常巨大,因此,開展大規(guī)模文本聚類分析有著非常重要的意義。
現(xiàn)有的文本聚類分析在主題個數(shù)增大的情況下,如果限制主題數(shù)量,則在不同主題下的文本將會混雜在一起,最終得到的分類結(jié)果的準(zhǔn)確度比較低。
發(fā)明內(nèi)容
有鑒于此,本申請的目的在于提供一種文本分類方法、裝置、計算機設(shè)備和存儲介質(zhì),用以提高文本分類結(jié)果的準(zhǔn)確度。
第一方面,本申請實施例提供了一種文本分類方法,該方法包括:
生成多個主題數(shù);
針對多個主題數(shù)中的每個主題數(shù),根據(jù)多個文本中包括的詞匯的詞頻,對每個文本屬于該主題數(shù)個主題的初始概率進行校準(zhǔn),得到每個文本屬于該主題數(shù)個主題的校準(zhǔn)概率;
針對多個主題數(shù)中的每個主題數(shù),基于每個文本屬于該主題數(shù)個主題的校準(zhǔn)概率對所述多個文本進行預(yù)分類處理的分類結(jié)果,從所述多個主題數(shù)中,選擇目標(biāo)主題數(shù);
基于所述目標(biāo)主題數(shù),對所述多個文本進行分類處理,得到所述多個文本的分類結(jié)果。
在一種實施方式中,針對多個主題數(shù)中的每個主題數(shù),根據(jù)多個文本中包括的詞匯的詞頻,對每個文本屬于該主題數(shù)個主題的初始概率進行校準(zhǔn),得到每個文本屬于該主題數(shù)個主題的校準(zhǔn)概率,包括:
根據(jù)多個文本中包括的詞匯的詞頻,為所述多個文本生成詞頻矩陣;所述詞頻矩陣包括每個文本中表征詞匯重要性的詞匯權(quán)重;
針對每個主題數(shù),基于每個文本屬于該主題數(shù)個主題的初始概率,以及每個文本在每個主題下的初始系數(shù),生成所述多個文本對應(yīng)的生成矩陣;
按照生成矩陣與詞頻矩陣之間的距離最小原則,調(diào)整每個文本屬于該主題數(shù)個主題的初始概率,得到每個文本屬于該主題數(shù)個主題的校準(zhǔn)概率。
在一種實施方式中,針對多個主題數(shù)中的每個主題數(shù),基于每個文本屬于該主題數(shù)個主題的校準(zhǔn)概率對所述多個文本進行預(yù)分類處理的分類結(jié)果,從所述多個主題數(shù)中,選擇目標(biāo)主題數(shù),包括:
基于每個文本屬于該主題數(shù)個主題的校準(zhǔn)概率對所述多個文本進行預(yù)分類的分類結(jié)果,以及預(yù)設(shè)的分類結(jié)果和評估系數(shù)之間的計算關(guān)系,得到該主題數(shù)對應(yīng)的評估系數(shù);
將最大評估系數(shù)對應(yīng)的主題數(shù)作為所述目標(biāo)主題數(shù)。
在一種實施方式中,基于所述目標(biāo)主題數(shù),對所述多個文本進行分類處理,得到所述多個文本的分類結(jié)果,包括:
針對每個文本,基于該文本屬于所述目標(biāo)主題數(shù)個主題的校準(zhǔn)概率,從所述目標(biāo)主題數(shù)個主題中,確定該文本所屬的主題;
將屬于同一個主題的文本確定為一個分類。
在一種實施方式中,根據(jù)多個文本中包括的詞匯的詞頻,為所述多個文本生成詞頻矩陣,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京明略軟件系統(tǒng)有限公司,未經(jīng)北京明略軟件系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010568354.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





