[發(fā)明專利]文本分類模型的訓(xùn)練方法、文本分類方法、裝置和設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202111419915.2 | 申請(qǐng)日: | 2021-11-26 |
| 公開(公告)號(hào): | CN114281939A | 公開(公告)日: | 2022-04-05 |
| 發(fā)明(設(shè)計(jì))人: | 秦悅;李明亮;吳天昊;莊孺義 | 申請(qǐng)(專利權(quán))人: | 中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/35;G06F40/216;G06F40/289;G06K9/62 |
| 代理公司: | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 楊澤;臧建明 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 分類 模型 訓(xùn)練 方法 裝置 設(shè)備 | ||
本申請(qǐng)?zhí)峁┮环N文本分類模型的訓(xùn)練方法、文本分類方法、裝置和設(shè)備,該方法包括:獲取多條瀏覽器的歷史彈窗內(nèi)的文本信息;對(duì)每個(gè)文本信息進(jìn)行分詞處理,根據(jù)分詞結(jié)果確定出每個(gè)文本信息對(duì)應(yīng)的第一特征向量;對(duì)第一特征向量進(jìn)行聚類,得到至少一個(gè)文本信息組;從每個(gè)文本信息組中,分別選出至少一條目標(biāo)文本信息,并對(duì)每個(gè)目標(biāo)文本信息添加類型標(biāo)識(shí),以形成至少一個(gè)文本信息模板;根據(jù)至少一個(gè)文本信息模板,對(duì)初始文本分類模型進(jìn)行訓(xùn)練,得到文本分類模型。通過該方法,能夠解決現(xiàn)有技術(shù)中無法對(duì)瀏覽器彈窗日志進(jìn)行分析的問題,基于訓(xùn)練得到的文本分類模型對(duì)系統(tǒng)進(jìn)行監(jiān)測(cè)和分析,能夠提高系統(tǒng)運(yùn)維效率。
技術(shù)領(lǐng)域
本申請(qǐng)涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種文本分類模型的訓(xùn)練方法、文本分類方法、裝置和設(shè)備。
背景技術(shù)
隨著信息化、數(shù)字化的不斷深入,運(yùn)維過程的智能化程度不斷提升。日志數(shù)據(jù)作為互聯(lián)網(wǎng)技術(shù)(Internet Technology,IT)的重要輸出,在監(jiān)測(cè)、分析系統(tǒng)運(yùn)行情況方面發(fā)揮著重要的作用。
現(xiàn)有技術(shù)中針對(duì)運(yùn)維日志的分析主要是針對(duì)機(jī)器人的運(yùn)行日志進(jìn)行分析,缺少針對(duì)瀏覽器彈窗日志分析方法。瀏覽器彈窗日志為用戶通過瀏覽器訪問系統(tǒng)時(shí),瀏覽器上彈出的彈窗內(nèi)的文本信息。
為了更好的監(jiān)測(cè)和分析系統(tǒng),急需一種文本分類方法,能夠?qū)g覽器彈窗日志進(jìn)行分類。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┮环N文本分類模型的訓(xùn)練方法、文本分類方法、裝置和設(shè)備,能夠解決現(xiàn)有技術(shù)中無法對(duì)瀏覽器彈窗日志進(jìn)行分析的問題,基于訓(xùn)練得到的文本分類模型對(duì)系統(tǒng)進(jìn)行監(jiān)測(cè)和分析,能夠提高系統(tǒng)運(yùn)維效率。
第一方面,本申請(qǐng)?zhí)峁┮环N文本分類模型的訓(xùn)練方法,包括:獲取多條瀏覽器的歷史彈窗內(nèi)的文本信息;對(duì)每個(gè)文本信息進(jìn)行分詞處理,根據(jù)分詞結(jié)果確定出每個(gè)文本信息對(duì)應(yīng)的第一特征向量;對(duì)第一特征向量進(jìn)行聚類,得到至少一個(gè)文本信息組;從每個(gè)文本信息組中,分別選出至少一條目標(biāo)文本信息,并對(duì)每個(gè)目標(biāo)文本信息添加類型標(biāo)識(shí),以形成至少一個(gè)文本信息模板;根據(jù)至少一個(gè)文本信息模板,對(duì)初始文本分類模型進(jìn)行訓(xùn)練,得到文本分類模型。
可選地,對(duì)每個(gè)文本信息進(jìn)行分詞處理,根據(jù)分詞結(jié)果確定出每個(gè)文本信息對(duì)應(yīng)的第一特征向量,包括:對(duì)每個(gè)文本信息進(jìn)行分詞處理,生成第一詞袋;確定第一詞袋中,任一第一詞匯對(duì)應(yīng)的第二特征向量;根據(jù)第二特征向量,確定每個(gè)文本信息對(duì)應(yīng)的第一特征向量。
可選地,根據(jù)第二特征向量,確定每個(gè)歷史彈窗內(nèi)的文本信息對(duì)應(yīng)的第一特征向量,包括:獲取第一詞袋中的第一詞匯的總數(shù)量;獲取第一詞袋中的每個(gè)第一詞匯在多個(gè)文本信息中的出現(xiàn)頻次,以及包含每個(gè)第一詞匯的文本信息數(shù)量;根據(jù)第一詞袋中的第一詞匯的總數(shù)量、每個(gè)第一詞匯在多個(gè)歷史彈窗內(nèi)的文本信息中的出現(xiàn)頻次,以及包含每個(gè)第一詞匯的文本信息數(shù)量,確定每個(gè)第一詞匯分別對(duì)應(yīng)的權(quán)重;根據(jù)第一詞袋中的每個(gè)第一詞匯分別對(duì)應(yīng)的權(quán)重,以及每個(gè)第一詞匯對(duì)應(yīng)的第二特征向量,確定每個(gè)歷史彈窗內(nèi)的文本信息對(duì)應(yīng)的第一特征向量。
可選地,根據(jù)至少一個(gè)文本信息模板,對(duì)初始文本分類模型進(jìn)行訓(xùn)練,得到文本分類模型,包括:對(duì)每個(gè)文本信息模板進(jìn)行分詞處理,生成第二詞袋;確定第二詞袋中,任一第二詞匯對(duì)應(yīng)的第三特征向量;根據(jù)文本相似度算法和第三特征向量,對(duì)初始文本分類模型進(jìn)行訓(xùn)練,得到文本分類模型。
可選地,確定第一詞袋中,任一第一詞匯對(duì)應(yīng)的第二特征向量之后,還包括:對(duì)第二特征向量進(jìn)行降維處理,得到降維后的第二特征向量;相應(yīng)的,根據(jù)第二特征向量,確定每個(gè)歷史彈窗內(nèi)的文本信息對(duì)應(yīng)的第一特征向量,包括:根據(jù)降維后的第二特征向量,確定每個(gè)歷史彈窗內(nèi)的文本信息對(duì)應(yīng)的第一特征向量。
可選地,對(duì)每個(gè)歷史彈窗內(nèi)的文本信息進(jìn)行分詞處理,包括:對(duì)每個(gè)歷史彈窗內(nèi)的文本信息進(jìn)行預(yù)處理,得到預(yù)處理后的歷史彈窗內(nèi)的文本信息,以去除歷史彈窗內(nèi)的文本信息中包括的目標(biāo)數(shù)據(jù),目標(biāo)數(shù)據(jù)包括如下類型的數(shù)據(jù)中的至少一種:數(shù)字、外語和符號(hào);對(duì)預(yù)處理后的歷史彈窗內(nèi)的文本信息進(jìn)行分詞處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司,未經(jīng)中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111419915.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





