[發(fā)明專利]文本分類方法、裝置及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201811631620.X | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109766441B | 公開(公告)日: | 2021-07-09 |
| 發(fā)明(設(shè)計)人: | 李斌;曹臻;徐方華 | 申請(專利權(quán))人: | 奇安信科技集團股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 中科專利商標代理有限責(zé)任公司 11021 | 代理人: | 楊靜 |
| 地址: | 100088 北京市西城區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 分類 方法 裝置 系統(tǒng) | ||
本公開提供了一種文本分類方法,該方法包括:識別待分類文本,得到待分類文本包括的至少一個關(guān)鍵詞;匹配至少一個關(guān)鍵詞與敏感詞庫,得到匹配結(jié)果;以及根據(jù)所述匹配結(jié)果,對待分類文本進行分類。其中,敏感詞庫包括具有多個不同等級的多個敏感詞,每個敏感詞的等級根據(jù)已分類文本中包括敏感詞的數(shù)量確定。本公開還提供了一種文本分類裝置以及一種文本分類系統(tǒng)。
技術(shù)領(lǐng)域
本公開涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,更具體地,涉及一種文本分類方法、裝置及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的普及和快速發(fā)展,賭博、網(wǎng)絡(luò)詐騙、淫穢色情、違禁產(chǎn)品等在網(wǎng)絡(luò)上泛濫,甚至成為互聯(lián)網(wǎng)經(jīng)濟最具盈利能力的內(nèi)容。但這無疑會對社會經(jīng)濟的正常發(fā)展以及現(xiàn)實社會的穩(wěn)定構(gòu)成極大威脅。
為了更好的避免該些違規(guī)網(wǎng)頁及違規(guī)內(nèi)容的出現(xiàn),例如可以先對文本進行識別分類,確定待展示的網(wǎng)頁或內(nèi)容是否包括違規(guī)文本,進而確定是否對該網(wǎng)頁或內(nèi)容進行展示。
在實現(xiàn)本公開構(gòu)思的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:當(dāng)前主流的識別違規(guī)文本的方法是將文本中的全部內(nèi)容與敏感詞庫中的全量敏感詞進行匹配,只要匹配到文本中包括有敏感詞庫中的敏感詞,就將該文本歸類為違規(guī)文本。但是,考慮到敏感詞庫中大量敏感詞在不同文本中的詞性和含義可能不同,且該敏感詞在語料庫中的分布規(guī)律也不盡相同。因此僅根據(jù)文本中是否包括敏感詞來判斷文本是否為違規(guī)文本,往往會導(dǎo)致較高的誤報率,影響部分內(nèi)容的正常展示。
發(fā)明內(nèi)容
有鑒于此,本公開提供了一種提高文本分類準確率的文本分類方法、裝置及系統(tǒng)。
本公開的一個方面提供了一種文本分類方法,包括:識別待分類文本,得到待分類文本包括的至少一個關(guān)鍵詞;匹配至少一個關(guān)鍵詞與敏感詞庫,得到匹配結(jié)果;以及根據(jù)匹配結(jié)果,對待分類文本進行分類。其中,敏感詞庫包括具有多個不同等級的多個敏感詞,每個敏感詞的等級根據(jù)已分類文本中包括該敏感詞的數(shù)量確定。
可選地,根據(jù)已分類文本中的違規(guī)文本包括的第一敏感詞的第一數(shù)量以及已分類文本中的非違規(guī)文本包括的第一敏感詞的第二數(shù)量,來確定第一敏感詞的等級。
可選地,上述根據(jù)匹配結(jié)果,對待分類文本進行分類包括:如果匹配結(jié)果表征至少一個關(guān)鍵詞中包括多個不同等級中的第一等級的敏感詞,則將待分類文本分類為違規(guī)文本;并且/或者,如果匹配結(jié)果表征至少一個關(guān)鍵詞中不包括多個敏感詞,則將待分類文本分類為非違規(guī)文本;并且/或者,如果匹配結(jié)果表征至少一個關(guān)鍵詞中不包括多個不同等級中的第一等級的敏感詞、但包括除第一等級外的其他等級的敏感詞,則以待分類文本作為輸入,經(jīng)由第一深度學(xué)習(xí)模型對待分類文本進行分類。
可選地,上述根據(jù)匹配結(jié)果,對待分類文本進行分類包括:根據(jù)匹配結(jié)果,分配待分類文本屬于違規(guī)文本的參考權(quán)重;以及根據(jù)參考權(quán)重,對待分類文本進行分類。
可選地,如果匹配結(jié)果表征至少一個關(guān)鍵詞不包括多個不同等級中的第一等級的敏感詞、且包括有除第一等級外的其他等級的敏感詞,則根據(jù)匹配結(jié)果,分配待分類文本屬于違規(guī)文本的參考權(quán)重。
可選地,上述根據(jù)參考權(quán)重及至少一個關(guān)鍵詞,對待分類文本進行分類包括:將參考權(quán)重及待分類文本轉(zhuǎn)換為向量;以第一向量作為輸入,經(jīng)由第二深度學(xué)習(xí)模型對待分類文本進行分類,其中,第一向量由參考權(quán)重轉(zhuǎn)換得到的向量與待分類文本轉(zhuǎn)換得到的向量合并得到。
可選地,上述方法還包括:實時監(jiān)控對待分類文本進行分類得到的分類結(jié)果;以及根據(jù)分類結(jié)果,調(diào)整至少一個敏感詞的等級、第一深度學(xué)習(xí)模型的參數(shù)和/或第二深度學(xué)習(xí)模型的參數(shù)。
可選地,上述多個不同等級包括第一等級和第二等級:如果第三數(shù)量滿足第一條件,且第一數(shù)量與第三數(shù)量的比值滿足第二條件,確定敏感詞為第一等級的敏感詞;如果第三數(shù)量滿足第一條件,且第一數(shù)量與第三數(shù)量的比值不滿足第二條件,確定敏感詞為第二等級的敏感詞,其中,第三數(shù)量為第一數(shù)量和第二數(shù)量的和。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于奇安信科技集團股份有限公司,未經(jīng)奇安信科技集團股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811631620.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





