[發(fā)明專利]文章分類方法及裝置、存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710792136.4 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN110019776B | 公開(公告)日: | 2023-04-28 |
| 發(fā)明(設(shè)計)人: | 王樹偉;溫旭;花少勇;何鑫;姜國華;殷樂;花貴春;范欣;胡博 | 申請(專利權(quán))人: | 騰訊科技(北京)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/289;G06F18/2411 |
| 代理公司: | 北京派特恩知識產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 張振偉;張穎玲 |
| 地址: | 100080 北京市海淀區(qū)海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文章 分類 方法 裝置 存儲 介質(zhì) | ||
本發(fā)明實施例公開了一種文章分類方法及裝置、存儲介質(zhì);方法包括:將測試集包括的文章的特征詞,與目標(biāo)類別的特征詞庫包括的特征詞進(jìn)行匹配,得到匹配成功的特征詞;根據(jù)所述文章匹配成功的特征詞的得分以及對應(yīng)的權(quán)重,確定所述文章屬于所述目標(biāo)類別的得分;根據(jù)所述文章的得分,確定所述文章是否屬于所述目標(biāo)類別的第一判斷結(jié)果;將剩余文章的特征輸入分類器模型,確定所述剩余文章是否屬于所述目標(biāo)類別的第二判斷結(jié)果,所述剩余文章為根據(jù)所述第一判斷結(jié)果確定的未屬于所述目標(biāo)類別的文章。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)技術(shù),尤其涉及一種文章分類方法及裝置、存儲介質(zhì)。
背景技術(shù)
互聯(lián)網(wǎng)中的信息呈現(xiàn)爆炸性增長的趨勢,成為獲取新聞、公眾號文章、微博等不同類別文章的重要途徑,覆蓋日常工作、生活和學(xué)習(xí)的各個方面。
部分文章的發(fā)布者為了吸引用戶閱讀或者增加點擊率,會發(fā)布一些帶有色情、低俗、社會負(fù)面色彩的違規(guī)文章,往往在這些違規(guī)文章中,特別是標(biāo)題中,增加一些帶有明顯性暗示、社會低俗行為的字樣;這些類別的文章對于用戶,特別是未成年用戶,產(chǎn)生不良的社會影響。
互聯(lián)網(wǎng)中發(fā)布的文章的數(shù)量和速度都是海量級別的,人工審核的方式難以適應(yīng)用戶快速發(fā)布文章的需求;而對于機(jī)器審核的方式來說,違規(guī)文章為了在躲避發(fā)布時的人工和機(jī)器審核,會在違規(guī)文章中使用很多帶有擦邊球色彩或隱含意義的表達(dá)方式,導(dǎo)致難以準(zhǔn)確識別。
綜上所述,對于準(zhǔn)確高效對文章進(jìn)行分類以過濾違規(guī)文章在互聯(lián)網(wǎng)中的發(fā)布,相關(guān)技術(shù)尚無有效解決方案。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種文章分類方法及裝置、存儲介質(zhì),能夠準(zhǔn)確高效地進(jìn)行文章分類。
本發(fā)明實施例的技術(shù)方案是這樣實現(xiàn)的:
本發(fā)明實施例提供一種文章分類方法,包括:
將測試集包括的文章的特征詞,與目標(biāo)類別的特征詞庫包括的特征詞進(jìn)行匹配,得到匹配成功的特征詞;
根據(jù)所述文章匹配成功的特征詞的得分以及對應(yīng)的權(quán)重,確定所述文章屬于所述目標(biāo)類別的得分;
根據(jù)所述文章的得分,確定所述文章是否屬于所述目標(biāo)類別的第一判斷結(jié)果;
將剩余文章的特征輸入分類器模型,確定所述剩余文章是否屬于所述目標(biāo)類別的第二判斷結(jié)果,所述剩余文章為根據(jù)所述第一判斷結(jié)果確定的未屬于所述目標(biāo)類別的文章。
本發(fā)明實施例提供一種文章分類裝置,包括:
詞庫識別單元,用于將測試集包括的文章的特征詞,與目標(biāo)類別的特征詞庫包括的特征詞進(jìn)行匹配,得到匹配成功的特征詞;
所述詞庫識別單元,還用于根據(jù)所述文章匹配成功的特征詞的得分以及對應(yīng)的權(quán)重,確定所述文章屬于所述目標(biāo)類別的得分;
所述詞庫識別單元,還用于根據(jù)所述文章的得分,確定所述文章是否屬于所述目標(biāo)類別的第一判斷結(jié)果;
分類器模型識別單元,用于將剩余文章的特征輸入分類器模型,確定所述剩余文章是否屬于所述目標(biāo)類別的第二判斷結(jié)果,所述剩余文章為根據(jù)所述第一判斷結(jié)果確定的未屬于所述目標(biāo)類別的文章。
上述方案中,所述分類器模型識別單元,還用于:
從特征詞庫中獲得特征詞,所述特征詞滿足以下條件:未在所述訓(xùn)練集包括的文章中出現(xiàn);與所述訓(xùn)練集包括的文章的特征詞的詞向量的距離小于距離閾值;
將針對所述文章獲得的特征詞的詞向量、連同所述文章的特征詞的詞向量作為所述文章的樣本特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(北京)有限公司,未經(jīng)騰訊科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710792136.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





