[發(fā)明專利]一種文本審核方法、裝置、設(shè)備和介質(zhì)在審
| 申請?zhí)枺?/td> | 202010323240.0 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111506708A | 公開(公告)日: | 2020-08-07 |
| 發(fā)明(設(shè)計(jì))人: | 王曉平 | 申請(專利權(quán))人: | 上海極鏈網(wǎng)絡(luò)科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 202163 上海市崇明區(qū)*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 審核 方法 裝置 設(shè)備 介質(zhì) | ||
1.一種文本審核方法,其特征在于,應(yīng)用于級聯(lián)審核裝置,所述級聯(lián)審核裝置中包括敏感詞審核模塊、灌水審核模塊和語義審核模塊,所述敏感詞審核模塊、所述灌水審核模塊和所述語義審核模塊依次級聯(lián)設(shè)置,所述方法包括:
對待審核文本進(jìn)行分詞處理,基于所述敏感詞審核模塊對分詞后的所述待審核文本進(jìn)行敏感詞審核;
當(dāng)所述敏感詞審核通過時(shí),基于所述灌水審核模塊對所述待審核文本進(jìn)行灌水審核;
當(dāng)所述灌水審核通過時(shí),基于所述語義審核模塊對所述待審核文本進(jìn)行語義審核,并輸出審核結(jié)果;
其中,當(dāng)所述敏感詞審核、所述灌水審核和所述語義審核中任一項(xiàng)審核不通過時(shí),輸出審核結(jié)果并結(jié)束對所述待審核文本的審核。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述敏感詞審核模塊包括敏感詞匹配子模塊;其中,基于所述敏感詞審核模塊對分詞后的所述待審核文本進(jìn)行敏感詞審核,包括:
讀取預(yù)設(shè)敏感詞庫中的敏感詞,對所述敏感詞進(jìn)行變形生成變形敏感詞,生成敏感詞集合,其中,所述敏感詞集合包括讀取各敏感詞和所述各敏感詞的變形敏感詞;
獲取所述待審核文本中,基于語義進(jìn)行分詞處理得到的至少一個(gè)分詞,將各分詞或者基于分詞順序形成的連續(xù)分詞的組合在所述敏感詞集合中進(jìn)行匹配;
當(dāng)與所述敏感詞集合中任一敏感詞或變形敏感詞匹配成功時(shí),確定所述待審核文本審核不通過。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述敏感詞審核模塊包括敏感詞相似度計(jì)算子模塊;其中,基于所述敏感詞審核模塊對分詞后的所述待審核文本進(jìn)行敏感詞審核,包括:
從預(yù)設(shè)的語義向量庫中讀取與所述預(yù)設(shè)敏感詞庫中的敏感詞對應(yīng)語義向量,生成敏感詞語義向量集合;
從所述語義向量庫中讀取與所述待審核文本的分詞結(jié)果列表中的各分詞對應(yīng)的語義向量,生成詞語語義向量集合;
分別計(jì)算所述詞語語義向量集合中的每個(gè)語義向量與所述敏感詞語義向量集合中所有語義向量的相似度;
若計(jì)算得到的相似度最大值大于預(yù)設(shè)的相似度閾值,則確定所述待審核文本審核不通過。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述敏感詞審核模塊包括敏感詞匹配子模塊和敏感詞相似度計(jì)算子模塊,所述敏感詞匹配子模塊和所述敏感詞相似度計(jì)算子模塊級聯(lián)設(shè)置。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述灌水審核模塊包括灌水規(guī)則審核子模塊和灌水模型審核子模塊中的至少一項(xiàng),其中,基于所述灌水審核模塊對所述待審核文本進(jìn)行灌水審核,包括:
基于預(yù)先設(shè)置的灌水規(guī)則對所述待審核文本進(jìn)行審核;或者,
將通過灌水規(guī)則審核子模塊審核的所述待審核文本輸入至預(yù)先訓(xùn)練好的灌水識別模型中進(jìn)行審核。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述灌水規(guī)則審核子模塊和所述灌水模型審核子模塊級聯(lián)設(shè)置。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述語義審核模塊對所述待審核文本進(jìn)行語義審核,包括:
將所述待審核文本輸入至預(yù)先訓(xùn)練語義分類模型進(jìn)行語義審核,生成語義標(biāo)簽,根據(jù)所述語義標(biāo)簽確定審核結(jié)果。
8.一種文本審核裝置,其特征在于,包括:
敏感詞審核模塊,用于對待審核文本進(jìn)行分詞處理,基于所述敏感詞審核模塊對分詞后的所述待審核文本進(jìn)行敏感詞審核;
灌水審核模塊,用于當(dāng)所述敏感詞審核通過時(shí),基于所述灌水審核模塊對所述待審核文本進(jìn)行灌水審核;
語義審核模塊,用于當(dāng)所述灌水審核通過時(shí),基于所述語義審核模塊對所述待審核文本進(jìn)行語義審核,并輸出審核結(jié)果;
審核結(jié)果輸出模塊,用于當(dāng)所述敏感詞審核、所述灌水審核和所述語義審核中任一項(xiàng)審核不通過時(shí),輸出審核結(jié)果并結(jié)束對所述待審核文本的審核。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海極鏈網(wǎng)絡(luò)科技有限公司,未經(jīng)上海極鏈網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010323240.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





