[發(fā)明專利]結(jié)合文字視覺特征和文字內(nèi)容特征的違規(guī)廣告識別方法在審

申請?zhí)枺?/td>	202111303591.6	申請日：	2021-11-05
公開（公告）號：	CN114155529A	公開（公告）日：	2022-03-08
發(fā)明（設(shè)計(jì)）人：	劉楊;路宏峰;張浩;曾振威;雷道宇	申請（專利權(quán)）人：	深圳市標(biāo)準(zhǔn)技術(shù)研究院
主分類號：	G06V30/148	分類號：	G06V30/148;G06V30/19;G06V30/30;G06V10/82;G06V10/764;G06K9/62;G06N3/08
代理公司：	武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222	代理人：	彭艷君
地址：	518000 廣東省深圳市***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	結(jié)合文字視覺特征內(nèi)容違規(guī) 廣告識別方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及計(jì)算機(jī)技術(shù)，具體涉及結(jié)合文字視覺特征和文字內(nèi)容特征的違規(guī)廣告識別方法，分別利用三種方式將彩色圖像轉(zhuǎn)化為文字視覺圖像本身特征、文字視覺圖像的筆畫特征和圖片文字識別轉(zhuǎn)換為文本特征三種特征；利用vgg16抽取圖像本身特征；利用RAN抽取漢字的筆順特征；采用CNN?encoder/Decoder架構(gòu)抽取漢字的筆畫特征后和圖像本身特征嵌入轉(zhuǎn)化融合；利用DenseNet進(jìn)行特征學(xué)習(xí)分類；利用OCR對圖像文字部分轉(zhuǎn)化為文本信息；對文本信息進(jìn)行規(guī)則匹配審核；應(yīng)用RoFormer的神經(jīng)網(wǎng)絡(luò)模型對句子粒度的文本信息進(jìn)行特征學(xué)習(xí)分裂；識別違規(guī)廣告結(jié)果。該方法可為各大網(wǎng)站平臺的廣告審核監(jiān)管系統(tǒng)提供有力支持。

技術(shù)領(lǐng)域

本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域，特別涉及結(jié)合文字視覺特征和文字內(nèi)容特征的違規(guī)廣告識別方法。

背景技術(shù)

隨著互聯(lián)網(wǎng)的發(fā)展與大數(shù)據(jù)時(shí)代的來臨，網(wǎng)絡(luò)數(shù)據(jù)存儲總量迎來了爆炸式增長，人類的日常生活己經(jīng)與數(shù)據(jù)密不可分，每個(gè)人都是信息的接受者。互聯(lián)網(wǎng)在人們帶來的便利的同時(shí)，也伴隨著一些安全隱患，其中之一就是一些不法分子利用網(wǎng)絡(luò)資源的復(fù)雜多樣以及一些網(wǎng)民對網(wǎng)絡(luò)信息缺乏甄別能力，對網(wǎng)絡(luò)虛假信息防備心理較弱，利用網(wǎng)絡(luò)散播非法信息以及導(dǎo)向性虛假廣告，使得部分網(wǎng)民信以為真，進(jìn)而使網(wǎng)民的財(cái)產(chǎn)收到威脅。目前許多網(wǎng)站都會采用關(guān)鍵詞屏蔽的方式封禁文本格式的廣告，由于圖片比文本更具有隱蔽性，有一部分廣告采取了在圖片中嵌入文字的方式，因此許多平臺不能分辨用戶上傳到服務(wù)器的圖片是否是廣告圖片。用戶在使用聊天軟件或社交媒體時(shí)便會被這些廣告圖片騷擾，非常影響上網(wǎng)體驗(yàn)。此外，泛濫的廣告圖片甚至還可能為賭博、邪教傳播等網(wǎng)絡(luò)違法犯罪活動提供溫床。因此，采用多模態(tài)的針對違規(guī)廣告圖片的審核識別技術(shù)有利于響應(yīng)國家“凈網(wǎng)行動”，從而保障廣大網(wǎng)民擁有一個(gè)健康的上網(wǎng)環(huán)境。

現(xiàn)有的違規(guī)廣告識別技術(shù)，絕大部分是針對文本形式的廣告，利用詞典匹配、關(guān)鍵詞查找等技術(shù)判斷文本廣告是否是違規(guī)廣告。但是，隨著網(wǎng)絡(luò)資源種類的增加，越來越多的廣告采用圖片或視頻的形式傳播，針對圖片廣告審核的技術(shù)一般也只是采用OCR文字識別的方式，把圖片中的文字部分轉(zhuǎn)化為文本信息，然后針對文本信息進(jìn)行審核。但是該技術(shù)針對規(guī)則的印刷字體有一定的識別效果，對于目前許多廣告圖片采用的藝術(shù)字或者非宋體字體文字效果較差，難以達(dá)到識別審核的目的。

發(fā)明內(nèi)容

針對背景技術(shù)存在的問題，本發(fā)明提供一種結(jié)合文字視覺特征和文字內(nèi)容特征的違規(guī)廣告多模態(tài)的識別方法。

為解決上述技術(shù)問題，本發(fā)明采用如下技術(shù)方案：結(jié)合文字視覺特征和文字內(nèi)容特征的違規(guī)廣告識別方法，包括以下步驟：

步驟1、輸入格式多樣含有視覺化文字的待檢測廣告圖片，并進(jìn)行降噪、圖像裁剪等圖像預(yù)處理步驟；

步驟2、將圖片中視覺化的文字轉(zhuǎn)化為三種不同特征的向量輸入，分別是文字視覺圖像本身特征、文字視覺圖像的筆畫信息特征和圖片文字識別轉(zhuǎn)換為文本特征；

步驟3、構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的特征分類器，將圖像本身特征和筆畫信息特征進(jìn)行嵌入融合后進(jìn)行特征分類；

步驟4、構(gòu)建基于規(guī)則匹配和神經(jīng)網(wǎng)絡(luò)的文本審核系統(tǒng)對文字識別轉(zhuǎn)換后的文本特征進(jìn)行審核，判斷是否含有惡意推廣的違規(guī)廣告內(nèi)容；

步驟5、結(jié)合分類器和審核結(jié)果，判斷待測廣告圖片是否含有違規(guī)廣告信息。

在上述結(jié)合文字視覺特征和文字內(nèi)容特征的違規(guī)廣告識別方法中，步驟3的實(shí)現(xiàn)包括結(jié)合圖像本身的特征和視覺文字的筆順信息轉(zhuǎn)化為嵌入表示，通過DenseNet神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)分類，具體過程包括：

步驟3.1、輸入待識別圖片，利用vgg16神經(jīng)網(wǎng)絡(luò)抽取圖像本身特征；

步驟3.2、使用RAN部件分析網(wǎng)絡(luò)根據(jù)十大漢字常用空間結(jié)構(gòu)對具有視覺效果的文字的空間架構(gòu)和偏旁部件進(jìn)行分析，抽取漢字的筆順特征信息；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市標(biāo)準(zhǔn)技術(shù)研究院，未經(jīng)深圳市標(biāo)準(zhǔn)技術(shù)研究院許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111303591.6/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種醫(yī)療用利用酶液離心檢測血液代謝廢物裝置
下一篇：一種高品質(zhì)特種鋼材硬度檢測裝置及其檢測方法

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】