[發(fā)明專利]識別方法、裝置及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202011096264.3 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112231507A | 公開(公告)日: | 2021-01-15 |
| 發(fā)明(設(shè)計)人: | 朱驊 | 申請(專利權(quán))人: | 維沃移動通信有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/58;G06F16/35;G06F16/33;G06F40/30;G06F40/289;G06K9/00 |
| 代理公司: | 北京銀龍知識產(chǎn)權(quán)代理有限公司 11243 | 代理人: | 許靜;曹娜 |
| 地址: | 523863 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 識別 方法 裝置 電子設(shè)備 | ||
本申請公開了一種識別方法、裝置及電子設(shè)備,該方法包括獲取目標(biāo)圖片中的第一文本信息;提取所述第一文本信息中的第一關(guān)鍵詞,根據(jù)所述第一關(guān)鍵詞在所述第一文本信息中的位置信息,得到所述第一關(guān)鍵詞的置信度;在所述第一關(guān)鍵詞的置信度小于預(yù)設(shè)值的情況下,將所述第一關(guān)鍵詞替換為第二關(guān)鍵詞。本申請實施例對于以圖片形式為載體的文本,根據(jù)文本中各個詞的置信度來確定被使用刻意涂抹等形式破壞的第一關(guān)鍵詞,并將其還原為第二關(guān)鍵詞進(jìn)行審查,從而保證審查內(nèi)容的正確性。
技術(shù)領(lǐng)域
本申請屬于通信技術(shù)領(lǐng)域,具體涉及一種識別方法、裝置及電子設(shè)備。
背景技術(shù)
社交媒體平臺擁有海量內(nèi)容,但并非所有內(nèi)容都是適宜發(fā)布的信息。各個社交媒體平臺都會有內(nèi)容審查技術(shù),一般來說可分為人工審查和計算機(jī)技術(shù)的審查。計算機(jī)技術(shù)雖然節(jié)省人工成本,但十分受限于人工智能技術(shù)。尤其是當(dāng)內(nèi)容發(fā)布者了解計算機(jī)審查能力的邊界,就容易衍生相應(yīng)的防審查機(jī)制。
例如,某個應(yīng)用可以發(fā)布文字、圖片及視頻等多種內(nèi)容載體。首先該應(yīng)用具有很強(qiáng)的文字內(nèi)容審查機(jī)制,如涉黃涉暴內(nèi)容檢測及敏感詞檢測等。因此很多依賴于文字形式的自媒體作者轉(zhuǎn)而使用將文字變?yōu)閳D片內(nèi)的文字的形式躲避審查。但隨著文字識別(OpticalCharacter Recognition,OCR)技術(shù)的發(fā)展,此類圖片也會被轉(zhuǎn)化為正常文本進(jìn)行審核。因此對于部分圖片內(nèi)的文字內(nèi)容,也依舊會被進(jìn)行審核。
這類技術(shù)存在瓶頸,即OCR技術(shù)的準(zhǔn)確率。內(nèi)容發(fā)布者了解了技術(shù)瓶頸后轉(zhuǎn)而使用涂抹敏感詞的方式來逃避審查。即現(xiàn)有的單純基于OCR技術(shù)的文本轉(zhuǎn)換技術(shù)會被內(nèi)容發(fā)布者找到技術(shù)邊界并規(guī)避,從而逃避審查。
發(fā)明內(nèi)容
本申請實施例的目的是提供一種識別方法、裝置及電子設(shè)備,能夠解決內(nèi)容發(fā)布者使用涂抹敏感詞的方式來逃避圖片審查的問題。
為了解決上述技術(shù)問題,本申請是這樣實現(xiàn)的:
第一方面,本申請實施例提供了一種識別方法,包括:
獲取目標(biāo)圖片中的第一文本信息;
提取所述第一文本信息中的第一關(guān)鍵詞,根據(jù)所述第一關(guān)鍵詞在所述第一文本信息中的位置信息,得到所述第一關(guān)鍵詞的置信度;其中,所述置信度用于指示所述第一關(guān)鍵詞在所述第一文本信息中的語義連貫性;
在所述第一關(guān)鍵詞的置信度小于預(yù)設(shè)值的情況下,將所述第一關(guān)鍵詞替換為第二關(guān)鍵詞。
第二方面,本申請實施例提供了一種識別裝置,包括:
第一獲取模塊,用于獲取目標(biāo)圖片中的第一文本信息;
第二獲取模塊,用于提取所述第一文本信息中的第一關(guān)鍵詞,根據(jù)所述第一關(guān)鍵詞在所述第一文本信息中的位置信息,得到所述第一關(guān)鍵詞的置信度;其中,所述置信度用于指示所述第一關(guān)鍵詞在所述第一文本信息中的語義連貫性;
替換模塊,用于在所述第一關(guān)鍵詞的置信度小于預(yù)設(shè)值的情況下,將所述第一關(guān)鍵詞替換為第二關(guān)鍵詞。
第三方面,本申請實施例提供了一種電子設(shè)備,該電子設(shè)備包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的程序或指令,所述程序或指令被所述處理器執(zhí)行時實現(xiàn)如第一方面所述的方法的步驟。
第四方面,本申請實施例提供了一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)上存儲程序或指令,所述程序或指令被處理器執(zhí)行時實現(xiàn)如第一方面所述的方法的步驟。
第五方面,本申請實施例提供了一種芯片,所述芯片包括處理器和通信接口,所述通信接口和所述處理器耦合,所述處理器用于運行程序或指令,實現(xiàn)如第一方面所述的方法。
在本申請實施例中,對于以圖片形式為載體的文本,根據(jù)文本中各個詞的置信度來確定被使用刻意涂抹等形式破壞的第一關(guān)鍵詞,并將其還原為第二關(guān)鍵詞進(jìn)行審查,從而保證審查內(nèi)容的正確性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于維沃移動通信有限公司,未經(jīng)維沃移動通信有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011096264.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





