[發(fā)明專利]一種跨模態(tài)敏感信息識別方法、系統(tǒng)和終端在審
| 申請?zhí)枺?/td> | 202211386761.6 | 申請日: | 2022-11-07 |
| 公開(公告)號: | CN115758282A | 公開(公告)日: | 2023-03-07 |
| 發(fā)明(設(shè)計)人: | 請求不公布姓名 | 申請(專利權(quán))人: | 上海蜜度信息技術(shù)有限公司 |
| 主分類號: | G06F18/25 | 分類號: | G06F18/25;G06F18/241;G06F18/2415;G06F18/15;G06N3/0455;G06N3/047;G06N3/08 |
| 代理公司: | 上海光華專利事務(wù)所(普通合伙) 31219 | 代理人: | 徐秋平 |
| 地址: | 201204 上海市浦東新區(qū)中國上海浦*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 跨模態(tài) 敏感 信息 識別 方法 系統(tǒng) 終端 | ||
本申請?zhí)峁┮环N跨模態(tài)敏感信息識別方法、系統(tǒng)和終端,包括以下步驟:輸入跨模態(tài)的多媒體信息;提取所述多媒體信息的特征信息;基于所述多媒體信息的特征信息計算所述多媒體信息包含敏感信息的概率;基于所述概率獲取敏感信息識別結(jié)果。本申請?zhí)峁┑目缒B(tài)敏感信息識別方法、系統(tǒng)和終端輸入的跨模態(tài)數(shù)據(jù)具有去冗余、全面、多元及互補(bǔ)等特點,通過對這些不同類型的數(shù)據(jù)進(jìn)行跨模態(tài)數(shù)據(jù)分析,便于更加合理有效地利用這些跨模態(tài)數(shù)據(jù);采用的預(yù)訓(xùn)練模型增強(qiáng)了跨模態(tài)數(shù)據(jù)的特征表達(dá),使整個模型能夠更好地處理跨模態(tài)數(shù)據(jù),從而得到包含更多信息的特征向量,提高了敏感信息識別的準(zhǔn)確性。
技術(shù)領(lǐng)域
本申請屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種跨模態(tài)敏感信息識別方法、系統(tǒng)和終端。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人類社會已經(jīng)進(jìn)入到信息時代,用戶對信息的需求越來越強(qiáng)。與此同時,信息安全也面臨著嚴(yán)重威脅,例如在大量傳播的信息中,可能會包含一些違規(guī)違法的敏感信息等。GB/T 35273-2020《信息安全技術(shù)個人信息安全規(guī)范》對敏感個人信息作出了詳細(xì)的列舉,這些敏感個人信息如果被非法收集、泄漏與濫用,將會對社會公眾利益和個人合法權(quán)益造成嚴(yán)重影響。為了凈化網(wǎng)絡(luò)環(huán)境和維護(hù)網(wǎng)絡(luò)安全,有必要對互聯(lián)網(wǎng)上的敏感信息進(jìn)行實時監(jiān)測和識別。
傳統(tǒng)的敏感信息識別方法一般采用單模態(tài)數(shù)據(jù)進(jìn)行敏感性判斷,而現(xiàn)在互聯(lián)網(wǎng)上的信息載體呈現(xiàn)多元化、多模態(tài)的趨勢,比如一篇文章,不僅包含文字,還包括了圖片和音頻等,所以僅靠單一模態(tài)往往容易造成收集信息不全面,從而導(dǎo)致敏感性判斷的結(jié)果不準(zhǔn)確。
發(fā)明內(nèi)容
本申請的目的在于提供一種跨模態(tài)敏感信息識別方法、系統(tǒng)和終端,用于解決現(xiàn)有技術(shù)中采用單模態(tài)數(shù)據(jù)進(jìn)行敏感信息識別的準(zhǔn)確性較低的技術(shù)問題。
第一方面,本申請?zhí)峁┮环N跨模態(tài)敏感信息識別方法,包括以下步驟:
輸入跨模態(tài)的多媒體信息;提取所述多媒體信息的特征信息;基于所述多媒體信息的特征信息計算所述多媒體信息包含敏感信息的概率;基于所述概率獲取敏感信息識別結(jié)果。
在第一方面的一種實現(xiàn)方式中,所述跨模態(tài)的多媒體信息包括以下模態(tài)數(shù)據(jù)中的任意一種或多種組合:
文本模態(tài)數(shù)據(jù);圖像模態(tài)數(shù)據(jù);語音模態(tài)數(shù)據(jù)。
在第一方面的一種實現(xiàn)方式中,提取所述多媒體信息的特征信息包括以下步驟:
在輸入文本模態(tài)數(shù)據(jù)時,使用預(yù)訓(xùn)練語言模型獲取所述文本模態(tài)數(shù)據(jù)中的文本特征信息;
對所述文本特征信息進(jìn)行歸一化,以獲取文本模態(tài)特征信息。
在第一方面的一種實現(xiàn)方式中,提取所述多媒體信息的特征信息包括以下步驟:
在輸入圖像模態(tài)數(shù)據(jù)時,使用預(yù)訓(xùn)練視覺模型獲取所述圖像模態(tài)數(shù)據(jù)中的圖像特征信息;
對所述圖像特征信息進(jìn)行平均池化,以獲取圖像模態(tài)特征信息。
在第一方面的一種實現(xiàn)方式中,提取所述多媒體信息的特征信息包括以下步驟:
在輸入語音模態(tài)數(shù)據(jù)時,使用預(yù)訓(xùn)練語音模型獲取所述語音模態(tài)數(shù)據(jù)中的語音特征信息;
對所述語音特征信息進(jìn)行平均池化,以獲取語音模態(tài)特征信息。
在第一方面的一種實現(xiàn)方式中,基于所述多媒體信息的特征信息計算所述多媒體信息包含敏感信息的概率包括以下步驟:
搭建第一全連接層,基于所述第一全連接層對所述多媒體信息的特征信息之和進(jìn)行處理;
搭建第二全連接層,基于所述第二全連接層對所述多媒體信息的特征信息均值進(jìn)行處理;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海蜜度信息技術(shù)有限公司,未經(jīng)上海蜜度信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211386761.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于特定模態(tài)語義空間建模的跨模態(tài)相似性學(xué)習(xí)方法
- 一種跨模態(tài)信息檢索方法、裝置和存儲介質(zhì)
- 基于解糾纏表達(dá)學(xué)習(xí)的跨模態(tài)生物特征匹配方法及系統(tǒng)
- 基于跨模態(tài)行人重識別方法及裝置
- 跨模態(tài)人臉識別的方法、裝置、設(shè)備和存儲介質(zhì)
- 跨模態(tài)檢索模型的訓(xùn)練方法、裝置、設(shè)備和存儲介質(zhì)
- 一種基于多模態(tài)注意力機(jī)制的跨模態(tài)哈希方法及系統(tǒng)
- 跨模態(tài)檢索方法、裝置、電子設(shè)備及存儲介質(zhì)
- 基于有監(jiān)督對比的跨模態(tài)檢索方法、系統(tǒng)及設(shè)備
- 一種生成跨模態(tài)的表示向量的方法以及跨模態(tài)推薦方法
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





