[發(fā)明專利]一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞配圖匹配性檢測方法有效
| 申請?zhí)枺?/td> | 201910075520.1 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN109885796B | 公開(公告)日: | 2020-01-03 |
| 發(fā)明(設(shè)計(jì))人: | 云靜;尚俊峰;劉利民;許志偉 | 申請(專利權(quán))人: | 內(nèi)蒙古工業(yè)大學(xué) |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/583 |
| 代理公司: | 61215 西安智大知識產(chǎn)權(quán)代理事務(wù)所 | 代理人: | 段俊濤 |
| 地址: | 010080 內(nèi)蒙古自治區(qū)呼*** | 國省代碼: | 內(nèi)蒙;15 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文字內(nèi)容 評分體系 匹配性檢測 網(wǎng)絡(luò)新聞 卷積神經(jīng)網(wǎng)絡(luò) 自然語言模型 表達(dá)方式 人工審核 人力物力 網(wǎng)絡(luò)環(huán)境 新聞內(nèi)容 虛假信息 差異性 算法 圖文 學(xué)習(xí) 圖片 相符 凈化 改進(jìn) 發(fā)現(xiàn) | ||
本發(fā)明提供一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞配圖匹配性檢測方法,該方法包括基于深度學(xué)習(xí)的新聞配圖多描述生成;以及生成新聞配圖描述的文字內(nèi)容與新聞文字內(nèi)容進(jìn)行對比評分;對于生成新聞配圖描述部分,采用卷積神經(jīng)網(wǎng)絡(luò)對新聞配圖特征的提取,然后利用自然語言模型生成新聞配圖的相關(guān)描述;對于評分體系部分,由于生成的圖片描述和新聞文字內(nèi)容長度和表達(dá)方式上的差異性,本發(fā)明提出解決方案,與改進(jìn)的BLEU算法形成評分體系。評分體系對生成的圖片描述和新聞文字內(nèi)容進(jìn)行對比評分,通過評分來判斷圖片與新聞內(nèi)容是否相符。因此,可以更快速、更準(zhǔn)確地發(fā)現(xiàn)圖文不符的虛假信息,減少人工審核的時間,節(jié)省人力物力,凈化網(wǎng)絡(luò)環(huán)境。
技術(shù)領(lǐng)域
本發(fā)明屬于信息檢測技術(shù)領(lǐng)域,涉及虛假信息檢測,特別涉及一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞配圖匹配性檢測方法。
背景技術(shù)
以互聯(lián)網(wǎng)為代表的數(shù)字技術(shù)與當(dāng)今社會各領(lǐng)域深度融合、以智能手機(jī)為代表的移動設(shè)備大規(guī)模普及為手機(jī)新聞客戶端的誕生和發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。而大量新聞網(wǎng)站以及手機(jī)客戶端為了吸引閱讀量編輯了大量垃圾新聞,如標(biāo)題黨,圖文不匹配等,從而導(dǎo)致虛假信息泛濫,誤導(dǎo)群眾思想。
圖文不匹配屬于虛假信息范疇,目前采用人工舉報(bào)審核制度來降低網(wǎng)站圖文不匹配文章的占有率。各大網(wǎng)站比如百度云的圖像審核,網(wǎng)易的易盾圖像檢測,檢測方向也僅僅基于違法圖片檢測,并不涉及圖文是否相關(guān)方向。
就檢測圖文不匹配而言,目前已有的發(fā)明主要利用各大網(wǎng)站識圖技術(shù)生成關(guān)鍵詞,然后在文章里搜索生成的關(guān)鍵詞,其沒有對圖片進(jìn)行完整描述,導(dǎo)致準(zhǔn)確率極低。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞配圖匹配性檢測方法,通過深度學(xué)習(xí)技術(shù)對新聞配圖生成描述,然后與新聞文字內(nèi)容進(jìn)行比對,來判斷插圖與新聞文字內(nèi)容是否相符,從而解決虛假信息中圖文不匹配的情況,去除虛假信息,有效凈化網(wǎng)絡(luò)環(huán)境。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞配圖匹配性檢測方法,包括如下步驟:
步驟1,提取新聞網(wǎng)頁上的配圖與文字內(nèi)容,將提取的文字內(nèi)容形成規(guī)范文檔;
步驟2,將提取的圖片輸入到神經(jīng)網(wǎng)絡(luò)模型中,對圖片進(jìn)行物體識別和場景識別,然后利用自然語言模型對圖片中所有物體和場景生成若干相應(yīng)的描述;
步驟3,利用BLEU算法將生成的圖片的多描述與新聞的文字內(nèi)容進(jìn)行比對,從而判斷是否圖片與新聞內(nèi)容匹配。
所述步驟1中的規(guī)范文檔指的是符合語言規(guī)范的單句。
所述步驟2中,神經(jīng)網(wǎng)絡(luò)模型包括一個卷積神經(jīng)網(wǎng)絡(luò),一個密集定位層,一個識別網(wǎng)絡(luò)層以及一個自然語言模型,其物體識別和場景識別過程如下:
步驟2.1,將提取的圖片輸入到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取并生成特征矩陣;
步驟2.2,將卷積神經(jīng)網(wǎng)絡(luò)提取的特征向量再輸入到密集定位層基于多目標(biāo)識別技術(shù)對圖片中的區(qū)域進(jìn)行識別預(yù)測,生成初步的識別區(qū)域稱為候選區(qū)域,數(shù)量為B;
步驟2.3,將候選區(qū)域傳輸?shù)阶R別網(wǎng)絡(luò)層,將來自密集定位層的每個候選區(qū)域的特征變換為一個向量,并將其傳送至識別網(wǎng)絡(luò)的兩個全連接層,對每一個候選區(qū)域生成一個長度統(tǒng)一的一維向量,將所有一維向量存儲起來,組合成一個矩陣;
步驟2.4,將得到的矩陣輸入到基于LSTM的語言模型中,最終生成關(guān)于圖片每一部分的具體描述。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于內(nèi)蒙古工業(yè)大學(xué),未經(jīng)內(nèi)蒙古工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910075520.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 社交化評分體系
- 納稅用戶誠信評分方法及系統(tǒng)
- 陰道乳酸桿菌質(zhì)量評分體系在評判女性健康狀況上的應(yīng)用
- 一種基于BP神經(jīng)網(wǎng)絡(luò)的駕駛行為評分方法
- 一種電力運(yùn)營風(fēng)險(xiǎn)評價(jià)建模方法
- 一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞配圖匹配性檢測方法
- 關(guān)聯(lián)案件識別方法、電子裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- ESG評分體系的生成方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 一種基于免疫基因?qū)υu分體系在預(yù)測非小細(xì)胞肺癌患者免疫治療效果中的應(yīng)用
- 基于聯(lián)網(wǎng)車載ADAS的道路風(fēng)險(xiǎn)識別方法
- 網(wǎng)絡(luò)新聞表情分布的自動預(yù)測方法
- 一種基于互聯(lián)網(wǎng)的新聞發(fā)布系統(tǒng)
- 從新聞文檔中抽取社會網(wǎng)絡(luò)的方法和系統(tǒng)
- 語音式網(wǎng)絡(luò)新聞
- 一種網(wǎng)絡(luò)新聞概要提取方法
- 一種網(wǎng)絡(luò)新聞獲取及文本情感預(yù)測系統(tǒng)
- 一種基于網(wǎng)絡(luò)新聞的輿情分析方法、系統(tǒng)及介質(zhì)
- 一種基于增量聚類的企業(yè)熱點(diǎn)事件挖掘方法
- 一種網(wǎng)絡(luò)新聞熱點(diǎn)挖掘方法及裝置
- 應(yīng)用人工智能的新聞輿情文本處理方法、服務(wù)器及介質(zhì)





