[發(fā)明專利]一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞配圖匹配性檢測方法有效
| 申請?zhí)枺?/td> | 201910075520.1 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN109885796B | 公開(公告)日: | 2020-01-03 |
| 發(fā)明(設(shè)計(jì))人: | 云靜;尚俊峰;劉利民;許志偉 | 申請(專利權(quán))人: | 內(nèi)蒙古工業(yè)大學(xué) |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/583 |
| 代理公司: | 61215 西安智大知識產(chǎn)權(quán)代理事務(wù)所 | 代理人: | 段俊濤 |
| 地址: | 010080 內(nèi)蒙古自治區(qū)呼*** | 國省代碼: | 內(nèi)蒙;15 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文字內(nèi)容 評分體系 匹配性檢測 網(wǎng)絡(luò)新聞 卷積神經(jīng)網(wǎng)絡(luò) 自然語言模型 表達(dá)方式 人工審核 人力物力 網(wǎng)絡(luò)環(huán)境 新聞內(nèi)容 虛假信息 差異性 算法 圖文 學(xué)習(xí) 圖片 相符 凈化 改進(jìn) 發(fā)現(xiàn) | ||
1.一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞配圖匹配性檢測方法,其特征在于,包括如下步驟:
步驟1,提取新聞網(wǎng)頁上的配圖與文字內(nèi)容,將提取的文字內(nèi)容形成規(guī)范文檔,規(guī)范文檔指的是符合語言規(guī)范的單句;
步驟2,將提取的圖片輸入到神經(jīng)網(wǎng)絡(luò)模型中,對圖片進(jìn)行物體識別和場景識別,然后利用自然語言模型對圖片中所有物體和場景生成若干相應(yīng)的描述;
步驟3,利用BLEU算法將生成的圖片的多描述與新聞的文字內(nèi)容進(jìn)行比對,從而判斷是否圖片與新聞內(nèi)容匹配;
其中,所述神經(jīng)網(wǎng)絡(luò)模型包括一個(gè)卷積神經(jīng)網(wǎng)絡(luò),一個(gè)密集定位層,一個(gè)識別網(wǎng)絡(luò)層以及一個(gè)自然語言模型,其物體識別和場景識別過程如下:
步驟2.1,將提取的圖片輸入到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取并生成特征矩陣;
步驟2.2,將卷積神經(jīng)網(wǎng)絡(luò)提取的特征矩陣再輸入到密集定位層基于多目標(biāo)識別技術(shù)對圖片中的區(qū)域進(jìn)行識別預(yù)測,生成初步的識別區(qū)域稱為候選區(qū)域,數(shù)量為B;
步驟2.3,將候選區(qū)域傳輸?shù)阶R別網(wǎng)絡(luò)層,使用RELU激活函數(shù)和Dropout優(yōu)化原則,將來自密集定位層的每個(gè)候選區(qū)域的特征變換為一個(gè)向量,并將其傳送至識別網(wǎng)絡(luò)的兩個(gè)全連接層,對每一個(gè)候選區(qū)域生成一個(gè)長度為D=4096的一維向量,將所有一維向量存儲起來,最終生成B個(gè)長度為D的一維向量,組合形成一個(gè)B×D形狀的矩陣;
步驟2.4,將得到的矩陣輸入到基于LSTM的語言模型中,最終生成關(guān)于圖片每一部分的具體描述;
所述BLEU算法中,采用詞頻的對比方法,計(jì)算生成的配圖描述的文字內(nèi)容與新聞的文字內(nèi)容的對比評分,高于設(shè)定閾值即為圖文匹配,低于設(shè)定閾值即為圖文不匹配,所述對比評分的步驟如下:
步驟3.1,進(jìn)行拆分單句比對,獲取BLEU得分
1)計(jì)算各階n-gram的精度
首先計(jì)算各階n-gram在原文中可能出現(xiàn)的最大次數(shù)Countclip:
Countclip=min(Count,Max_Ref_count)
Count是n-gram在生成的圖片描述句子中的出現(xiàn)次數(shù),Max_Ref_Count是該n-gram在一個(gè)原文句子中最大的出現(xiàn)次數(shù),最終統(tǒng)計(jì)結(jié)果取兩者中的較小值;
計(jì)算各階n-gram的精度,其中n=1:
將整個(gè)要處理的將生成圖片描述句子表示為ci,原文句子表示為Si=si1,...,sij,...,sim,m表示有m個(gè)參考答案;hk(ci)表示wk生成圖片描述的句子ci中出現(xiàn)的次數(shù),hk(sij)表示wk在原文句子sij中出現(xiàn)的次數(shù),以n-grams表示n個(gè)單詞長度的詞組集合,則wk為第k個(gè)n-gram,maxj∈mhk(sij)表示某n-gram在多條標(biāo)準(zhǔn)答案中出現(xiàn)最多的次數(shù),∑i∑kmin(hk(ci),maxj∈mhk(sij))表示取n-gram在生成描述的句子和原文句子中出現(xiàn)的最小次數(shù);
2)加權(quán)求和
取權(quán)重:Wn=1/n
加權(quán)求和:
wn為n-gram的權(quán)重,Pn指各階n-gram的精度;
3)求BP
lc表示生成描述單句的長度,ls表示原文單句的長度;
4)求BLEU得分
步驟3.2,獲得單句描述與新聞的文字內(nèi)容每個(gè)單句的BLEU得分n1….nt,將排名前q的單句得分求平均值即為最終單句得分x:
步驟3.3,再依次求其他單句描述的最終得分x1…xt,求最終平均值y:
若y小于設(shè)定閾值即為圖文不匹配。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于內(nèi)蒙古工業(yè)大學(xué),未經(jīng)內(nèi)蒙古工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910075520.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 社交化評分體系
- 納稅用戶誠信評分方法及系統(tǒng)
- 陰道乳酸桿菌質(zhì)量評分體系在評判女性健康狀況上的應(yīng)用
- 一種基于BP神經(jīng)網(wǎng)絡(luò)的駕駛行為評分方法
- 一種電力運(yùn)營風(fēng)險(xiǎn)評價(jià)建模方法
- 一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞配圖匹配性檢測方法
- 關(guān)聯(lián)案件識別方法、電子裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- ESG評分體系的生成方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 一種基于免疫基因?qū)υu分體系在預(yù)測非小細(xì)胞肺癌患者免疫治療效果中的應(yīng)用
- 基于聯(lián)網(wǎng)車載ADAS的道路風(fēng)險(xiǎn)識別方法
- 網(wǎng)絡(luò)新聞表情分布的自動預(yù)測方法
- 一種基于互聯(lián)網(wǎng)的新聞發(fā)布系統(tǒng)
- 從新聞文檔中抽取社會網(wǎng)絡(luò)的方法和系統(tǒng)
- 語音式網(wǎng)絡(luò)新聞
- 一種網(wǎng)絡(luò)新聞概要提取方法
- 一種網(wǎng)絡(luò)新聞獲取及文本情感預(yù)測系統(tǒng)
- 一種基于網(wǎng)絡(luò)新聞的輿情分析方法、系統(tǒng)及介質(zhì)
- 一種基于增量聚類的企業(yè)熱點(diǎn)事件挖掘方法
- 一種網(wǎng)絡(luò)新聞熱點(diǎn)挖掘方法及裝置
- 應(yīng)用人工智能的新聞輿情文本處理方法、服務(wù)器及介質(zhì)





