[發(fā)明專利]一種用于輿情解析的多模態(tài)數(shù)據(jù)特征提取與關(guān)聯(lián)方法有效
| 申請?zhí)枺?/td> | 202011299703.0 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112417097B | 公開(公告)日: | 2022-09-16 |
| 發(fā)明(設(shè)計(jì))人: | 金昊;楊悅;宋丹;劉安安;李陽陽;王亞珅 | 申請(專利權(quán))人: | 中國電子科技集團(tuán)公司電子科學(xué)研究院;天津大學(xué) |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/55;G06F16/583;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 張建中 |
| 地址: | 100041 北京市石*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 輿情 解析 多模態(tài) 數(shù)據(jù) 特征 提取 關(guān)聯(lián) 方法 | ||
本發(fā)明公開了一種用于輿情解析的多模態(tài)數(shù)據(jù)特征提取與關(guān)聯(lián)方法,該方法包括:構(gòu)建第一神經(jīng)網(wǎng)絡(luò)及第二神經(jīng)網(wǎng)絡(luò);由第一神經(jīng)網(wǎng)絡(luò)提取文本輿情信息的文本特征,由第二神經(jīng)網(wǎng)絡(luò)提取圖像輿情信息的圖像特征;構(gòu)造包含節(jié)點(diǎn)及邊緣的圖結(jié)構(gòu)A、B;圖結(jié)構(gòu)A用于編碼文本特征,其上的節(jié)點(diǎn)與文本特征相對應(yīng);圖結(jié)構(gòu)B用于編碼圖像特征,其上的節(jié)點(diǎn)與圖像特征相對應(yīng);將圖像輿情信息與文本輿情信息一一匹配,構(gòu)成若干個(gè)圖文對,通過語義損失函數(shù)和三元組損失函數(shù)共同約束訓(xùn)練;對包含相同圖像輿情信息或相同文本輿情信息的多個(gè)圖文對的匹配關(guān)聯(lián)度進(jìn)行評估排序。本發(fā)明采用圖結(jié)構(gòu)對圖像?文本對中的對象和詞的關(guān)系進(jìn)行建模,并通過重新排序機(jī)制提高匹配性能。
技術(shù)領(lǐng)域
本發(fā)明涉及跨模態(tài)檢索及語義解析領(lǐng)域,尤其涉及一種用于輿情解析的多模態(tài)數(shù)據(jù)特征提取與關(guān)聯(lián)方法。
背景技術(shù)
目前,隨著大數(shù)據(jù)時(shí)代的到來,網(wǎng)絡(luò)輿情的數(shù)據(jù)量呈爆發(fā)式增長,數(shù)據(jù)格式呈現(xiàn)多樣化特點(diǎn),網(wǎng)絡(luò)輿情面臨海量、異構(gòu)、多維信息來源影響,而主要數(shù)據(jù)格式為文本和圖像。近年來,文本-圖像匹配任務(wù)已經(jīng)成為一個(gè)熱門的研究課題,并吸引了越來越多的興趣,它連接了計(jì)算機(jī)視覺和自然語言處理領(lǐng)域,并涉及兩種不同的模態(tài)。如何提取輿情文本特征和圖像特征,并建立異構(gòu)特征空間之間的映射,成為有效解析輿情數(shù)據(jù)、利用多源異構(gòu)數(shù)據(jù)進(jìn)行輿情分析的關(guān)鍵。
基于全局特征的方法學(xué)習(xí)整個(gè)視覺和文本嵌入之間的潛在對應(yīng),首先分別提取圖像和文本特征向量,然后通過使用各種損失函數(shù)將它們投影到公共特征空間中。一些方法使用實(shí)例損失,度量學(xué)習(xí)等方法提高了圖文對的相似性;另外大量方法通過設(shè)計(jì)生成對抗網(wǎng)絡(luò)將特征映射到一個(gè)公共空間;最近,注意力機(jī)制被更好地應(yīng)用于挖掘圖像中與語義相關(guān)的區(qū)域,和挖掘句子中的關(guān)鍵詞,并將這些區(qū)域和關(guān)鍵詞更好的關(guān)聯(lián)。
排序優(yōu)化在提高許多領(lǐng)域的匹配性能方面起著至關(guān)重要的作用,基本思想是通過重新排序的方法優(yōu)化給定初始排名列表的排名順序。近年來出現(xiàn)了一些優(yōu)秀的重排算法,k-reciprocal算法通過挖掘上下文信息來改進(jìn)初始排序列表,這種方法已被廣泛應(yīng)用于當(dāng)前的技術(shù)中以提高性能;最近,由于度量融合的優(yōu)點(diǎn)和獲得用于更好的相似性評估的集成度量,已經(jīng)提出了許多通過度量融合方法的重新排序方法。
雖然已經(jīng)有人在圖像-文本匹配領(lǐng)域做了很多工作,研究者把更多的精力放在映射到公共空間上面,但是對于圖像-文本兩個(gè)模態(tài)中多個(gè)層次的相似性研究上目前還有一些欠缺。目前需要解決的問題包括以下兩個(gè)方面:
1、如何彌合視覺和文本模式之間的語義鴻溝;
2、并準(zhǔn)確測量不同模式之間的相似性。
發(fā)明內(nèi)容
本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題而提供一種用于輿情解析的多模態(tài)數(shù)據(jù)特征提取與關(guān)聯(lián)方法。
本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:一種用于輿情解析的多模態(tài)數(shù)據(jù)特征提取與關(guān)聯(lián)方法,該方法包括:
構(gòu)建用于提取文本特征的第一神經(jīng)網(wǎng)絡(luò)及用于提取圖像特征的第二神經(jīng)網(wǎng)絡(luò);
由第一神經(jīng)網(wǎng)絡(luò)提取文本輿情信息的文本特征,由第二神經(jīng)網(wǎng)絡(luò)提取圖像輿情信息的圖像特征;
構(gòu)造包含節(jié)點(diǎn)及邊緣的圖結(jié)構(gòu)A及圖結(jié)構(gòu)B;圖結(jié)構(gòu)A用于編碼文本特征,其上的節(jié)點(diǎn)與文本特征相對應(yīng);圖結(jié)構(gòu)B用于編碼圖像特征,其上的節(jié)點(diǎn)與圖像特征相對應(yīng);
將圖像輿情信息與文本輿情信息一一匹配,構(gòu)成若干個(gè)圖文對,通過語義損失函數(shù)和三元組損失函數(shù)共同約束訓(xùn)練;對包含相同圖像輿情信息或相同文本輿情信息的多個(gè)圖文對的匹配關(guān)聯(lián)度進(jìn)行評估排序。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電子科技集團(tuán)公司電子科學(xué)研究院;天津大學(xué),未經(jīng)中國電子科技集團(tuán)公司電子科學(xué)研究院;天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011299703.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種輿情信息獲取方法及裝置
- 一種輿情歸并方法、裝置、服務(wù)器和存儲介質(zhì)
- 企業(yè)輿情監(jiān)測方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 一種輿情數(shù)據(jù)推送方法、裝置、存儲介質(zhì)和終端設(shè)備
- 一種輿情分析方法
- 輿情分析方法、裝置、終端設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)
- 知識庫構(gòu)建方法及裝置
- 生成輿情專題方法、系統(tǒng)及存儲介質(zhì)
- 基于區(qū)塊鏈、輿情和核心算法的金融風(fēng)控系統(tǒng)
- 網(wǎng)絡(luò)輿情云平臺用戶單位變更配置的方法及系統(tǒng)
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





