[發明專利]一種基于CCA算法的中文社區問答跨模態檢索方法有效
| 申請號: | 201810935656.0 | 申請日: | 2018-08-16 |
| 公開(公告)號: | CN109213853B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 蘇磊;劉浠 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/284;G06V10/77;G06V30/10;G06V30/41;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 cca 算法 中文 社區 問答 跨模態 檢索 方法 | ||
1.一種基于CCA算法的中文社區問答跨模態檢索方法,其特征在于,具體步驟如下:
(1)從中文社區的問答對中提取數據集,數據集中包括文本數據和圖像數據,然后分別采用LDA主題模型提取文本數據的特征向量、采用卷積神經網絡特征提取方法和K-means聚類方法提取圖像數據的特征向量,分別得到文本數據的特征向量集X和圖像數據的特征向量集Y;
(2)用CCA算法將步驟(1)文本數據的特征向量集和圖像數據的特征向量集映射到同一個特征空間,然后計算文本和圖像的相似度,構建圖像和文本跨模態檢索模型;
(3)利用步驟(2)得到的跨模態檢索模型進行跨模態檢索,實現圖文交叉檢索;
所述步驟(1)采用LDA主題模型提取文本數據的特征向量,具體步驟如下:
Stepl:將數據集中文本數據進行預處理,預處理包括分詞、去除停用詞、詞干提取;
Step2:將預處理后的所有文本數據即問答對中的單詞作為行,文本問答對中各單詞出現的頻率作為列,構建文本詞頻矩陣;
Step3:將步驟Step2的文本詞頻矩陣轉化為一個向量列表,該列表包括單詞以及單詞出現的頻率;
Step4:利用LDA主題模型計算每個單詞對應文本數據中每條問答對的概率,設所有問答對組成的集合為D,集合D中的第k條問答對為dk,設主題的集合為T,集合T中第i個主題為ti,設每條問答對dk由一個以上的單詞組成,單詞集合為{w1,w2,,,wj,,,wn},則D中涉及的所有的不同的單詞組成詞典VOC,則每條問答對對應主題集合T中的第i個主題的概率pti為:
其中,nti表示每條問答對中對應第i個主題的單詞的數目,n是問答對中所有單詞的總數;
計算主題集合T中的主題t生成詞典VOC中第j個單詞的概率pwj:
其中,Ntj表示主題t對應到詞典VOC中第j個單詞出現的數目,N表示主題t下所有單詞的總數;
則第k條問答對dk中的第j個單詞wj對應主題ti的概率Pi(wj|dk)為:
Pi(wj|dk)=pti*pwj;
然后對主題集合T中的所有主題求概率,得到問答對中的第j個單詞wj對應的所有主題的概率,并將概率最大的作為第j個單詞wj最終對應的主題;
將問答對集合D中所有的問答對分別重復以上步驟,得到分類主題,即完成用LDA模型對文本數據進行分類,分類后的結果作為文本數據的特征向量集X。
2.根據權利要求1所述的基于CCA算法的中文社區問答跨模態檢索方法,其特征在于:所述步驟(1)采用卷積神經網絡特征提取方法和K-means聚類方法提取圖像數據的特征向量的具體步驟如下:
Step1:首采用opencv圖像處理方法將原始圖像在不改變像素的基礎上調整為統一大小的圖像,并將處理后的圖片作為卷積神經網絡的輸入層;
Step2:圖像數據集經過卷積神經網絡進行特征提取,卷積神經網絡模型輸出圖像數據集的特征向量空間集,且特征向量空間集中的每個特征向量列表表示每張圖像的局部特征;
Step3:然后采用K-means聚類方法將Step2得到的特征向量空間集中的所有的特征向量進行聚類分析,聚類后得到的特征向量集為圖像數據的特征向量集Y。
3.根據權利要求1所述的基于CCA算法的中文社區問答跨模態檢索方法,其特征在于:所述步驟(2)用CCA算法將步驟(1)文本數據的特征向量集和圖像數據的特征向量集映射到同一個特征空間,然后計算文本和圖像的相似度,并對圖文進行交叉檢索,具體步驟如下:
Step1:分別計算文本數據的特征向量集X、圖像數據的特征向量集Y的均值
Step2:然后根據計算數據集的協方差矩陣Cw(X,Y):
Step3:將文本數據的特征向量集X進行線性表示,投影到一維,并定義μ=aTX,將圖像數據的特征向量集Y進行線性表示,投影到一維,并定義v=bTY,其中aT,bT分別為特征向量的轉置,然后最大化μ和v的相關性,μ和v的相關性表示如下:
對該公式進行求解,首先固定分母,求解分子,將Corr(μ,v)的求解條件重寫為:
Maximize:aTCw(X,Y)b
subject to:aTCw(X,X)a=1,bTCw(Y,Y)b=1
對其求解的方式是構造Lagrangian等式:
其中,λ和θ為參數,對λ和θ分別求導,并令導數為0,得到方程組:
Cw(X,Y)b-λCw(X,X)a=0 (1)
Cw(Y,X)a-θCw(Y,Y)b=0 (2)
再將其轉換為:
aT(Cw(X,Y)b-λCw(X,X)a)=0
bT(Cw(Y,X)a-θCw(Y,Y)b)=0
根據已知條件中aTCw(X,X)a=1,bTCw(Y,Y)b=1,得到:
λ=θ=aTCw(X,Y)b
求出的λ即為Corr(μ,v),故只需計算λ的最大值,將上面的方程(1)(2)進一步簡化,得到
Cw(X,X)-1Cw(X,Y)b=λa(3)
Cw(Y,Y)-1Cw(Y,X)b=λb(4)
其矩陣的表示形式為:
最終求解結果為:
Cw(X,X)-1Cw(X,Y)Cw(Y,Y)-1Cw(Y,X)=λ2a
對其求解特征值λ2和特征向量a,再根據上述等式(3)求得b,故得到了文本數據X和圖像數據Y的替代變量u和v,λ是u和v的相關系數;
Step4:令向量ρD作為文本特征向量集X映射到u的最大子空間上的一個空間坐標,令向量ρI作為圖像特征空間Y映射到v的最大子空間上的一個空間坐標,給定一個查詢問答對dk和它的文本特征投影向量ρD,求出文本特征投影向量ρD與所有的圖像數據特征投影向量之間的距離d(ρT,ρI),將計算的d(ρT,ρI)最小值的圖像作為與文本特征投影向量ρD最匹配的檢索圖像,通過文本數據的投影向量與圖像數據的投影向量得到文本數據集中的問答對與圖像數據集中的最匹配的圖像;同理,給定一個查詢圖像I和它的投影ρI,求出圖像的投影ρI與所有的文本數據的投影ρD之間的距離d(ρI,ρD),將計算的d(ρI,ρD)的最小值的問答對作為與圖像投影最匹配的問答對,從而實現圖像和文本間的交叉檢索,構建了圖像和文本的跨模態檢索模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810935656.0/1.html,轉載請聲明來源鉆瓜專利網。





