[發(fā)明專(zhuān)利]一種基于CTW和KM算法的語(yǔ)義相似度計(jì)算方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201811517145.3 | 申請(qǐng)日: | 2018-12-12 |
| 公開(kāi)(公告)號(hào): | CN109858015B | 公開(kāi)(公告)日: | 2022-11-18 |
| 發(fā)明(設(shè)計(jì))人: | 李軍;鈕焱;劉宇強(qiáng);李星;童坤 | 申請(qǐng)(專(zhuān)利權(quán))人: | 湖北工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G06F40/30 | 分類(lèi)號(hào): | G06F40/30;G06F40/194 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430068 湖北*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 ctw km 算法 語(yǔ)義 相似 計(jì)算方法 裝置 | ||
1.一種基于CTW和KM算法的語(yǔ)義相似度計(jì)算方法,其特征在于,包括:
步驟S1:選擇預(yù)設(shè)語(yǔ)料庫(kù),并通過(guò)預(yù)設(shè)詞向量結(jié)合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的方法訓(xùn)練,獲得詞向量空間,其中,詞向量空間中的每個(gè)詞向量用以表征該分詞的語(yǔ)義信息;
步驟S2:將待比較文本與源文本進(jìn)行分詞,再根據(jù)所述詞向量空間,分別建立與待比較文本、源文本對(duì)應(yīng)的詞分量數(shù)組;
步驟S3:依次計(jì)算待比較文本中的每個(gè)分詞與源文本中的每個(gè)分詞的CTW距離;
步驟S4:根據(jù)計(jì)算出的CTW距離構(gòu)建CTW矩陣;
步驟S5:將分詞對(duì)應(yīng)的詞分量,按照待比較文本、源文本分為第一集合和第二集合,其中,第一集合和第二集合中的每個(gè)詞分量對(duì)應(yīng)一個(gè)頂點(diǎn),并根據(jù)頂點(diǎn)和CTW矩陣建立與待比較文本、源文本對(duì)應(yīng)的第一超平面和第二超平面,再計(jì)算第一超平面與第二超平面之間的層間距離,同時(shí)求得第二超平面對(duì)應(yīng)的映射法向量;
步驟S6:計(jì)算第二超平面對(duì)應(yīng)的映射法向量與待比較文本中向量點(diǎn)的距離,將其作為平面內(nèi)距離;
步驟S7:根據(jù)層間距離和平面內(nèi)距離,計(jì)算待比較文本與源文本之間的相似度。
2.如權(quán)利要求1所述的方法,其特征在于,步驟S3具體包括:
步驟S3.1:采用動(dòng)態(tài)規(guī)劃方法DTW中的預(yù)設(shè)公式計(jì)算Wx,Wy,該預(yù)設(shè)公式具體為:
其中,為求出的對(duì)齊X和Y的二元選擇矩陣,矩陣Wx和Wy為對(duì)齊路徑的編碼;
步驟S3.2:在DTW的最小平方公式的基礎(chǔ)上增加線(xiàn)性變換最小平方公式具體為:
其中,b≤min(dx,dy),通過(guò)將序列投影到相同的坐標(biāo)系中來(lái)參數(shù)化空間扭曲;
步驟S3.3:利用單位矩陣初始化Vx和Vy;
步驟S3.4:采用典型相關(guān)分析方法CCA計(jì)算Vx和Vy;
步驟S3.5:重復(fù)執(zhí)行步驟S3.1,采用預(yù)設(shè)規(guī)則改變Wx、Wy、Vx和Vy的值,根據(jù)預(yù)設(shè)公式計(jì)算CTW距離值Jctw,當(dāng)連續(xù)兩次計(jì)算出的CTW距離值Jctw滿(mǎn)足預(yù)設(shè)條件時(shí),則取當(dāng)前的Jctw作為CTW距離。
3.如權(quán)利要求1所述的方法,其特征在于,步驟S4具體包括:
將步驟S3計(jì)算出的CTW距離對(duì)應(yīng)的矩陣進(jìn)行維度擴(kuò)展,轉(zhuǎn)換為n*n維的矩陣,其中,n=min{dx,dy},dx×dy為CTW距離對(duì)應(yīng)的矩陣的大小。
4.如權(quán)利要求1所述的方法,其特征在于,步驟S5具體包括:
步驟S5.1:初始化可行頂標(biāo)的值,對(duì)兩邊的每一個(gè)頂點(diǎn)都賦予一個(gè)額外的值Lx(x)=max{w(x,yi)}i=1,2,....,dy,Ly(y)=0,使得對(duì)于二分圖G內(nèi)的所有邊e=xiyj均有Lx(x)+Ly(y)≥w(xy),對(duì)于一個(gè)賦值二分圖G(X,Y,E,W),X,Y代表二分圖的兩邊頂點(diǎn)標(biāo)號(hào),E代表邊的權(quán)值;
步驟S5.2:在已經(jīng)賦值可行頂標(biāo)的二分圖中,保留所有Lx(x)+Ly(y)=w(xy)的邊,刪去其他的邊,獲得生成子圖,再采用匈牙利算法KM尋找生成子圖的完備匹配,其中完備匹配用以表示所有的頂點(diǎn)都是匹配點(diǎn)的圖;
步驟S5.3:判斷是否找到完備匹配,如果未找到,則通過(guò)修改可行頂標(biāo)的值進(jìn)行調(diào)整,繼續(xù)執(zhí)行步驟S5.2;
步驟S5.4:根據(jù)找出的完備匹配,求出二分圖的最小路徑覆蓋的路徑的最小值和最大值,將最小值和最大值作為層間距離的最小值和層間距離的最大值。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于湖北工業(yè)大學(xué),未經(jīng)湖北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811517145.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。





