[發(fā)明專利]一種短文本語義相似度度量方法、系統(tǒng)及裝置在審
| 申請?zhí)枺?/td> | 202110892292.4 | 申請日: | 2021-08-04 |
| 公開(公告)號: | CN113761935A | 公開(公告)日: | 2021-12-07 |
| 發(fā)明(設(shè)計)人: | 江豪;肖龍源;鄒輝;李威 | 申請(專利權(quán))人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廈門仕誠聯(lián)合知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35227 | 代理人: | 蔡稷元 |
| 地址: | 361009 福建省廈門市軟件*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 語義 相似 度量 方法 系統(tǒng) 裝置 | ||
本發(fā)明公開了一種短文本語義相似度度量方法、系統(tǒng)及裝置,該系統(tǒng)包括:向量轉(zhuǎn)化模塊,用于將待匹配的短文本A和短文本B分別轉(zhuǎn)化為向量A1和向量B1;特征強化模塊,用于將向量A1和向量B1分別轉(zhuǎn)化為特征增強向量A2和特征增強向量B2;特征提取模塊,用于根據(jù)特征增強向量A2和特征增強向量B2得到全局最大池化向量C和全局平均池化向量D;輸出模塊,用于根據(jù)全局最大池化向量C和全局平均池化向量D得到相似度預(yù)測結(jié)果。本發(fā)明基于神經(jīng)網(wǎng)絡(luò)獲得待匹配的短文本的語義特征,結(jié)合并強化共有特征,可以實現(xiàn)快速、準確且穩(wěn)定的語義相似度的計算。
技術(shù)領(lǐng)域
本發(fā)明涉及語義相似度計算技術(shù)領(lǐng)域,特別是一種短文本語義相似度度量方法、系統(tǒng)及裝置。
背景技術(shù)
短文本語義相似度(short-text semantic similarity,STSS)的計算,旨在提取并匹配短文本特征,核心任務(wù)是自然語言理解,屬于一項關(guān)鍵的基礎(chǔ)工作。文本相似度在自動問答系統(tǒng)、信息檢索、自動文本摘要、文本分類等自然語言處理的任務(wù)中都有廣泛的應(yīng)用。
現(xiàn)有的語義相似度模型主要分為兩大類:一種是表征類模型,分別提取兩句話的特征,輸入多層感知機判斷是否相似,例如SiameseNet,DSSM,CDSSM;一種是交互類模型,在獲得兩句話的初級特征后,進行交互,再輸入多層感知機預(yù)測相似度,例如MatchPyramid,ESIM,DAM。這兩類模型均取得了十分卓越的效果。
但現(xiàn)有的計算短文本相似度的方法仍存在一定的局限性:
首先,在詞嵌入過程中,通常使用通過GloVe或Fasttext等方法預(yù)訓練的詞向量,存于字典中進行調(diào)用,但由于文件過大,經(jīng)常會導(dǎo)致數(shù)據(jù)處理時間長于模型預(yù)測時間。而且,為增強輸入序列信息表征,有時會加入分詞信息,而分詞后產(chǎn)生的是一個迭代器,獲取分詞結(jié)果的時間是分詞耗時的20多倍。這都會導(dǎo)致模型無法在短時間內(nèi)處理大量文本。
其次,提取句子特征時,通常使用RNN結(jié)構(gòu),通常是2或4層的GRU或LSTM。循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計預(yù)示著由于并行度不高而造成的計算速度上的瓶頸,造成TPS下降。此外,每處理一個token,都會造成信息損失,在文本較長的情況下,會造成梯度消失或梯度爆炸,信息損耗過大。
最后,模型參數(shù)上,由于模型過于精巧,復(fù)雜度高,動輒幾百甚至上千萬的參數(shù)經(jīng)常會造成模型占用內(nèi)存較大,同時也需要更多的訓練數(shù)據(jù)。考慮到高質(zhì)量數(shù)據(jù)獲取和標注耗時耗力,現(xiàn)有相似度模型的應(yīng)用性和推廣性有待進一步提高。
發(fā)明內(nèi)容
本發(fā)明為解決上述問題,提供了一種短文本語義相似度度量方法、系統(tǒng)及裝置,基于神經(jīng)網(wǎng)絡(luò)獲得待匹配的短文本的語義特征,結(jié)合并強化共有特征,可以實現(xiàn)快速、準確且穩(wěn)定的語義相似度的計算。
為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種短文本語義相似度度量系統(tǒng),包括:向量轉(zhuǎn)化模塊,用于將待匹配的短文本A和短文本B分別轉(zhuǎn)化為向量A1和向量B1;特征強化模塊,用于將所述向量A1和所述向量B1分別轉(zhuǎn)化為特征增強向量A2和特征增強向量B2;特征提取模塊,用于根據(jù)所述特征增強向量A2和所述特征增強向量B2得到全局最大池化向量C和全局平均池化向量D;輸出模塊,用于根據(jù)所述全局最大池化向量C和所述全局平均池化向量D得到相似度預(yù)測結(jié)果。
優(yōu)選的,所述向量轉(zhuǎn)化模塊包括:序號矩陣轉(zhuǎn)化模塊,用于將短文本轉(zhuǎn)化為序號矩陣;詞嵌入模塊,用于將所述序號矩陣轉(zhuǎn)化為向量。
優(yōu)選的,所述特征強化模塊包括:特征交互模塊,用于基于注意力機制,得到注意力權(quán)重,并將所述向量A1乘以所述注意力權(quán)重,得到加權(quán)向量A1',將所述向量B1乘以所述注意力權(quán)重,得到加權(quán)向量B1';第一特征融合模塊,用于根據(jù)所述向量A1和所述加權(quán)向量A1'得到所述特征增強向量A2,根據(jù)所述向量B1和所述加權(quán)向量B1'得到所述特征增強向量B2。
優(yōu)選的,所述注意力機制為局部注意力機制。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門快商通科技股份有限公司,未經(jīng)廈門快商通科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110892292.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





