[發(fā)明專利]一種基于Transformer的語義相似度計算模型DSSM技術(shù)有效
| 申請?zhí)枺?/td> | 201910788264.0 | 申請日: | 2019-08-28 |
| 公開(公告)號: | CN110516240B | 公開(公告)日: | 2021-04-06 |
| 發(fā)明(設(shè)計)人: | 劉軼 | 申請(專利權(quán))人: | 南京璇璣信息技術(shù)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京衛(wèi)智暢科專利代理事務(wù)所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 211100 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 transformer 語義 相似 計算 模型 dssm 技術(shù) | ||
本發(fā)明公開了一種基于Transformer的語義相似度計算模型DSSM技術(shù),包括輸入層、表示層和匹配層,輸入層用于將圖譜節(jié)點名稱和APP頁面文字分別轉(zhuǎn)為由字向量表示的二維數(shù)組,并將其作為表示層的輸入,表示層是采用Transformer的編碼器部分,首先分別對由輸入層輸出的節(jié)點名稱特征向量和APP頁面文字特征向量進行編碼,從而提取出句子中每個單詞的更抽象特征,本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域。該基于Transformer的語義相似度計算模型DSSM技術(shù),與人為修改圖譜節(jié)點內(nèi)容需要消耗大量時間和精力不同,基于Transformer的語義相似度計算模型DSSM技術(shù)在測試圖譜應用中,能夠代替人工修改圖譜名稱,實現(xiàn)針對新APP內(nèi)容進行自動匹配的功能,提高APP的測試效率,減少人為的大量冗余操作。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體為一種基于Transformer的語義相似度計算模型DSSM技術(shù)。
背景技術(shù)
在信息化和自動化高度發(fā)達的今天,在具有大量冗余操作的領(lǐng)域,可以通過使用計算機來代替人工完成這些重復操作,從而提高工作速度和效率,在APP測試領(lǐng)域,針對某款APP,一般需要通過人工的方法去對該APP的每個可執(zhí)行的操作流程進行構(gòu)建,最終形成一個APP的可執(zhí)行操作流程圖,整個流程圖被稱為該APP的一個測試圖譜,圖中每一個節(jié)點代表對APP的一次操作,每一條邊則表示從一個操作到下一操作的轉(zhuǎn)移路徑,每一條路徑代表一個完整的可執(zhí)行流程。
在已有某一APP測試圖譜的基礎(chǔ)上,當一個新的具有相似功能的APP到來后,由于原有圖譜中節(jié)點名稱與新APP操作名稱不同,但卻有相同的執(zhí)行流程,此時需要人工針對新APP去修改已有測試圖譜節(jié)點名稱,或新生成一個圖譜,從而浪費大量的資源,并且修改圖譜的過程中,會產(chǎn)生大量的冗余操作,針對這些冗余操作,這就需要研究出一種更加快速,更加有效率的對已有測試圖譜和新APP內(nèi)容的自動匹配方法。
在NLP領(lǐng)域的其他應用場景中,同樣需要使用到語義相似度計算技術(shù),用于計算兩段短文之間的相似性,在信息檢索應用中,需要根據(jù)用戶輸入的信息,在已有文本數(shù)據(jù)中匹配到與用戶輸入信息最相近的文本內(nèi)容;在智能問題領(lǐng)域中,需要根據(jù)用戶所提問題,匹配到與該問題最相近的答案內(nèi)容,這些方法都需要估計一份文本與提問問題之間的關(guān)聯(lián)度。
發(fā)明內(nèi)容
(一)解決的技術(shù)問題
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于Transformer的語義相似度計算模型DSSM技術(shù),用于代替人工修改圖譜節(jié)點內(nèi)容,并生成與新APP對應圖譜的方法,語義相似度計算模型根據(jù)圖譜節(jié)點名稱到新APP頁面匹配找到與該操作節(jié)點對應的位置,然后執(zhí)行相應腳本操作,最終生成與新APP相匹配的測試圖譜。
(二)技術(shù)方案
為實現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實現(xiàn):一種基于Transformer的語義相似度計算模型DSSM技術(shù),包括輸入層、表示層和匹配層,所述輸入層用于將圖譜節(jié)點名稱和APP頁面文字分別轉(zhuǎn)為由字向量(word2vec)表示的二維數(shù)組,并將其作為表示層的輸入。
所述表示層是采用Transformer的編碼器部分,代替?zhèn)鹘y(tǒng)的CNN/RNN結(jié)構(gòu),首先,分別對由輸入層輸出的節(jié)點名稱特征向量和APP頁面文字特征向量進行編碼,從而提取出句子中每個單詞的更抽象特征,然后,通過global-attention將原本由每個字向量組成的句子特征表示轉(zhuǎn)換為由一個512維向量表示的新的句子特征。
所述匹配層在由表示層分別得到了圖譜節(jié)點名稱和APP頁面文字的句子特征向量后,圖譜節(jié)點名稱和APP頁面文字的句子特征向量之間的語義相似性可用這兩個語義向量(512維)的cosine距離來表示。
優(yōu)選的,所述字向量由網(wǎng)上公開文本數(shù)據(jù)訓練得到,且向量空間為300維。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京璇璣信息技術(shù)有限公司,未經(jīng)南京璇璣信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910788264.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡(luò)模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法
- 點云分割方法、系統(tǒng)、介質(zhì)、計算機設(shè)備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經(jīng)網(wǎng)絡(luò)的小分子表示學習方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





