[發(fā)明專(zhuān)利]句子相似度確定方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010112980.X | 申請(qǐng)日: | 2020-02-24 |
| 公開(kāi)(公告)號(hào): | CN111368537B | 公開(kāi)(公告)日: | 2023-08-11 |
| 發(fā)明(設(shè)計(jì))人: | 俞凱;陳露 | 申請(qǐng)(專(zhuān)利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類(lèi)號(hào): | G06F40/289 | 分類(lèi)號(hào): | G06F40/289;G06F40/30;G06F40/263 |
| 代理公司: | 北京商專(zhuān)永信知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 黃謙;車(chē)江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 句子 相似 確定 方法 系統(tǒng) | ||
本發(fā)明公開(kāi)一種句子相似度確定方法及系統(tǒng),用于確定第一語(yǔ)句與第二語(yǔ)句之間的相似度值,所述方法包括:構(gòu)造對(duì)應(yīng)于所述第一語(yǔ)句的第一詞圖,和對(duì)應(yīng)于所述第二語(yǔ)句的第二詞圖;確定所述第一詞圖的第一圖向量表示,和所述第二詞圖的第二圖像量表示;根據(jù)所述第一圖向量表示和所述第二圖像量表示確定所述第一語(yǔ)句與所述第二語(yǔ)句之間的相似度值。本發(fā)明在計(jì)算兩個(gè)句子之間的相似度時(shí),既不是以句子中的單個(gè)的字符序列作為輸入,也不是以單個(gè)的詞序列作為輸入,而是通過(guò)構(gòu)造第一語(yǔ)句和第二語(yǔ)句的詞圖的方式,這樣保留了句子的多種分詞可能性,使得據(jù)此得到的兩個(gè)句子之間的相似度更加準(zhǔn)確。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種句子相似度確定方法及系統(tǒng)。
背景技術(shù)
中文短文本匹配通常采用單詞序列而不是字符序列以獲得更好的性能。然而,漢語(yǔ)分詞可能是錯(cuò)誤的,模棱兩可或前后矛盾,因此會(huì)影響最終的匹配性能。
有三種相似的計(jì)算兩個(gè)中文句子的相似度的技術(shù):基于句向量的方法、基于交互的方法、基于大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的方法。
1)、基于句向量的方法:用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN/LSTM)或者卷積神經(jīng)網(wǎng)絡(luò)(CNN)分別對(duì)兩個(gè)句子進(jìn)行編碼,分別得到對(duì)應(yīng)的句向量,然后直接計(jì)算兩個(gè)向量的余弦距離作為兩個(gè)句子的相似度,或者基于兩個(gè)向量利用前饋神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)兩個(gè)句子的相似度。
2)、基于交互的方法:該方法與基于句向量的方法的唯一不同是,在得到句向量之前兩個(gè)句子會(huì)通過(guò)句間互注意力機(jī)制進(jìn)行信息交換。
3)、基于大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的方法:將兩個(gè)句子直接拼成一個(gè)長(zhǎng)句子,然后直接用大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(例如Bert)預(yù)測(cè)兩個(gè)句子的相似度。
前兩種方法的輸入可以是字也可以是詞。如果輸入是單個(gè)字的話(huà),則忽視了中文中詞所包含的語(yǔ)義信息;如果輸入是詞的話(huà),則需要預(yù)先對(duì)句子進(jìn)行自動(dòng)分詞,而自動(dòng)分詞可能會(huì)產(chǎn)生錯(cuò)誤。第三種方法的輸入只能是字,同樣地,忽視了詞所包含的語(yǔ)義信息。
發(fā)明內(nèi)容
為解決以上技術(shù)問(wèn)題,現(xiàn)有技術(shù)中通常采取以下方法:如果輸入單元是單個(gè)字的話(huà),一種可能的方案是在輸入中再額外加入一些分詞信息;如果輸入單元是詞的話(huà),一種可能的方案是在輸入中再加入字向量信息。但這些方法效果并不佳。
本發(fā)明的方法不進(jìn)行顯示的分詞,而是通過(guò)一個(gè)詞典將每個(gè)句子轉(zhuǎn)化為詞圖,然后比較兩個(gè)詞圖的相似度來(lái)作為句子的相似度。
示例性地,本發(fā)明實(shí)施例提供一種句子相似度確定方法及系統(tǒng),用于至少解決上述技術(shù)問(wèn)題之一。
第一方面,本發(fā)明實(shí)施例提供一種句子相似度確定方法,用于確定第一語(yǔ)句與第二語(yǔ)句之間的相似度值,所述方法包括:
構(gòu)造對(duì)應(yīng)于所述第一語(yǔ)句的第一詞圖,和對(duì)應(yīng)于所述第二語(yǔ)句的第二詞圖;
確定所述第一詞圖的第一圖向量表示,和所述第二詞圖的第二圖像量表示;
根據(jù)所述第一圖向量表示和所述第二圖像量表示確定所述第一語(yǔ)句與所述第二語(yǔ)句之間的相似度值。
在一些實(shí)施例中,所述構(gòu)造對(duì)應(yīng)于所述第一語(yǔ)句的第一詞圖,和對(duì)應(yīng)于所述第二語(yǔ)句的第二詞圖包括:
根據(jù)預(yù)設(shè)詞典對(duì)所述第一語(yǔ)句進(jìn)行分詞,以分詞得到的每一個(gè)詞作為一個(gè)節(jié)點(diǎn),相鄰節(jié)點(diǎn)之間通過(guò)有向邊連接,構(gòu)成第一詞圖;
根據(jù)預(yù)設(shè)詞典對(duì)所述第二語(yǔ)句進(jìn)行分詞,以分詞得到的每一個(gè)詞作為一個(gè)節(jié)點(diǎn),相鄰節(jié)點(diǎn)之間通過(guò)有向邊連接,構(gòu)成第二詞圖。
在一些實(shí)施例中,所述確定所述第一詞圖的第一圖向量表示,和所述第二詞圖的第二圖像量表示包括:
針對(duì)所述第一詞圖中的每一個(gè)節(jié)點(diǎn):根據(jù)節(jié)點(diǎn)所對(duì)應(yīng)的詞所包含的字的字向量確定節(jié)點(diǎn)向量;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010112980.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 相似圖像提取裝置、相似圖像提取方法以及相似圖像提取程序
- 一種鋼結(jié)構(gòu)火災(zāi)反應(yīng)分析方法
- 相似度計(jì)算裝置、相似度計(jì)算方法以及相似度計(jì)算程序
- 一種蛋白質(zhì)相似度及相似蛋白質(zhì)的確定方法和系統(tǒng)
- 一種獲取相似語(yǔ)句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種圖像搜索方法、裝置和存儲(chǔ)介質(zhì)
- 基于相似壽命模型和相似壽命的復(fù)雜產(chǎn)品可靠性評(píng)定方法
- 獲取機(jī)構(gòu)技術(shù)相似性的方法及裝置
- 口罩(相似)
- 臺(tái)燈(相似)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





