[發(fā)明專利]一種語(yǔ)句匹配方法、語(yǔ)句匹配裝置及智能設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202010054565.3 | 申請(qǐng)日: | 2020-01-17 |
| 公開(kāi)(公告)號(hào): | CN113139034A | 公開(kāi)(公告)日: | 2021-07-20 |
| 發(fā)明(設(shè)計(jì))人: | 熊為星;熊友軍 | 申請(qǐng)(專利權(quán))人: | 深圳市優(yōu)必選科技股份有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/332;G06F40/30 |
| 代理公司: | 深圳中一聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 44414 | 代理人: | 李木燕 |
| 地址: | 518000 廣東省深圳市南山區(qū)*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語(yǔ)句 匹配 方法 裝置 智能 設(shè)備 | ||
1.一種語(yǔ)句匹配方法,其特征在于,包括:
接收輸入語(yǔ)句;
對(duì)所述輸入語(yǔ)句進(jìn)行預(yù)處理;
將處理后的所述輸入語(yǔ)句輸入至已訓(xùn)練的第一檢索模型及第二檢索模型中,并基于所述第一檢索模型及所述第二檢索模型的輸出結(jié)果得到候選語(yǔ)句集合,其中,所述第一檢索模型用于基于所述輸入語(yǔ)句的字詞在預(yù)設(shè)的語(yǔ)料庫(kù)中檢索與所述輸入語(yǔ)句相匹配的語(yǔ)句,所述第二檢索模型用于基于所述輸入語(yǔ)句的語(yǔ)義在所述語(yǔ)料庫(kù)中檢索與所述輸入語(yǔ)句相匹配的語(yǔ)句,所述候選語(yǔ)句集合中包含有一條以上與所述輸入語(yǔ)句相匹配的候選語(yǔ)句;
將所述輸入語(yǔ)句以及所述候選語(yǔ)句集合輸入至已訓(xùn)練的排序模型中,得到各個(gè)候選語(yǔ)句與所述輸入語(yǔ)句的相似度得分,其中,所述排序模型基于隨機(jī)森林模型及線性模型構(gòu)建而得,所述排序模型通過(guò)訓(xùn)練所確定的一個(gè)以上文本特征實(shí)現(xiàn)對(duì)各個(gè)候選語(yǔ)句與所述輸入語(yǔ)句的相似度得分的計(jì)算;
獲取所述排序模型所輸出的排序后的各個(gè)候選語(yǔ)句,其中,所述各個(gè)候選語(yǔ)句基于所述相似度得分由高至低的順序進(jìn)行排序。
2.如權(quán)利要求1所述的語(yǔ)句匹配方法,其特征在于,所述將與處理后的所述輸入語(yǔ)句輸入至已訓(xùn)練的第一檢索模型及第二檢索模型中,并基于所述第一檢索模型及所述第二檢索模型的輸出結(jié)果得到候選語(yǔ)句集合,包括:
將所述輸入語(yǔ)句輸入至所述第一檢索模型,得到所述第一檢索模型所輸出的第一語(yǔ)句集合;
將所述輸入語(yǔ)句輸入至所述第二檢索模型,得到所述第二檢索模型所輸出的第二語(yǔ)句集合,其中,所述第一語(yǔ)句集合所包含的語(yǔ)句的數(shù)量與所述第二語(yǔ)句集合所包含的語(yǔ)句的數(shù)量均為N,N為預(yù)設(shè)的正整數(shù);
對(duì)所述第一語(yǔ)句集合與所述第二語(yǔ)句集合取并集,得到候選語(yǔ)句集合。
3.如權(quán)利要求2所述的語(yǔ)句匹配方法,其特征在于,所述第一檢索模型基于用于分布式全文檢索的ElasticSearch而構(gòu)建,所述將所述輸入語(yǔ)句輸入至所述第一檢索模型,得到所述第一檢索模型所輸出的第一語(yǔ)句集合,包括:
將所述輸入語(yǔ)句輸入至所述第一檢索模型中,獲得所述語(yǔ)料庫(kù)中的各個(gè)語(yǔ)句與所述輸入語(yǔ)句的ElasticSearch相似度得分,其中,所述ElasticSearch相似度得分基于詞頻-逆文本頻率指數(shù)TF-IDF算法計(jì)算而得;
在所述語(yǔ)料庫(kù)中,將篩選得到的所述ElasticSearch相似度得分最高的前N個(gè)語(yǔ)句輸出至所述第一語(yǔ)句集合中。
4.如權(quán)利要求2所述的語(yǔ)句匹配方法,其特征在于,所述第二檢索模型基于BERT模型而構(gòu)建,所述將所述輸入語(yǔ)句輸入至所述第二檢索模型,得到所述第一檢索模型所輸出的第二語(yǔ)句集合,包括:
將所述輸入語(yǔ)句輸入至所述第二檢索模型中,獲得所述語(yǔ)料庫(kù)中的各個(gè)語(yǔ)句與所述輸入語(yǔ)句的BERT語(yǔ)義相似度得分,其中,所述BERT語(yǔ)義相似度得分基于輸入語(yǔ)句的句向量與語(yǔ)料庫(kù)中的語(yǔ)句的句向量的余弦相似度計(jì)算而得;
在所述語(yǔ)料庫(kù)中,將篩選得到的所述BERT語(yǔ)義相似度得分最高的前N個(gè)語(yǔ)句輸出至所述第二語(yǔ)句集合中。
5.如權(quán)利要求1至4任一項(xiàng)所述的語(yǔ)句匹配方法,其特征在于,所述語(yǔ)句匹配方法還包括:
基于預(yù)設(shè)的標(biāo)準(zhǔn)驗(yàn)證集,通過(guò)所述隨機(jī)森林模型對(duì)候選文本特征進(jìn)行訓(xùn)練,其中,所述候選文本特征包括如下一項(xiàng)以上:ElasticSearch相似度得分、BERT語(yǔ)義相似度得分、杰卡德相似度得分、編輯距離得分、關(guān)鍵詞語(yǔ)匹配相似度得分、業(yè)務(wù)詞語(yǔ)匹配相似度得分、名詞匹配相似度得分及動(dòng)詞匹配相似度得分;
根據(jù)所述隨機(jī)森林模型對(duì)所述候選文本特征的訓(xùn)練結(jié)果,確定所述排序模型所采用的文本特征;
通過(guò)所述線性模型對(duì)所述排序模型所采用的文本特征進(jìn)行訓(xùn)練,以確定所述排序模型所采用的各個(gè)文本特征的權(quán)重;
基于所述排序模型所采用的文本特征,以及所述排序模型所采用的各個(gè)文本特征的權(quán)重,獲得已訓(xùn)練的匹配模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市優(yōu)必選科技股份有限公司,未經(jīng)深圳市優(yōu)必選科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010054565.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于聊天大數(shù)據(jù)知識(shí)庫(kù)的機(jī)器人對(duì)話控制方法和系統(tǒng)
- 基于大數(shù)據(jù)搜索的幽默型機(jī)器人對(duì)話控制方法和系統(tǒng)
- 基于對(duì)話知識(shí)庫(kù)的機(jī)器人對(duì)話控制方法和系統(tǒng)
- 一種自然語(yǔ)言語(yǔ)句評(píng)價(jià)方法及裝置
- 句子級(jí)雙語(yǔ)對(duì)齊方法及系統(tǒng)
- 一種獲取相似語(yǔ)句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種翻譯模型結(jié)果重排序的方法及裝置
- 用于輸出信息的方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)
- 搜索推薦方法和裝置、服務(wù)器、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本識(shí)別方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





