[發(fā)明專利]一種問句擴(kuò)展方法、裝置、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011372430.8 | 申請(qǐng)日: | 2020-11-30 |
| 公開(公告)號(hào): | CN113392194A | 公開(公告)日: | 2021-09-14 |
| 發(fā)明(設(shè)計(jì))人: | 周輝陽;閆昭 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京同達(dá)信恒知識(shí)產(chǎn)權(quán)代理有限公司 11291 | 代理人: | 李娟 |
| 地址: | 518044 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 問句 擴(kuò)展 方法 裝置 設(shè)備 計(jì)算機(jī) 存儲(chǔ) 介質(zhì) | ||
1.一種問句擴(kuò)展方法,其特征在于,包括:
基于基礎(chǔ)問句,獲取待處理問句;
獲取待處理問句中各個(gè)第一詞語的語義影響值,所述語義影響值表征各個(gè)第一詞語對(duì)所述待處理問句的語義的影響程度;
基于各個(gè)第一詞語的語義影響值,以及各個(gè)第一詞語的上下文關(guān)聯(lián)信息,生成所述待處理問句對(duì)應(yīng)的拓展問句集合,所述拓展問句集合中包含與所述待處理問句的語義相似度大于第一預(yù)設(shè)閾值的拓展問句,其中所述上下文關(guān)聯(lián)信息表征所述一個(gè)詞語與歸屬于同一問句的各個(gè)詞語之間的相關(guān)性。
2.如權(quán)利要求1所述的方法,其特征在于,所述獲取待處理問句中各個(gè)第一詞語的語義影響值,包括:
基于預(yù)設(shè)詞語集合中的第二詞語,獲取各個(gè)第一詞語的第一參考值和第二參考值;所述第一參考值表示利用第一詞語生成拓展問句中的對(duì)應(yīng)詞語的概率,所述第二參考值表示利用第二詞語生成拓展問句中的對(duì)應(yīng)詞語的概率,所述第二詞語是預(yù)設(shè)詞語集合中與第一詞語的語義相似度大于第二預(yù)設(shè)閾值的詞語;
對(duì)第一參考值和第二參考值進(jìn)行歸一化處理,確定所述各個(gè)第一詞語的語義影響值。
3.如權(quán)利要求1所述的方法,其特征在于,所述基于各個(gè)第一詞語的語義影響值,以及各個(gè)第一詞語的上下文關(guān)聯(lián)信息,生成所述待處理問句對(duì)應(yīng)的拓展問句集合,包括:
確定所述拓展問句集合中的拓展問句的數(shù)量閾值N,所述N為正整數(shù);
基于各個(gè)第一詞語的語義影響值的大小,篩選出最大的前N個(gè)語義影響值對(duì)應(yīng)的第一詞語;
將篩選出的N個(gè)第一詞語,分別確定為N個(gè)拓展問句組中各個(gè)拓展問句組中的拓展問句的首個(gè)詞語;
針對(duì)N個(gè)拓展問句組中各個(gè)拓展問句組,根據(jù)所述首個(gè)詞語的上下文關(guān)聯(lián)信息和除所述首個(gè)詞語之外的第一詞語的上下文關(guān)聯(lián)信息,獲取各個(gè)拓展問句組中的拓展問句;
利用所述各個(gè)拓展問句組中的拓展問句,生成所述待處理問句對(duì)應(yīng)的拓展問句集合。
4.如權(quán)利要求1所述的方法,其特征在于,所述基于基礎(chǔ)問句,獲取待處理問句,包括:
將所述基礎(chǔ)問句中的部分問句或全部問句,確定為所述待處理問句;或
采用已訓(xùn)練的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,輸入獲取的基礎(chǔ)問句,并將所述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型輸出的與所述基礎(chǔ)問句的語義相似度大于第三預(yù)設(shè)閾值的問句,確定為所述待處理問句。
5.如權(quán)利要求4所述的方法,其特征在于,采用已訓(xùn)練的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,輸入所述基礎(chǔ)問句,并將所述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型輸出的與所述待處理問句的語義相似度大于第二預(yù)設(shè)閾值的問句,確定為所述待處理問句時(shí),所述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型是通過如下方式訓(xùn)練得到的:
獲取初始的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,所述初始的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò);所述編碼網(wǎng)絡(luò)用于利用問句樣本,學(xué)習(xí)生成問句樣本中各個(gè)詞語的語義向量,一個(gè)詞語的語義向量是通過將所述一個(gè)詞語的文本向量融合所述問句樣本的語義信息得到的;所述解碼網(wǎng)絡(luò)用于利用問句樣本中各個(gè)詞語的語義向量,學(xué)習(xí)生成與所述問句樣本的語義相同的問句;
利用第一問句樣本集中的問句樣本,調(diào)整所述編碼網(wǎng)絡(luò)的編碼參數(shù);
對(duì)所述初始解碼網(wǎng)絡(luò)的解碼參數(shù)進(jìn)行隨機(jī)初始化;
利用第二問句樣本集中的問句樣本,對(duì)調(diào)整后的編碼參數(shù)和進(jìn)行隨機(jī)初始化后的解碼參數(shù)進(jìn)行進(jìn)一步調(diào)整,并基于進(jìn)一步調(diào)整后的編碼參數(shù)和解碼參數(shù),獲得已訓(xùn)練的目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。
6.如權(quán)利要求4所述的方法,其特征在于,所述待處理問句包括至少兩個(gè),所述獲取待處理問句中各個(gè)第一詞語的語義影響值之前,還包括:
從所述至少兩個(gè)待處理問句中,確定出目標(biāo)待處理問句;
所述獲取待處理問句中各個(gè)第一詞語的語義影響值,包括:
獲取目標(biāo)待處理問句中各個(gè)第一詞語的語義影響值。
7.如權(quán)利要求6所述的方法,其特征在于,所述從所述至少兩個(gè)待處理問句中,確定出目標(biāo)待處理問句,包括:
從所述至少兩個(gè)待處理問句中,隨機(jī)選取部分待處理問句或全部待處理問句為所述目標(biāo)待處理問句;或
從所述至少兩個(gè)待處理問句中,篩選出與所述基礎(chǔ)問句的語義相似度大于第三預(yù)設(shè)閾值的待處理問句,確定為所述目標(biāo)待處理問句。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011372430.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 建立問句生成模型的方法和裝置以及問句生成方法和裝置
- 一種智能問答方法及裝置
- 一種問句模板的質(zhì)量評(píng)估方法、裝置及存儲(chǔ)介質(zhì)
- 問句文本的匹配方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 問答匹配方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種快速獲取FAQ模型訓(xùn)練語料的方法
- 擴(kuò)展問句的召回方法和裝置
- 對(duì)問句語料進(jìn)行處理的方法、裝置以及存儲(chǔ)介質(zhì)
- 文本處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 同義句匹配方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





