[發(fā)明專利]一種確定語料意圖的方法、裝置及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202010985724.1 | 申請日: | 2020-09-18 |
| 公開(公告)號(hào): | CN112256863A | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 李涵;王俊;王雷;伍治源;魏青 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/332;G06F40/194;G06F40/216 |
| 代理公司: | 北京同達(dá)信恒知識(shí)產(chǎn)權(quán)代理有限公司 11291 | 代理人: | 鄧靈 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 確定 語料 意圖 方法 裝置 電子設(shè)備 | ||
1.一種確定語料意圖的方法,其特征在于,包括:
確定第一語料集,所述第一語料集中包含若干條語料;
對所述第一語料集執(zhí)行下述預(yù)設(shè)操作:
根據(jù)至少一個(gè)核心詞對所述第一語料集中的語料進(jìn)行子集劃分,獲得至少一個(gè)子集,其中,所述至少一個(gè)子集與所述至少一個(gè)核心詞一一對應(yīng),每個(gè)所述子集中的語料均包含每個(gè)所述子集對應(yīng)的核心詞;
在所述至少一個(gè)子集中的第一子集中的語料數(shù)量小于第一預(yù)設(shè)值時(shí),基于所述第一子集對應(yīng)的核心詞,確定所述第一子集中的所有語料的第一意圖,并基于所述第一意圖為所述第一子集中的所有語料添加意圖標(biāo)簽;所述第一子集為所述至少一個(gè)子集中的任意一個(gè)子集;
在所述第一子集中的語料數(shù)量不小于所述第一預(yù)設(shè)值時(shí),將所述第一子集重新作為所述第一語料集,并對重新確定的所述第一語料集執(zhí)行所述預(yù)設(shè)操作;其中,對不同所述第一語料集執(zhí)行所述預(yù)設(shè)操作時(shí)所使用的核心詞的詞性不同。
2.如權(quán)利要求1所述的方法,其特征在于,根據(jù)至少一個(gè)核心詞對所述第一語料集中的語料進(jìn)行子集劃分,包括:
在所述第一語料集中選擇逆文本頻率指數(shù)TF-IDF值大于設(shè)定閾值的動(dòng)詞或名詞作為所述至少一個(gè)核心詞;其中,在不同所述第一語料集中選擇所述至少一個(gè)核心詞時(shí)所基于的所述設(shè)定閾值大小相同或不同;
基于選擇的所述至少一個(gè)核心詞對所述第一語料集中的語料進(jìn)行子集劃分。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述確定第一語料集,包括:
獲取對話日志,所述對話日志中包含多條語料;
篩選出所述多條語料中置信度小于或等于第一置信度的語料,基于篩選出的語料生成所述第一語料集,其中所述置信度用于表征語料分類的準(zhǔn)確程度。
4.如權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述至少一個(gè)核心詞對所述第一語料集中的語料進(jìn)行子集劃分,包括:
若所述第一語料集中的第一語料包括至少兩個(gè)核心詞,將所述第一語料劃分到與所述至少兩個(gè)核心詞分別對應(yīng)的至少兩個(gè)子集中的每個(gè)子集中;其中,所述第一語料為所述第一語料集包括的多個(gè)語料中的任意一個(gè)語料。
5.如權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述至少一個(gè)核心詞對所述第一語料集中的語料進(jìn)行子集劃分,包括:
若所述第一語料集中的第一語料包括至少兩個(gè)核心詞,確定所述至少兩個(gè)核心詞中逆文本頻率指數(shù)TF-IDF值最大的核心詞;
將所述第一語料劃分到所述TF-IDF值最大的核心詞對應(yīng)的子集中;其中,所述第一語料為所述第一語料集包括的多個(gè)語料中的任意一個(gè)語料。
6.如權(quán)利要求1-5中任一項(xiàng)所述的方法,其特征在于,在基于所述第一意圖為所述第一子集中的所有語料添加意圖標(biāo)簽之后,還包括:
基于已添加意圖標(biāo)簽的語料生成數(shù)據(jù)庫;
在接收到第一語音指令時(shí),從所述數(shù)據(jù)庫中確定出與所述第一語音指令相匹配的語料;
基于所述相匹配的語料的意圖標(biāo)簽確定所述第一語音指令的意圖。
7.如權(quán)利要求6所述的方法,其特征在于,在基于所述相匹配的語料的意圖標(biāo)簽確定所述第一語音指令的意圖之后,還包括:
根據(jù)所述第一語音指令的意圖執(zhí)行第一操作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010985724.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種語料提取器及提取語料的方法
- 軍事信息語料庫構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語料生成方法、語料生成裝置、和存儲(chǔ)介質(zhì)
- 短語語料獲取方法及短語語料獲取裝置
- 一種語料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備
- 用于意圖挖掘的方法和設(shè)備
- 意圖估計(jì)裝置以及意圖估計(jì)方法
- 意圖識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 意圖確認(rèn)方法及裝置
- 搜索意圖識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語句多意圖識(shí)別方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 對話系統(tǒng)中意圖沖突的解決方法、系統(tǒng)及裝置
- 信息通信網(wǎng)絡(luò)的意圖轉(zhuǎn)譯方法、系統(tǒng)、介質(zhì)及交互接口
- 語音對話的意圖識(shí)別方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 意圖識(shí)別方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





