[發明專利]一種確定語料意圖的方法、裝置及電子設備在審
| 申請號: | 202010985724.1 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112256863A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 李涵;王俊;王雷;伍治源;魏青 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06F40/194;G06F40/216 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 鄧靈 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 語料 意圖 方法 裝置 電子設備 | ||
本申請提供了一種確定語料意圖的方法、裝置及電子設備,用以高效地確定語料意圖,該方法包括:基于預設的規則對第一語料集進行核心詞篩選之后,根據核心詞對該語料集進行子集劃分(即分類),得到多個子集;對于多個子集中語料數量滿足預設條件的子集,直接基于該子集對應的核心詞,確定該子集的意圖,對于多個子集中語料數量不滿足預設條件的任一子集,將其作為新的第一語料集,采用新的核心詞再對新的第一語料集進行子集劃分,以此循環,直到所有的語料都能確定出意圖。該方法的整個過程不需要人工參與,可以實現自動、高效、低成本地確定語料意圖,進而提升對話機器人的智能性。
技術領域
本申請涉及計算機技術領域,尤其涉及一種確定語料意圖的方法、裝置及電子設備。
背景技術
隨著計算機技術的飛速發展,為了滿足商業業務和人們日常生活的需要,對話機器人應運而生。其中,對話機器人的智能程度由算法引擎的能力和對話意圖的豐富性決定。因此,在算法引擎穩定的情況下,要提高機器人的智能程度,就需要提升對話系統中意圖的豐富性。
大部分廠商對于語料的新意圖挖掘,多采用聚類和人工分析相結合的方式,但對話機器人獲取到的對話語料多為短文本語料,且語料語義特征少、語料分布不均勻,數據稀疏。因此,采用常見聚類算法對這些短文本語料進行聚類,會將不相關的語料聚合在一起,導致聚類出的結果不準確,需要大量的人工分析,加重了人工成本。
也有部分廠商采用遷移學習與分類相結合的方法來實現語料的新意圖挖掘,但這種方式也需要大量人工對語料進行數據標注,且這種方式中遷移學習模型訓練所需的計算能力較高、訓練周期長。因此,這種方式仍存在成本高、效率低、無法快速滿足業務需求的問題。
由上述分析可知,當前聚類或分類等機器學習方法無法高效準確地實現對話語料的新意圖挖掘,需要耗費大量的人工成本或計算設備成本,且效率較低。因此,如何實現高效、低成本地對語料進行新意圖挖掘,是目前亟需解決的技術問題。
發明內容
本申請提供一種確定語料意圖的方法、裝置及電子設備,用以高效地確定語料意圖。
第一方面,提供一種確定語料意圖的方法,該方法可以由電子設備執行,也可以由設備中的軟件程序或硬件芯片執行,本申請這里不做限定。在該方法中,電子設備首先獲取包含若干條語料的第一語料集;之后,電子設備從第一語料集中確定出至少一個核心詞,并根據至少一個核心詞對第一語料集執行預設操作。具體的,該預設操作包括:根據至少一個核心詞對第一語料集中的語料進行子集劃分,獲得至少一個子集,其中,至少一個子集與至少一個核心詞一一對應,每個子集中的語料均包含每個子集對應的核心詞;并且,在至少一個子集中的第一子集中的語料數量小于第一預設值時,可以基于第一子集對應的核心詞,確定第一子集中的所有語料的第一意圖,并基于所述第一意圖為所述第一子集中的所有語料添加意圖標簽;在第一子集中的語料數量不小于第一預設值時,將第一子集重新作為第一語料集,并對重新確定的第一語料集執行上述預設操作;其中,第一子集為至少一個子集中的任意一個子集;對不同所述第一語料集執行所述預設操作時所使用的核心詞的詞性不同。
在上述技術方案中,基于預設的規則對第一語料集進行核心詞篩選之后,根據核心詞對該語料集進行子集劃分(即分類),得到多個子集;對于多個子集中語料數量滿足預設條件(即語料數量小于第一預設值)的子集,直接基于該子集對應的核心詞確定該子集的意圖,而對于多個子集中語料數量不滿足預設條件的子集,將其作為新的第一語料集,采用新的核心詞再對新的第一語料集執行預設操作。整個過程可不需要人工參與,可以實現自動、高效、低成本地確定語料意圖。而且根據新的核心詞對第一語料集子集劃分后得到的子集中不滿足預設條件的子集重新執行預設操作,可以盡可能地挖掘出更多的語料意圖,使得確定出的語料意圖更加精確。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010985724.1/2.html,轉載請聲明來源鉆瓜專利網。





