[發明專利]一種語料處理的方法、相關裝置及設備在審
| 申請號: | 202110774306.2 | 申請日: | 2021-07-08 |
| 公開(公告)號: | CN113821593A | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 王明;包恒耀 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/30;G06F40/289 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 李杭 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語料 處理 方法 相關 裝置 設備 | ||
本申請實施例公開了一種語料處理的方法、相關裝置及設備,用于使待擴充語料得到充足擴展,從而滿足模型訓練對語料的數量的需求。本申請實施例方法包括:獲取待擴充語料,根據待擴充語料獲取K個候選語料,將K個候選語料以及待擴充語料輸入至語義識別模型,以得到K個語義識別結果,其中,每個語義識別結果為相似度分值或相似度分類,相似度分值表示候選語料與待擴充語料之間的語義相似程度,相似度分類表示候選語料與待擴充語料之間的語義所屬類別,若K個語義識別結果中存在至少一個語義識別結果滿足語料提取條件,則將至少一個語義識別結果所對應的候選語料確定為目標語料,以得到屬于待擴充語料的至少一個目標語料。
技術領域
本申請實施例涉及人工智能技術領域,尤其涉及一種語料處理的方法、相關裝置及設備。
背景技術
隨著人工智能的普及,越來越多的人工智能技術能夠為人們的生活帶來便利,如用戶通過智能助手輸入一些請求語句,智能助手通過對這些請求語句進行分析處理,并將處理結果傳遞給后續的服務以做出相應的反饋,從而與用戶語音完成一次交互流程。
而目前的語義解析平臺在處理請求語句的時候,通常是采用意圖分類模型來對語句進行解析的,意圖分類模型是需要通過一定量的訓練語料進行訓練得到,但是由于現有的訓練語料中只能夠提供少量的種子語料,不足以支撐模型的正常訓練,或訓練出的模型過于擬合訓練數據而導致模型泛化效果太差。
發明內容
本申請實施例提供了一種語料處理的方法、相關裝置及設備,通過對待擴充語料的語料挖掘,來獲取大量的候選語料,并從大量的候選語料中進一步挖掘出與待擴充語料語義相似的目標語料,以使待擴充語料得到充足擴展,從而滿足模型訓練對語料的數量的需求。
有鑒于此,本申請一方面提供一種語料處理的方法,包括:
獲取待擴充語料;
根據待擴充語料獲取K個候選語料,其中,每個候選語料與待擴充語料之間的語義相似度大于或等于相似度閾值,K為大于1的整數;
將多個候選語料以及待擴充語料輸入至語義識別模型,以得到K個語義識別結果,其中,每個語義識別結果為相似度分值或相似度分類,相似度分值表示候選語料與待擴充語料之間的語義相似程度,相似度分類表示候選語料與待擴充語料之間的語義所屬類別;
若K個語義識別結果中存在至少一個語義識別結果滿足語料提取條件,則將至少一個語義識別結果所對應的候選語料確定為目標語料,以得到屬于待擴充語料的至少一個目標語料。
本申請的另一方面提供一種語料處理的裝置,包括:
獲取單元,用于獲取待擴充語料;
獲取單元,還用于根據待擴充語料獲取K個候選語料,其中,每個候選語料與待擴充語料之間的語義相似度大于或等于相似度閾值,K為大于1的整數;
處理單元,用于將K個候選語料以及待擴充語料輸入至語義識別模型,以得到K個語義識別結果,其中,每個語義識別結果為相似度分值或相似度分類,相似度分值表示候選語料與待擴充語料之間的語義相似程度,相似度分類表示候選語料與待擴充語料之間的語義所屬類別;
確定單元,用于若K個語義識別結果中存在至少一個語義識別結果滿足語料提取條件,則將至少一個語義識別結果所對應的候選語料確定為目標語料,以得到屬于待擴充語料的至少一個目標語料。
在一種可能的設計中,在本申請實施例的另一方面的一種實現方式中,
獲取單元,還用于獲取語料樣本集,其中,語料樣本集包括正樣本語料以及負樣本語料,正樣本語料對應于標注標簽;
處理單元,還用于對正樣本語料進行特征提取,得到正樣本語料特征,并對負樣本語料進行特征提取,得到負樣本語料特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110774306.2/2.html,轉載請聲明來源鉆瓜專利網。





