[發(fā)明專利]語料擴充方法、裝置、計算機設備和存儲介質有效
| 申請?zhí)枺?/td> | 201911345982.7 | 申請日: | 2019-12-24 |
| 公開(公告)號: | CN111191032B | 公開(公告)日: | 2023-09-12 |
| 發(fā)明(設計)人: | 張文澤 | 申請(專利權)人: | 深圳追一科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/214;G06F18/22 |
| 代理公司: | 華進聯(lián)合專利商標代理有限公司 44224 | 代理人: | 毛丹 |
| 地址: | 518051 廣東省深圳市南山區(qū)粵海街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 擴充 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種語料擴充方法、裝置、計算機設備和存儲介質。所述方法包括:獲取標注語料集合中標注語料對應的第一特征表達及所屬的目標類別;獲取未標注語料集合中未標注語料對應的第二特征表達,及所述未標注語料屬于所述目標類別的可信度;根據(jù)所述可信度、第一特征表達、第二特征表達確定所述未標注語料與標注語料之間的相似度;當所述相似度大于相似度閾值時,將所述未標注語料保存至所述標注語料集合。采用本方法可以實現(xiàn)標注語料的自動添加,提高語料擴充的效率。
技術領域
本申請涉及計算機技術領域,特別是涉及一種語料擴充方法、裝置、計算機設備和計算機可讀存儲介質。
背景技術
隨著計算機技術的快速發(fā)展,自然語言處理技術的應用越來越廣泛。目前,自然語言處理技術主要應用于語音交互、問答系統(tǒng)、聊天機器人、設備控制等場景。為了提高自然語言處理的準確性,通常需要采用大量的標注語料訓練文本分類模型,以使訓練的文本分類模型可以根據(jù)輸入文本輸出準確的語義理解分類。然而,標注語料需要花費大量的人工精力進行篩選和標注,存在語料擴充效率低下的問題。
發(fā)明內(nèi)容
基于此,有必要針對上述技術問題,提供一種能夠提供語料擴充效率的語料擴充方法、裝置、計算機設備和計算機可讀存儲介質。
一種語料擴充方法,所述方法包括:
獲取標注語料集合中標注語料對應的第一特征表達及所屬的目標類別;
獲取未標注語料集合中未標注語料對應的第二特征表達,及所述未標注語料屬于所述目標類別的可信度;
根據(jù)所述可信度、第一特征表達、第二特征表達確定所述未標注語料與標注語料之間的相似度;
當所述相似度大于相似度閾值時,將所述未標注語料保存至所述標注語料集合。
在其中一個實施例中,所述根據(jù)所述可信度、第一特征表達、第二特征表達確定所述未標注語料與標注語料之間的相似度,還包括:
獲取所述第一特征表達和所述第二特征表達之間的距離值;
根據(jù)所述可信度對所述距離值進行加權處理,得到所述未標注語料與標注語料之間的相似度。
在其中一個實施例中,所述獲取所述未標注語料屬于所述目標類別的可信度,包括:
將所述未標注語料輸入文本分類模型,獲取輸出的分類向量;
所述分類向量包含所述未標注語料屬于不同的類別的可信度;
從所述分類向量中獲取所述目標類別對應的可信度。
在其中一個實施例中,所述根據(jù)所述可信度、第一特征表達、第二特征表達確定所述未標注語料與標注語料之間的相似度之前,還包括:
確定所述可信度是否大于可信度閾值;
當所述可信度超過所述可信度閾值時,則執(zhí)行所述根據(jù)所述可信度、第一特征表達、第二特征表達確定所述未標注語料與標注語料之間的相似度的操作。
在其中一個實施例中,所述獲取未標注語料集合中未標注語料對應的第二特征表達,包括:
對所述未標注語料進行固定特征識別,得到所述未標注語料的固定特征表達;
對所述未標注語料進行動態(tài)特征識別,得到所述未標注語料的動態(tài)特征表達;
拼接所述固定特征表達與所述動態(tài)特征表達,得到所述未標注語料對應的第二特征表達。
在其中一個實施例中,還包括:
獲取對話日志,所述對話日志包括問題語句和答復語句;將所述答復語句轉換為標準語句;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳追一科技有限公司,未經(jīng)深圳追一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911345982.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





