[發明專利]數據檢測方法、裝置、存儲介質及設備有效
| 申請號: | 202010910557.4 | 申請日: | 2020-09-02 |
| 公開(公告)號: | CN112084764B | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 張賀 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/205;G06F16/35 |
| 代理公司: | 北京遠智匯知識產權代理有限公司 11659 | 代理人: | 范坤坤 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 檢測 方法 裝置 存儲 介質 設備 | ||
本公開實施例公開了數據檢測方法、裝置、存儲介質及設備。該方法包括:針對目標類別對應的分類數據集中的每個樣本數據,計算當前樣本數據與第一樣本數據的文本相似度,并根據所述文本相似度確定所述當前樣本數據對應的正常度評分,其中,所述第一樣本數據包括所述分類數據集中除所述當前樣本數據之外的樣本數據;將正常度評分較低的第一數量的樣本數據確定為檢測到的異常數據。通過采用上述技術方案,可以更加快速準確地識別異常數據。
技術領域
本公開實施例涉及計算機技術領域,尤其涉及數據檢測方法、裝置、存儲介質及設備。
背景技術
人機對話系統一般包括自動語音識別、自然語言理解、對話管理、自然語言生成和語音合成等子系統。自然語言理解子系統主要用于理解用戶輸入的查詢語句,一般負責垂直領域分類、領域意圖識別和槽位抽取三個任務,其中的垂直領域分類和領域意圖識別都屬于文本分類任務。通常一個人機對話系統包含用于垂直領域分類和領域意圖識別的多個文本分類模型,影響分類模型的效果的一個關鍵因素就是模型使用的樣本數據的質量。
在人機對話系統的生命周期中,有多種數據來源,通常包括用戶日志數據、眾包采集數據、眾包標注數據以及自動生成數據等。無論哪種數據來源,都會摻雜異常數據,異常數據不等同于錯誤數據,對于單類別的數據集而言,異常數據可包含不屬于當前類別的數據,即模型預測或者人工標注導致的分類錯誤,使該數據被誤劃分至當前類別,成為當前類別下的異常數據。在對分類模型進行訓練時,若采用的數據集中包含異常數據,則會對訓練結果產生影響,進而導致訓練得到的分類模型不夠準確,因此,需要檢測出數據集中的異常數據。現有的檢測方案一般包含三種:第一種是完全人工標注,標注人員需要經過專業培訓,人工成本和時間成本消耗大;第二種是模型輔助人工標注;第三種是完全模型標注。第二種和第三種均涉及模型,無論是復用線上分類模型,還是單獨訓練離線分類模型,都要依賴具體應用場景對應的分類模型,遷移性差,隨著標注任務數量增加,模型數量和維護成本也會增加。因此,現有的異常數據檢測方案不夠完善,需要改進。
發明內容
本公開實施例提供了數據檢測方法、裝置、存儲介質及設備,可以優化現有的異常數據檢測方案。
第一方面,本公開實施例提供了一種數據檢測方法,包括:
針對目標類別對應的分類數據集中的每個樣本數據,計算當前樣本數據與第一樣本數據的文本相似度,并根據所述文本相似度確定所述當前樣本數據對應的正常度評分,其中,所述第一樣本數據包括所述分類數據集中除所述當前樣本數據之外的樣本數據;
將正常度評分較低的第一數量的樣本數據確定為檢測到的異常數據。
第二方面,本公開實施例提供了一種數據檢測裝置,包括:
正常度評分計算模塊,用于針對目標類別對應的分類數據集中的每個樣本數據,計算當前樣本數據與第一樣本數據的文本相似度,并根據所述文本相似度確定所述當前樣本數據對應的正常度評分,其中,所述第一樣本數據包括所述分類數據集中除所述當前樣本數據之外的樣本數據;
異常數據檢測模塊,用于將正常度評分較低的第一數量的樣本數據確定為檢測到的異常數據。
第三方面,本公開實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如本公開實施例提供的數據檢測方法。
第四方面,本公開實施例提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如本公開實施例提供的數據檢測方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010910557.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





