[發明專利]文本數據的處理方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202110381793.6 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113807096A | 公開(公告)日: | 2021-12-17 |
| 發明(設計)人: | 付振宇;鄭宇宇;趙英普;顧松庠 | 申請(專利權)人: | 京東科技控股股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06F16/33;G06F16/35 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 王萌 |
| 地址: | 100176 北京市北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 數據 處理 方法 裝置 計算機 設備 存儲 介質 | ||
本申請提出一種文本數據的處理方法、裝置、計算機設備和存儲介質,方法包括:獲取文本數據集,文本數據集中包括多個文本數據及每個文本數據對應的標簽信息,對文本數據集進行處理,以獲取N個訓練集及對應的N個測試集,N個訓練集及N個測試集互不相同,且N個測試集組成文本數據集,N為大于1的整數,利用N個訓練集分別訓練N個識別模型,并分別利用每個識別模型對對應的測試集中的文本數據進行識別,以確定文本數據集中每個文本數據對應的預測標簽,根據每個文本數據對應的預測標簽與標簽信息的差異程度,對文本數據集中的文本數據進行處理。由此,能夠快速地篩選出訓練文本數據中的錯誤標注,提高了訓練文本數據的質檢清洗速度和效率。
技術領域
本申請涉及自然語言處理技術領域,尤其涉及一種文本數據的處理方法、裝置、計算機設備和存儲介質。
背景技術
自然語言處理領域中,大部分任務都需要用到相應的訓練語料來訓練模型,比如命名實體識別(Named Entity Recognition,NER)任務。然而,訓練語料的質量好壞是影響模型效果的一個重要因素,因此在實際應用中,需要對原始的訓練語料進行質檢清洗,以提高模型的效果。
目前,訓練語料的清洗主要通過規則清洗和人工質檢清洗兩種方法實現,其中,規則清洗是根據訓練語料的特征,人為設置清洗規則來去除或者校驗質量低的訓練語料,這種方式清洗的質量低,并且會產生過渡清洗的情況,從而造成模型的泛化能力不足;人工清洗方式是由人工逐條清洗語料,這種方式比較耗時,清洗效率低。
發明內容
本申請旨在至少在一定程度上解決相關技術中的技術問題之一。
本申請提出一種文本數據的處理方法、裝置、計算機設備和存儲介質,以實現標注文本數據的自動清洗,通過對文本數據集進行處理以獲取多個訓練集和對應的多個測試集,訓練多個識別模型,并獲取每個訓練模型對對應測試集進行識別的預測標簽,進而根據預測標簽和標簽信息的差異程度對文本數據進行處理,能夠快速地篩選出訓練文本數據中的錯誤標注,提高了訓練文本數據的質檢清洗速度和效率,并能夠保證文本數據清洗的質量,盡量避免了由于錯誤標注文本數據帶來的模型不準確的問題,為后續模型訓練的效果提供了保障,用于解決現有技術中,規則清洗方式導致的清洗質量低、過度清洗,以及人工清洗方式導致的清洗效率低的技術問題。
本申請第一方面實施例提出了一種文本數據的處理方法,包括:
獲取文本數據集,其中,所述文本數據集中包括多個文本數據及每個文本數據對應的標簽信息;
對所述文本數據集進行處理,以獲取N個訓練集及對應的N個測試集,其中,所述N個訓練集及N個測試集互不相同,且所述N個測試集組成所述文本數據集,N為大于1的整數;
利用所述N個訓練集分別訓練N個識別模型;
分別利用每個所述識別模型,對所述對應的測試集中的文本數據進行識別,以確定所述文本數據集中每個所述文本數據對應的預測標簽;
根據每個所述文本數據對應的預測標簽與所述標簽信息的差異程度,對所述文本數據集中的文本數據進行處理。
本申請第二方面實施例提出了一種文本數據的處理裝置,包括:
獲取模塊,用于獲取文本數據集,其中,所述文本數據集中包括多個文本數據及每個文本數據對應的標簽信息;
拆分模塊,用于對所述文本數據集進行處理,以獲取N個訓練集及對應的N個測試集,其中,所述N個訓練集及N個測試集互不相同,且所述N個測試集組成所述文本數據集,N為大于1的整數;
訓練模塊,用于利用所述N個訓練集分別訓練N個識別模型;
識別模塊,用于分別利用每個所述識別模型,對所述對應的測試集中的文本數據進行識別,以確定所述文本數據集中每個所述文本數據對應的預測標簽;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東科技控股股份有限公司,未經京東科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110381793.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





