[發明專利]一種標注文本糾錯的數據處理系統有效
| 申請號: | 202210710576.1 | 申請日: | 2022-06-22 |
| 公開(公告)號: | CN114792085B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 張正義;林方;劉宸;傅曉航 | 申請(專利權)人: | 中科雨辰科技有限公司 |
| 主分類號: | G06F40/117 | 分類號: | G06F40/117;G06F40/194;G06F40/232;G06N3/08 |
| 代理公司: | 北京鍾維聯合知識產權代理有限公司 11579 | 代理人: | 安娜 |
| 地址: | 100093 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標注 文本 糾錯 數據處理系統 | ||
本發明涉及一種標注文本糾錯的數據處理系統包括:數據庫、處理器和存儲有計算機程序的存儲器,當所述計算機程序被處理器執行時,實現以下步驟:當標注文本數量小于文本數量閾值時,獲取任一標注文本作為測試集和該標注文本對應的文本集作為訓練集;當標注文本數量不小于文本數量閾值時,將標注文本列表劃分成若干個中間標注文本列表且獲取任一中間標注文本列表作為測試集和該中間標注文本列表對應的文本集作為訓練集,根據訓練集對預設模型進行訓練,以使得基于訓練后的預設模型和測試集,確定異常文本對應的所有異常標注;能夠快速和準確的確定出異常文本,只需要校對人員對異常文本進行校對,簡化工作量,提高文本校準的效率。
技術領域
本發明涉及文本糾錯技術領域,尤其涉及一種標注文本糾錯的數據處理系統。
背景技術
當前,對文本標注的過程中包括:標注人員對文本的標注和校對人員對已標注的文本進行校對,當文本的數量較大時,標注人員和校對人員均會進行大量工作,會導致工作效率低,人員成本高。
現有技術中,采用文本糾錯模型對已標注的文本進行糾錯,但是,文本糾錯模型的糾錯準確率低,同時也需要對每一已標注的文本進行糾錯,會導致工作效率低。
同時,對于文本中常出現的錯誤,例如,英文詞漏寫字母或者人名地名的錯字等,標注人員無法知曉標注錯誤,導致增加校對人員的工作量,導致工作效率低。
發明內容
針對上述技術問題,本發明采用的技術方案為一種標注文本糾錯的數據處理系統,所述系統包括:數據庫、處理器和存儲有計算機程序的存儲器,其中,所述數據庫包括:標注文本列表A={A1,……,Ai,……,Am},Ai是指第i個標注文本,i=1……m,m為標注文本數量,當所述計算機程序被處理器執行時,實現以下步驟:
S100、當m<預設的文本數量閾值m0時,獲取A對應的第一指定文本集G={G1,……,Gi,……,Gm},第i個第一指定文本集Gi={Ai,Bi},其中,Ai對應的第一文本列表Bi={Bi1,……,Bir,……,Bis},Bir是指第r個第一文本,r=2……s為第一文本數量,并將Ai作為G中第i個第一目標測試集和G中Bi作為第i個第一目標訓練集;
S200、當m≥m0時,根據A,獲取中間文本集D={D1,……,Dj,……,Dn},Dj={Dj1,……,Djt,……,Djk},Djt是指第j個中間文本列表中第t個中間文本,j=2……n,n為中間文本列表數量,t=1……k,k為任一中間文本列表的中間文本數量,其中,n符合如下條件:
;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科雨辰科技有限公司,未經中科雨辰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210710576.1/2.html,轉載請聲明來源鉆瓜專利網。





