[發明專利]一種標注文本糾錯的數據處理系統有效
| 申請號: | 202210710576.1 | 申請日: | 2022-06-22 |
| 公開(公告)號: | CN114792085B | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 張正義;林方;劉宸;傅曉航 | 申請(專利權)人: | 中科雨辰科技有限公司 |
| 主分類號: | G06F40/117 | 分類號: | G06F40/117;G06F40/194;G06F40/232;G06N3/08 |
| 代理公司: | 北京鍾維聯合知識產權代理有限公司 11579 | 代理人: | 安娜 |
| 地址: | 100093 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標注 文本 糾錯 數據處理系統 | ||
1.一種標注文本糾錯的數據處理系統,其特征在于,所述系統包括:數據庫、處理器和存儲有計算機程序的存儲器,其中,所述數據庫包括:標注文本列表A={A1,……,Ai,……,Am},Ai是指第i個標注文本,i=1……m,m為標注文本數量,當所述計算機程序被處理器執行時,實現以下步驟:
S100、當m<預設的文本數量閾值m0時,獲取A對應的第一指定文本集G={G1,……,Gi,……,Gm},第i個第一指定文本集Gi={Ai,Bi},其中,Ai對應的第一文本列表Bi={Bi1,……,Bir,……,Bis},Bir是指第r個第一文本,r=2……s為第一文本數量,并將Ai作為G中第i個第一目標測試集和G中Bi作為第i個第一目標訓練集;
S200、當m≥m0時,根據A,獲取中間文本集D={D1,……,Dj,……,Dn},Dj={Dj1,……,Djt,……,Djk},Djt是指第j個中間文本列表中第t個中間文本,j=2……n,n為中間文本列表數量,t=1……k,k為任一中間文本列表的中間文本數量,其中,n符合如下條件:;
S300、獲取A對應的第二指定文本集G'={G'1,……,G'j,……,G'n},第j個第二指定文本集G'j={Dj,Cj},其中,Dj對應的第二文本集Cj={Cj1,……,Cjq,……,Cjp},Cjq是指第q個第二文本列表,q=2……p為第二文本列表數量,并將Dj作為G'中第j個第二目標測試集和Cj作為G'中第j個第二目標訓練集,其中,Cjq是指第q個第二文本列表,q=2……p為第二文本列表數量;
S400、獲取目標訓練集且基于目標訓練集對預設文本糾錯模型進行訓練,到目標文件糾錯模型,以使得根據目標測試集輸入至目標文件糾錯模型中,獲取A對應的異常文本,所述目標訓練集包括第一目標訓練集或者第二目標訓練集,所述目標測試集包括第一目標測試集或者第二目標測試集,其中,目標測試集和目標訓練集呈對應關系;
S500、獲取A對應的異常文本列表H={H1,……,Hg,……,Hz},Hg是指第g個異常文本,g=1……z,z為異常文本數量,且對Hg進行文本糾錯處理,得到Hg對應的所有異常標注;
其中,所述數據庫中還包括:實體類型集L={L1,……,Ly,……Lw},Ly是指第y個實體類型對應的實體列表,y=1……w,w為文本對應的實體類型數量,當所述計算機程序被處理器執行時,在S500步驟中還包括如下步驟:
S501、獲取Hg對應的標注實體列表Ug={Ug1,……,Ugx,……,Ugβg},Ugx是指第x個標注實體,x=1……βg,βg是指第g個異常文本中標注的實體數量;
S503、根據Ugx對應的實體類型,從L中獲取Ugx對應的實體列表Ly={Ly1,……,Lye,……,Lyvy},Lye是指Ly中第e個實體,e=1……vy,vy是指Ly中實體數量;
S505、根據Ugx和Lye,獲取Ugx的目標相似度Fgx;其中,在S505步驟中還包括如下步驟:
S5051、當Ugx為中文實體時,從Ly中獲取Ly對應的中文實體列表Ty={Ty1,……,Tya,……,Tyby},Tya是指Ly中第a個中文實體,a=1……by,by是指Ly中中文實體數量;
S5053、根據Ugx和Tya,獲取Ugx和Tya之間的相似度列表Egyx={Egyx1,……,Egyxa,……,Egyxby}且從Egyx中獲取最大相似度作為Fgx,其中,Egyxa是指Ugx和Tya之間的相似度,Egyxa符合如下條件:
,其中,
MKgxγ是指Ugx對應的向量MKgx中第γ位bit值,NKyaγ是指Tya對應的向量NKya中第γ位bit值;
S5055、當Ugx為中文實體時,從Ly中獲取Ly對應的非中文實體列表Ry={Ry1,……,Ryc,……,Rydy},Ryc是指Ly中第c個非中文實體,c=1……dy,dy是指Ly中非中文實體數量;
S5057、根據Ugx和Ry,獲取Ugx和Ry之間的相似度列表Fgyx={Fgyx1,……,Fgyxc,……,Fgyxdy}且從Fgyx中獲取最大相似度作為Fgx,其中,Fgyxc是指Ugx和Ryc之間的相似度,Fgyxc符合如下條件:
,其中,λgyxc是指Ugx和Ryc之間的編輯距離,ηgyxc是指在Ugx的字符數量與Ryc的字符數量之間的最大字符數量;
S507、當Fgx=F0時,確定Ugx為非異常標注,其中F0是指預設的第一相似度閾值且F0的取值為1;
S509、當Fgx≠F0時,對Ugx進行標記,以確定Ugx為異常標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科雨辰科技有限公司,未經中科雨辰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210710576.1/1.html,轉載請聲明來源鉆瓜專利網。





