[發明專利]一種識別實體的數據處理系統有效
| 申請號: | 202210466016.6 | 申請日: | 2022-04-29 |
| 公開(公告)號: | CN114580392B | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 張正義;傅曉航;常鴻宇;劉羽 | 申請(專利權)人: | 中科雨辰科技有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279 |
| 代理公司: | 北京鍾維聯合知識產權代理有限公司 11579 | 代理人: | 安娜 |
| 地址: | 100093 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 實體 數據處理系統 | ||
本發明涉及實體識別技術領域,尤其是一種識別實體的數據處理系統。所述系統包括:數據庫、處理器和存儲有計算機程序的存儲器,其中,所述數據庫包括樣本實體集,當所述計算機程序被處理器執行時,實現以下步驟:獲取目標實體的特征列表和從數據庫中獲取任一樣本實體的特征列表,從目標實體的特征列表確定出目標實體的第一目標特征列表且從樣本實體的特征列表確定出樣本實體的第二目標特征列表,基于第一目標特征列表與第二目標特征列表獲取相似度,當相似度滿足預設條件時,確定目標實體等于樣本實體;本發明能夠準確的識別出實體,避免因無法準確的識別出實體導致無法獲取實體的相關信息。
技術領域
本發明涉及實體識別技術領域,尤其涉及一種識別實體的數據處理系統。
背景技術
在文本中需要對專有實體進行識別,例如、人名、地名、玩具名等專有名稱;現有技術中,對專有實體識別方法主要分為基于規則詞典的方法和基于統計模型的方法,基于規則詞典的方法主要通過構建線下大規模的實體詞典以字符串匹配的方式來進行識別,基于統計模型的方法主要是通過構建統計模型,利用人工標注的訓練語料來訓練模型從而進行識別。
但是,無論是基于規則詞典的方式還是基于規則詞典的方式都無法準確的識別出專有實體且也無法確定已識別的實體是否為已知的專有名詞,進而導致無法準確的獲取專有實體信息。
發明內容
針對上述技術問題,本發明采用的技術方案為一種識別實體的數據處理系統,所述系統包括:數據庫、處理器和存儲有計算機程序的存儲器,其中,所述數據庫包括樣本實體集B={B1,……,Bi,……,Bm},Bi是指第i個樣本實體的特征列表,i=1……m,m為樣本實體數量,當所述計算機程序被處理器執行時,實現以下步驟:
S100、獲取目標實體的特征列表A={A1,……,Aj,……,An},Aj是指目標實體的第j特征的特征字符串,j=1……n,n為特征類型數量;
S200、從數據庫中獲取任一Bi={Bi1,……,Bij,……,Bin},Bij是指第i個樣本實體對應的第j個特征的特征字符串;
S300、根據A,獲取到目標實體的第一目標特征列表C={C1,……,Cr,……,Cs},Cr是指目標實體對應的第r個第一目標特征的特征字符串,r=1……s,s為目標實體的第一目標特征數量;
S400、根據Bi,獲取到樣本實體的第二目標特征列表Di={Di1,……,Dir,……,Dis},Dr是指樣本實體對應的第r個第二目標特征的特征字符串;
S500、根據C和Di,獲取目標實體與第i個樣本實體之間的相似度Fi,以構建目標實體的相似度列表F={F1,……,Fi,……,Fm},其中,Fi符合如下條件:
,Fir是指Cr與Dir之間的相似度,Wr是指Fir對應的權重值;
S600、遍歷F且根據Fi,獲取目標實體的目標相似度;
S700、根據目標相似度,獲取到目標相似度對應的樣本實體且將目標實體確定為目標相似度對應的樣本實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科雨辰科技有限公司,未經中科雨辰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210466016.6/2.html,轉載請聲明來源鉆瓜專利網。





