[發明專利]一種數據處理方法、服務器及計算機可讀介質有效
| 申請號: | 201810629038.3 | 申請日: | 2018-06-19 |
| 公開(公告)號: | CN109033070B | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 劉均;劉新;鄧思超 | 申請(專利權)人: | 深圳市元征科技股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/295;G06F16/903;G06F16/36;G06F16/33 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518000 廣東省深圳市龍*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 服務器 計算機 可讀 介質 | ||
本申請實施例公開了一種數據處理方法、服務器及計算機可讀介質,其中,該方法可以包括:對接收的由終端發送的原始數據進行分詞處理得到第一分詞結果;從預設圖結構查詢出與所述第一分詞結果匹配的至少一個關鍵詞對應的節點,根據統計的所述至少一個關鍵詞對應的節點的出現次數以及統計的與所述至少一個關鍵詞對應的節點相關聯的父節點的出現次數、與所述至少一個關鍵詞相關聯的第一命名實體出現的概率、與所述父節點對應的關鍵詞相關聯的第二命名實體出現的概率,計算出各個命名實體出現的概率;根據計算得到的概率,從所述各個命名實體中確定出目標命名實體。采用本申請實施例,可以提高命名實體識別的準確度和速率。
技術領域
本申請涉及計算機技術領域,尤其涉及一種數據處理方法、服務器及計算機可讀介質。
背景技術
在進行關鍵詞匹配時,目前所采用的關鍵詞匹配原則通常就是搜索出語句中與某個特定關鍵詞相關的信息,或者采用條件隨機場對語句進行命名實體識別以確定出相關的信息。然而,在關鍵詞匹配過程中,語句中包含了部分詞語的簡寫(縮寫)和較長語句被拆分后添加了連接詞等情況會干擾命名實體的識別過程,從而導致命名實體識別的準確率較低。
發明內容
本申請實施例提供了一種數據處理方法、服務器及計算機可讀介質,可以提高命名實體識別準確率和速率。
第一方面,本申請實施例提供了一種數據處理方法,包括:
接收終端發送的原始數據,并對所述原始數據進行分詞處理得到第一分詞結果;所述第一分詞結果包括一個或者多個關鍵詞;從預設圖結構查詢出與所述第一分詞結果匹配的至少一個關鍵詞對應的節點;提取所述至少一個關鍵詞對應的節點,并統計所述至少一個關鍵詞對應的節點的出現次數以及與所述至少一個關鍵詞對應的節點相關聯的父節點的出現次數;根據所述至少一個關鍵詞對應的節點的出現次數、所述父節點的出現次數、與所述至少一個關鍵詞相關聯的第一命名實體出現的概率、與所述父節點對應的關鍵詞相關聯的第二命名實體出現的概率,計算出各個命名實體出現的概率;根據計算得到的概率,從所述各個命名實體中確定出目標命名實體。
可選地,所述從所述各個命名實體中確定出目標命名實體具體包括:將所述各個命名實體出現的概率最大的命名實體確定為目標命名實體。
可選地,所述方法還包括:創建圖結構;所述圖結構至少包括第一節點和第二節點;所述第一節點為所述第二節點的父節點;為所述圖結構中的第一節點設置第一關鍵詞,為所述第二節點設置第二關鍵詞;所述第二關鍵詞的類別為第一關鍵詞的類別的子類別;將所述第一關鍵詞、與所述第一關鍵詞相關聯的命名實體、以及在目標語句中存在第一關鍵詞的情況下,所述目標語句存在與所述第一關鍵詞相關聯的命名實體的概率三者之間的對應關系,存儲在所述第一節點中或者存儲在所述圖結構中;將所述第二關鍵詞、與所述第二關鍵詞相關聯的命名實體、以及在目標語句中存在第二關鍵詞的情況下,所述目標語句存在與所述第二關鍵詞相關聯的命名實體的概率三者之間的對應關系,存儲在所述第二節點中或者存儲在所述圖結構中。
可選地,所述方法還包括:對樣本數據中的每條語句進行分詞處理得到第二分詞結果;所述第二分詞結果包括一個或多個關鍵詞;所述樣本數據中標記了命名實體;將所述第二分詞結果中與圖結構中相同的關鍵詞定義為目標關鍵詞;所述目標關鍵詞至少包括所述第一關鍵詞或所述第二關鍵詞;對所述每條語句中的各個命名實體進行統計以計算各個命名實體出現的概率;所述各個命名實體包括目標命名實體;計算在第一目標語句中存在所述目標命名實體的情況下,所述第一目標語句中存在目標關鍵詞的概率;根據所述目標關鍵詞出現的概率以及所述目標命名實體出現的概率計算出在第二目標語句中存在目標關鍵詞的情況下,所述第二目標語句中存在所述目標命名實體的概率。
可選地,所述對所述每條語句中的命名實體進行統計以計算出各個命名實體出現的概率,包括:統計所述樣本數據中包含目標命名實體的語句的數量,并統計所述樣本數據中總的語句的數量;將所述包含目標命名實體的語句的數量與所述總的語句的數量的比值作為目標命名實體出現的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市元征科技股份有限公司,未經深圳市元征科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810629038.3/2.html,轉載請聲明來源鉆瓜專利網。





