[發明專利]數據處理方法、裝置及設備在審
| 申請號: | 202210582554.1 | 申請日: | 2022-05-26 |
| 公開(公告)號: | CN114880489A | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 祝慧佳 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/289;G06F40/30 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 朱文杰 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 設備 | ||
1.一種數據處理方法,包括:
獲取待識別的目標對象;
若所述目標對象中包含與第一暗語匹配的詞語,則從預先構建的語料庫包含的語料中,獲取與所述目標對象對應的目標語料,所述預先構建的語料庫包括第一語料,所述第一語料為基于第二暗語和目標風險語料構建的風險語料,所述目標風險語料包含與所述第二暗語具有預設關聯關系的風險詞語;
基于所述目標對象和所述目標語料的相似度,以及所述目標語料的風險標簽,確定所述目標對象是否為存在風險。
2.根據權利要求1所述的方法,在所述從預先構建的語料庫包含的語料中,獲取與所述目標對象對應的目標語料之前,還包括:
獲取包含與所述第二暗語具有預設關聯關系的風險詞語的目標風險語料;
基于所述第二暗語,對所述目標風險語料中的風險詞語進行替換處理,得到所述第一語料,并基于所述第一語料,構建所述語料庫。
3.根據權利要求2所述的方法,所述獲取包含與所述第二暗語具有預設關聯關系的風險詞語的目標風險語料,包括:
獲取與所述第二暗語具有預設關聯關系的第一風險詞語;
獲取預設風險詞語知識圖譜中與所述第一風險詞語具有所述預設關聯關系的第二風險詞語;
將包含所述第一風險詞語的風險語料,以及包含所述第二風險詞語的風險語料,確定為所述目標風險語料。
4.根據權利要求3所述的方法,所述預先構建的語料庫還包括第二語料,所述第二語料為包含所述第二暗語的無風險語料,所述基于所述第一語料,構建所述語料庫,包括:
將包含所述第二暗語的無風險語料確定為所述第二語料,并基于所述第一語料和所述第二語料,構建所述語料庫。
5.根據權利要求4所述的方法,所述基于所述第一語料和所述第二語料,構建所述語料庫,包括:
基于預先訓練的向量提取模型,對所述第一語料和所述第二語料進行特征提取處理,得到與所述第一語料對應的第一表征向量,以及與所述第二語料對應的第二表征向量;
基于所述第二暗語、所述第一表征向量和所述第一語料的風險標簽,以及所述第二表征向量和所述第二語料的風險標簽,構建所述語料庫;
所述從預先構建的語料庫包含的語料中,獲取與所述目標對象對應的目標語料,包括:
基于所述預先訓練的向量提取模型,對所述目標對象進行特征提取處理,得到與所述目標對象對應的目標表征向量;
基于所述第一暗語和所述第二暗語之間的相似度,和/或所述目標表征向量與所述語料庫中的表征向量之間的相似度,獲取與所述目標對象對應的目標語料。
6.根據權利要求5所述的方法,所述目標語料有多個,所述基于所述目標對象和所述目標語料的相似度,以及所述目標語料的風險標簽,確定所述目標對象是否為存在風險,包括:
獲取所述目標對象的目標表征向量和所述目標語料的表征向量之間的相似度,對所述目標語料進行排序;
基于所述目標語料的排序順序,以及所述目標語料的風險標簽,確定所述目標對象是否為存在風險。
7.根據權利要求6所述的方法,所述基于所述目標語料的排序順序,以及所述目標語料的風險標簽,確定所述目標對象是否為存在風險,包括:
基于所述目標語料的排序順序,以及所述目標語料的風險標簽,確定所述目標對象的風險值,并基于所述目標對象的風險值,確定所述目標對象是否存在風險。
8.根據權利要求7所述的方法,所述基于所述目標語料的排序順序,以及所述目標語料的風險標簽,確定所述目標對象的風險值,包括:
基于所述目標語料的排序順序,確定每個所述目標語料的風險權重;
基于所述目標語料的風險標簽,確定所述目標語料的風險值;
基于每個所述目標語料的風險權重和風險值,確定所述目標對象的風險值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210582554.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種全自動化學發光免疫分析儀器
- 下一篇:一種鋰離子電池溫熵系數測量方法





