[發明專利]一種數據的處理方法、裝置及設備在審
| 申請號: | 201910094108.4 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN110008466A | 公開(公告)日: | 2019-07-12 |
| 發明(設計)人: | 袁錦程;許遼薩;易燦;崔世文 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06Q20/40 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許振新;朱文杰 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本數據 裝置及設備 定性模型 分詞 分析 定性 定性信息 分詞處理 構建 | ||
本說明書實施例公開了一種數據的處理方法、裝置及設備,所述方法包括:獲取待分析的文本數據;對所述文本數據進行分詞處理,得到所述文本數據對應的多個分詞;將所述文本數據對應的多個分詞輸入到預定的審理定性模型中進行審理分析,得到用于對所述文本數據進行定性的分析依據信息,其中,所述審理定性模型是基于包含有定性關鍵詞的文本數據構建的模型;根據所述分析依據信息,確定所述文本數據對應的定性信息。
技術領域
本說明書涉及計算機技術領域,尤其涉及一種數據的處理方法、裝置及設備。
背景技術
網絡技術和終端技術給用戶的工作和生活帶來便利,但同時也存在潛在的風險,而隨著網絡服務的不斷壯大,網絡交易的數量也越來越大,其中就會包含欺詐、賭博交易等風險。
通常可以通過關鍵詞匹配的方式對用戶之間的交易進行定性,即可以獲取用戶之間交互的數據(如用戶之間發送的文本數據等),或者,用戶主動上傳的相關數據,然后,可以對獲取的數據進行分詞,得到的分詞結果可以分別與預先設定的定性關鍵詞進行匹配。通過匹配的定性關鍵詞,可以為相應的交易進行定性,例如,獲取的數據為“騙我錢去賭博”,如果預先設定的定性關鍵詞中包括賭博,則與獲取的數據相匹配的定性關鍵詞為賭博,此時可以判定相應的交易為賭博。
然而,在審理定性的場景下,通過上述方式得到的定性信息并不準確,基于上述示例,通過上述方式確定的定性信息為賭博,而實際上,“騙我錢去賭博”的定性信息應該是欺詐,從而使得定性分析的結果的準確率低下。此外,當前用于審理定性的定性關鍵詞數量較多(已超過300個),這樣在進行定性分析過程中,會使得定性關鍵詞的匹配過程需要較多時間,從而降低了定性分析的效率,因此,需要提供一種定性分析的效率更高、結果的準確率更高的數據處理方案。
發明內容
本說明書實施例的目的是提供一種數據的處理方法、裝置及設備,以提供一種定性分析的效率更高、結果的準確率更高的數據處理方案。
為了實現上述技術方案,本說明書實施例是這樣實現的:
本說明書實施例提供的一種數據的處理方法,所述方法包括:
獲取待分析的文本數據;
對所述文本數據進行分詞處理,得到所述文本數據對應的多個分詞;
將所述文本數據對應的多個分詞輸入到預定的審理定性模型中進行審理分析,得到用于對所述文本數據進行定性的分析依據信息,其中,所述審理定性模型是基于包含有定性關鍵詞的文本數據構建的模型;
根據所述分析依據信息,確定所述文本數據對應的定性信息。
可選地,所述方法還包括:
獲取包含有定性關鍵詞的樣本數據;
根據所述包含有定性關鍵詞的樣本數據和預定的機器學習算法,構建審理定性模型,其中,所述審理定性模型中包括嵌入層、GRU層和Attention層,所述Attention層用于確定所述樣本數據中包含的所述定性關鍵詞。
可選地,所述根據所述包含有定性關鍵詞的樣本數據和預定的機器學習算法,構建審理定性模型,包括:
根據所述包含有定性關鍵詞的樣本數據和預定的機器學習算法,構建初始審理定性模型;
將所述初始審理定性模型和預定的目標模型進行集成,得到所述審理定性模型,其中,所述目標模型是基于包含有預定關鍵詞的文本數據構建的模型。
可選地,所述方法還包括:
確定所述審理定性模型能夠覆蓋的定性關鍵詞;
通過所述審理定性模型能夠覆蓋的定性關鍵詞重新訓練所述審理定性模型,得到重新訓練后的審理定性模型。
可選地,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910094108.4/2.html,轉載請聲明來源鉆瓜專利網。





