[發明專利]一種數據處理方法、裝置、服務器及存儲介質有效
| 申請號: | 201811004455.5 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109344395B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 王文斌;趙學敏;蘇可 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F16/332 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;賈允 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 服務器 存儲 介質 | ||
1.一種數據處理方法,其特征在于,所述方法包括:
獲取經過預處理得到的待識別語句數據;
將所述待識別語句數據輸入多個預設領域的意圖識別模型進行意圖識別,得到所述待識別語句數據具有每個所述預設領域的意圖的概率;
確定所述預設領域的可出閾值和召回閾值,包括:
獲取所述預設領域的正例語料數據和反例語料數據;
將所述正例語料數據和所述反例語料數據輸入預設意圖訓練模型進行意圖訓練;
在訓練過程中調整所述預設意圖訓練模型中的閾值,記錄每一閾值所對應的準確率和召回率數據;
基于所述每一閾值所對應的準確率和召回率數據確定準確率大于第一閾值,且準確率和召回率的調和平均最大的閾值;
將所述準確率大于第一閾值,且準確率和召回率的調和平均最大的閾值作為所述預設領域的可出閾值;
基于所述每一閾值所對應的準確率和召回率數據確定準確率大于第二閾值,且召回率最大的閾值;
將所述準確率大于第二閾值,且召回率最大的閾值作為所述預設領域的召回閾值;其中,所述第一閾值大于所述第二閾值,所述可出閾值大于所述召回閾值,所述召回閾值為非所述預設領域的數據被召回的下限值,所述可出閾值為所述預設領域的數據被召回的上限值;
當所述待識別語句數據具有所述預設領域的意圖的概率大于等于所述預設領域的召回閾值且小于所述預設領域的可出閾值,將所述待識別語句數據作為所述預設領域的待標注語句數據;
當所述待識別語句數據具有所述預設領域的意圖的概率大于等于所述預設領域的可出閾值,將所述待識別語句數據確定為所述預設領域的數據;
當所述待識別語句數據具有所述預設領域的意圖的概率小于所述預設領域的召回閾值時,將所述待識別語句數據確定為非所述預設領域的數據;
確定所述待標注語句數據的領域信息;
對所述待標注語句數據進行所述領域信息所對應領域的意圖識別處理,得到所述待標注語句數據在所述所對應領域的意圖信息。
2.根據權利要求1所述的方法,其特征在于,所述預設領域的意圖識別模型包括采用下述方式確定:
獲取所述預設領域的語料數據;
基于預設機器學習算法對所述預設領域的語料數據進行意圖識別訓練,得到所述預設領域的意圖識別模型。
3.根據權利要求1至2任一所述的方法,其特征在于,所述方法還包括:
所述準確率與真正例語料數據的數量以及假正例語料數據的數量滿足以下關系:
P=TP/(TP+FP),
所述召回率與真正例語料數據的數量以及假反例語料數據的數量滿足以下關系:
R=TP/(TP+FN);
其中,P為準確率,R為召回率,TP為真正例語料數據的數量,FP為假正例語料數據的數量,FN為假反例語料數據的數量;
所述真正例語料數據的數量為所述正例語料數據在所述訓練過程中被識別為正例語料數據的數量;所述假正例語料數據的數量為所述反例語料數據在所述訓練過程中被識別為正例語料數據的數量,所述假反例語料數據的數量為正例語料數據在所述訓練過程中被識別為反例語料數據的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811004455.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本類數據質量監控系統
- 下一篇:文本識別方法、裝置、及計算機設備





