[發明專利]數據處理方法及裝置在審
| 申請號: | 202010807710.0 | 申請日: | 2020-08-12 |
| 公開(公告)號: | CN112035659A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 張晗;李磊 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06F40/279;G06F40/35;G10L15/06;G10L15/08;G10L15/18;G10L15/26 |
| 代理公司: | 北京竹辰知識產權代理事務所(普通合伙) 11706 | 代理人: | 聶鵬 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 | ||
1.一種數據處理方法,其特征在于,包括:
從與用戶的對話中獲取所述用戶的語音數據;
將所述語音數據轉換為文本數據;
將所述文本數據輸入基于第一分類樹的變更而得到的第二分類樹,以確定所述用戶在所述對話中的意圖類別;其中,所述第一分類樹和所述第二分類樹均由多個類別節點組成,每個類別節點均包含一個用戶意圖分類模型,所述第二分類樹的訓練樣本集合是通過第一分類樹來獲得的。
2.根據權利要求1所述的方法,其特征在于,從與用戶的對話中獲取用戶的語音數據包括:
從所述用戶與人工智能機器人的對話中獲取所述用戶反饋的語音數據。
3.根據權利要求1所述的方法,其特征在于,將所述語音數據轉換為文本數據包括:
從所述語音數據中提取語音特征;
基于所述語音特征確定所述語音數據對應的文本數據。
4.根據權利要求1所述的方法,其特征在于,所述用戶在所述對話中的意圖類別包括以下至少一項:所述對話對所述用戶造成騷擾、所述用戶針對所述對話要進行投訴、所述對話的電話號碼錯誤以及所述用戶對所述對話感興趣。
5.根據權利要求1所述的方法,其特征在于,所述第一分類樹的變更包括以下至少一項:將所述第一分類樹中的一個節點拆分為多個子節點;向所述第一分類樹中的一個節點添加子節點;刪除所述第一分類樹中的一個節點。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
基于所述用戶的意圖類別,確定針對所述用戶采取的措施。
7.根據權利要求1所述的方法,其特征在于,所述第二分類樹的訓練樣本集合是通過如下方式獲得的:
獲取訓練語料;
將所述訓練語料輸入所述第一分類樹中,以基于每個類別節點的用戶意圖分類模型對所述訓練語料的分類結果來標注每個訓練語料的用戶意圖類別以得到標注的訓練語料;
根據標注的訓練語料確定所述訓練樣本集合。
8.一種數據處理裝置,其特征在于,包括:
語音數據獲取模塊,用于從與用戶的對話中獲取所述用戶的語音數據;
語音數據轉換模塊,用于將所述語音數據轉換為文本數據;
意圖類別確定模塊,用于將所述文本數據輸入基于第一分類樹的變更而得到的第二分類樹,以確定所述用戶在所述對話中的意圖類別;其中,所述第一分類樹和所述第二分類樹均由多個類別節點組成,每個類別節點均包含一個用戶意圖分類模型,所述第二分類樹的訓練樣本集合是通過第一分類樹來獲得的。
9.一種電子設備,包括:
存儲器,用于存儲非暫時性計算機可讀指令;以及
處理器,用于運行所述計算機可讀指令,使得所述處理器執行時實現根據權利要求1-7任一項所述的數據處理方法。
10.一種計算機可讀存儲介質,用于存儲非暫時性計算機可讀指令,當所述非暫時性計算機可讀指令由計算機執行時,使得所述計算機執行權利要求1-7任一項所述的數據處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010807710.0/1.html,轉載請聲明來源鉆瓜專利網。





