[發明專利]基于SinglePass算法實現無標注語料主動預測移動客服領域中突發事件的方法有效
| 申請號: | 201810044125.2 | 申請日: | 2018-01-17 |
| 公開(公告)號: | CN108549647B | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 徐俊利;趙江江;薛超;范林博;趙寧;祁澤川;魏強;譚乃瑜 | 申請(專利權)人: | 中移在線服務有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/35 |
| 代理公司: | 大連格智知識產權代理有限公司 21238 | 代理人: | 劉曉琴 |
| 地址: | 471000 河南省洛陽*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 singlepass 算法 實現 標注 語料 主動 預測 移動 客服 域中 突發事件 方法 | ||
1.一種基于SinglePass算法實現無標注語料主動預測移動客服領域中突發事件的方法,其特征在于包括如下步驟:
—對當前待處理的客服工單數據進行至少包括分詞、去停用詞和訓練詞向量的預處理,得到所述客服工單數據每個詞對應的詞向量,進而得到所述客服工單數據每個句子對應的句子向量;
—利用SinglePass算法對多個句子向量進行語義相似度計算,根據計算的句子間語義相似度結果進行聚類,得到移動客服領域突發事件話題;
—通過分析構建所述突發事件話題下每個詞在所有時刻的時間序列,即在監控時間段內出現該詞的所有時間組成的時間序列,根據每個時刻該詞的詞頻信息,得到所述每個詞的突發強度,選擇突發強度大于設定閾值的詞作為突發事件的突發詞;
—分析計算多個突發詞兩兩之間的相關度,選擇相關度最高的兩個突發詞,作為共現突發詞;基于共現突發詞計算每個話題的突發熱度,找到突發熱度最高的話題,抽取并輸出或返回包含共現突發詞的客服突發事件工單數據,完成突發事件的預測;
所述SinglePass算法根據客服突發事件工單數據在語義上的相似性,計算客服突發事件工單句子間的語義相似度,基于工單句子間語義相似度,對所述的句子向量進行聚類,具體構成如下:
—接受移動客服領域一條工單記錄R,初始化話題工單類Cluster={};
—計算工單記錄R與當前已有話題工單類中的各個話題所包含的每一條突發事件工單的語義相似度,取語義相似度最大值作為當前工單記錄R與該話題工單類的相似度;
—在所有話題工單類中選出與R相似度最大的一個類,并記錄此時的相似度值S;相似度計算采用歐式距離;
設兩條工單記錄R1和R2的句子向量分別為svec1={x1,x2,...xn}和svec2={y1,y2,...yn},其中n表示工單句子向量的維度,xi,yi分別表示R1、R2的工單句子向量第i維度上的值,歐式距離的計算公式如下式所示:
—如果S大于聚類閾值Tc,工單R被分配給當前話題工單類,聚類結束,等待新工單數到來;
—如果S小于聚類閾值Tc,工單R不屬于當前已有的話題工單類,創建新話題工單類,并將工單R加入該話題工單類,完成當前聚類,繼續等待新工單數據到來。
2.根據權利要求1所述的基于SinglePass算法實現無標注語料主動預測移動客服領域中突發事件的方法,其特征還在于采用時間序列算法Kleinberg得到所述移動客服領域的突發詞信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中移在線服務有限公司,未經中移在線服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810044125.2/1.html,轉載請聲明來源鉆瓜專利網。





