[發明專利]問答數據處理方法、電子裝置及存儲介質在審
| 申請號: | 201810135748.0 | 申請日: | 2018-02-09 |
| 公開(公告)號: | CN108415980A | 公開(公告)日: | 2018-08-17 |
| 發明(設計)人: | 于鳳英;王健宗;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本數據 坐席 匹配度 知識庫 存儲介質 電子裝置 數據處理 記錄 時間順序排列 加權計算 特征權重 問題語句 預設 語句 數據庫 篩選 答案 節約 補充 更新 統計 維護 | ||
1.一種問答數據處理方法,其特征在于,該方法包括:
獲取步驟:從數據庫獲取坐席文本數據,所述坐席文本數據包括所有客戶與客服在問答過程中記錄的問答數據;
分組步驟:將所述坐席文本數據分為若干組問答記錄,同一組問答記錄屬于同一客戶和相應的客服,每組問答記錄包括客戶的若干個問題語句和客服的若干個答案語句;
排序步驟:按照記錄的時間順序排列每組問答記錄中的問題語句和答案語句,去除無相應答案語句的問題語句和無相應問題語句的答案語句,將每組問答記錄中的問題語句和答案語句排列為一問一答的形式,從而得到若干個候選問答對,每個候選問答對包括一個問題語句和一個相應的答案語句;
提取步驟:對每個候選問答對中的問題語句和答案語句進行分詞處理得到各個詞條,統計各詞條在所述坐席文本數據中出現的詞頻,根據所統計的各詞條的詞頻為相應詞條計算詞條權重,將詞條權重大于第一預設閾值的詞條作為相應問題語句或答案語句的關鍵詞;
計算步驟:統計每個候選問答對的多個指定特征,對每個所述指定特征分別賦予相應的預設特征權重,針對每個候選問答對,使用所述特征權重對所述多個指定特征進行加權計算,得到每個候選問答對的匹配度;
篩選步驟:從所有候選問答對中篩選出匹配度高于第二預設閾值的候選問答對作為目標問答對,將所述目標問答對補充到問答知識庫中,所述問答知識庫用于為客戶基于問答知識庫中的問答對進行智能應答。
2.如權利要求1所述的問答數據處理方法,其特征在于,所述從數據庫獲取坐席文本數據之后,還包括對所述坐席文本數據進行數據清洗操作,所述數據清洗操作包括:
統計坐席文本數據中各語句的出現頻率,獲取出現頻率高于第三預設閾值的語句作為高頻語句;
對每個所述高頻語句進行分詞處理,統計分詞處理后得到的各詞條在所有高頻語句中的出現頻率,將出現頻率高于第四預設閾值的詞條作為寒暄詞;
計算坐席文本數據各語句中所有寒暄詞在所屬語句所有詞條中的占比,將所計算出的占比高于第五預設閾值的語句作為寒暄類語句;
確定坐席文本數據中的短文本語句,所述短文本語句包括字符數小于第六預設閾值的語句,以及只包含數字和/或符號的語句;
從所述坐席文本數據中過濾掉所述寒暄類語句和所述短文本語句,從而完成所述數據清洗操作。
3.如權利要求1所述的問答數據處理方法,其特征在于,所述根據所統計的各詞條的詞頻為相應詞條計算詞條權重包括:
采用以下公式計算所述詞條權重w:
w=log(n/df);
其中n為相應詞條在所述坐席文本數據中的詞頻,df為在預設的大規模語料庫中包含相應詞條的文檔數。
4.如權利要求1所述的問答數據處理方法,其特征在于,所述多個指定特征包括:
問題語句和答案語句的共同關鍵詞數目a1;
問題語句和答案語句的共同關鍵詞長度a2;
問題語句和答案語句的共同詞條的數目a3;
問題語句和答案語句的共同詞條的長度a4;
問題語句的長度a5;
答案語句的長度a6;
問題語句和答案語句的主題相似度a7;
問題語句和答案語句的句法相似度a8;
所述使用所述特征權重對所述多個指定特征進行加權計算,得到每個候選問答對的匹配度包括:
對所述多個指定特征采用多元邏輯回歸模型進行加權回歸擬合計算,得到每個候選問答對的匹配度g(z),公式如下:
g(z)=1/(1+ez),e為自然常數;
其中,z=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6+a7*x7+a8*x8,x1、x2...x8分別為所述a1、a2...a8的特征權重。
5.如權利要求1所述的問答數據處理方法,其特征在于,所述將所述目標問答對補充到問答知識庫之前,還包括:
將所述各個目標問答對中,對應相同問題語句的答案語句進行合并處理,使每個目標問答對之間包含的問題語句互不相同,每個目標問答對中包括一個或多個答案語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810135748.0/1.html,轉載請聲明來源鉆瓜專利網。





