[發明專利]一種智能客服方法及系統有效
| 申請號: | 201810910686.6 | 申請日: | 2018-08-10 |
| 公開(公告)號: | CN109033428B | 公開(公告)日: | 2021-09-10 |
| 發明(設計)人: | 鄧昕;王飛;洪偉俊 | 申請(專利權)人: | 深圳市磐創網絡科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332 |
| 代理公司: | 深圳市中科創為專利代理有限公司 44384 | 代理人: | 彭西洋 |
| 地址: | 518000 廣東省深圳市寶安區石巖*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 客服 方法 系統 | ||
1.一種智能客服方法,其特征在于,包括以下步驟:
建立問答數據庫,其由若干條包括問題、答案的問答數據組成;
建立與問答數據庫相關聯的問答模型,所述問答模型針對輸入的問答數據形成映射關系,匹配問答數據中的問題及與之對應的答案;
用戶提出待解答問題,問答模型從問答數據庫中找出匹配度最高的N條答案,再使用三種特征工程的方法對N條答案再進行一次相似度計算,給出對應答案推薦給用戶;
獲取用戶對推薦的答案評分,基于該評分優化調整問答模型,使得問答模型匹配出來的結果更加準確;
使用TFIDF算法和Doc2Vec算法從問答數據庫中找出匹配度最高的20條答案;
將匹配度最高的20條答案再進行一次相似度計算;
以相似度由高到低的排序將答案推薦給用戶;
將匹配度最高的20條答案再進行一次相似度計算的具體方法為:
使用三種特征工程的方法對匹配度最高的20條答案再進行一次相似度計算,三種方法計算方式如下:
(1)、計算相同關鍵詞的比例
KeyW1表示提出問題中非重復關鍵詞的個數,KeyW2表示匹配問題中包含提出問題中關鍵詞的個數;則:
(2)、計算句子長度的差異率
Len1,Len2分別表示提出問題與匹配問題的長度,即兩個問題中詞的個數,則:
(3)、計算關鍵詞的順序
對用戶輸入問題的關鍵詞排序成自然數序列,找出匹配問題中與輸入問題相同的關鍵詞的集合W,W中每個關鍵詞的值為輸入問題的自然數序列中對應關鍵詞的值,定義MaxRev為最大逆序數,即關鍵詞的組合數;Rev表示W的逆序數,則:
(4)基于這三種特征工程方法得到總的相似度計算方式:
Sim=λ1*WordSim+λ2*LenSim+λ3*OrdSim
其中,λ1、λ2、λ3為系數參數,取值為λ1/λ2/λ3∈(0-1),且λ1+λ2+λ3=1;該方法還包括問答模型優化的步驟:
按權重λ1’使用TF-IDF模型選詞,其中TF、IDF計算公式如下:
按權重λ2’使用Doc2Vec模型選詞向量,并根據評分,調整λ1’、λ2’在問答模型中的權重:
Sim=λ1′*Simtfidf+λ2′*Simdoc2vec
其中,λ1’、λ2’為系數參數,取值為λ1’、λ2’∈(0-1),且λ1’+λ2’=1;
其中,TF-IDF模型,即詞頻-逆文件頻率,詞頻指的是將數據庫中所有問題進行分詞后,每個詞在所有詞中出現的頻率;詞的逆文件頻率的思想是如果包含該詞的問題越少,IDF值越大,說明該詞能更好的區分不同問題之間的差異;Doc2Vec模型匹配與用戶輸入問題相似度高的問題;Doc2Vec模型的原理和Word2Vec模型的原理相似,并在其基礎上加上了一個段落向量;該段落向量可以表達段落的主旨;段落向量就是每個問題向量;在訓練過程中,設置窗口大小為3,即每次從問題中取三個詞向量輸入到模型中進行訓練,同時每次訓練都會將這個段落向量一并輸入進行訓練。
2.根據權利要求1所述的智能客服方法,其特征在于,所述問答數據庫可以經由用戶批量或逐條導入問答數據建立。
3.根據權利要求1-2任一項所述的智能客服方法的系統,其特征在于,包括:
問答數據庫,其由若干條包括問題、答案的問答數據組成;
問答模型,所述問答模型針對輸入的問答數據形成映射關系,匹配問答數據中的問題及與之對應的答案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市磐創網絡科技有限公司,未經深圳市磐創網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810910686.6/1.html,轉載請聲明來源鉆瓜專利網。





