[發明專利]用于對話的貢獻度計算方法及主題抽取方法和系統有效
| 申請號: | 201710065890.8 | 申請日: | 2017-02-06 |
| 公開(公告)號: | CN106844344B | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 李稀敏;王宇;肖龍源;蔡振華;劉曉葳;劉楚;朱敬華;譚玉坤 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/258;G06F16/332;G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 361009 福建省廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 對話 貢獻 計算方法 主題 抽取 方法 系統 | ||
1.一種用于對話的句子貢獻度計算方法,其特征在于,包括以下步驟:
a1.利用word2vec模型得到對話的單句中的每個單詞的向量,并對所述每個單詞的向量進行均值計算得到單詞向量均值,將該單詞向量均值作為所述單句的向量Vec(serve);
b1.利用word2vec模型得到對話的主題中的每個主題詞的向量,并對所述每個主題詞的向量進行均值計算得到主題詞向量均值,將該主題詞向量均值作為所述主題的向量Vec(topic);
c1.根據所述單句的向量Vec(serve)和所述主題的向量Vec(topic)計算所述單句與所述主題的余弦值cosθ,并根據該余弦值cosθ得到所述單句與所述主題的相似度;
d1.利用LDA主題模型得到對話中的所述單句在所述主題上的概率值;
e1.將所述相似度與對應的概率值進行乘法計算,得到所述單句對所述主題的貢獻度。
2.一種用于對話的主題貢獻度計算方法,其特征在于,包括以下步驟:
a2.利用word2vec模型得到對話的主題中的每個主題詞的向量,并對所述每個主題詞的向量進行均值計算得到主題詞向量均值,將該主題詞向量均值作為所述主題的向量Vec(topic);
b2.利用word2vec模型得到對話的每個對話標簽的向量Vec(tag);
c2.根據所述主題的向量Vec(topic)和所述對話標簽的向量Vec(tag)計算所述主題與所述對話標簽的余弦值cosθ,并根據該余弦值cosθ得到所述主題與所述對話標簽的相似度;
d2.利用LDA主題模型得到對話中的所述主題在所述對話標簽上的概率值;
e2.將所述相似度與對應的概率值進行乘法計算,得到所述主題對所述對話標簽的貢獻度。
3.一種用于對話的主題抽取方法,其特征在于,包括以下步驟:
10)通過提取訪客與客服的對話記錄,對所述對話記錄設置對話標簽;
20)根據權利要求2的主題貢獻度計算方法統計所述對話記錄中的每個主題對所述對話標簽的貢獻度;
30)根據所述貢獻度對語料庫中每個對話標簽下的每個主題進行排序,并抽取貢獻度大于預設值的主題,將該貢獻度大于預設值的主題中的問題作為推薦問題,并將該貢獻度大于預設值的主題中對應的答案作為推薦答案;
40)根據訪客提出的問題自動提取當前的問題標簽,并將該當前的問題標簽與語料庫中的對話標簽進行匹配,向訪客提供匹配的對話標簽下貢獻度大于預設值的主題中的推薦問題所對應的推薦答案。
4.根據權利要求3所述的一種用于對話的主題抽取方法,其特征在于:所述的步驟10)之前,還預先構建標簽模型,其根據語料庫中的語料的對話主題對所有語料進行分類,對不同類型的語料設置對話標簽,得到標簽模型。
5.根據權利要求4所述的一種用于對話的主題抽取方法,其特征在于:所述的步驟10)中設置對話標簽,是根據所述標簽模型中的對話標簽對所述對話記錄選擇和設置相應的對話標簽。
6.根據權利要求3或4或5所述的一種用于對話的主題抽取方法,其特征在于:所述的步驟30)中對每個主題進行排序,是指將新增的對話記錄及語料庫中的歷史對話記錄中的所有主題,在各自對應的對話標簽下進行貢獻度的排序,并且,每次新增對話記錄后則自動重新排序。
7.一種用于對話的主題抽取系統,其特征在于,包括:
對話標簽設置模塊,其通過提取訪客與客服的對話記錄,對所述對話記錄設置對話標簽;
貢獻度計算模塊,其根據權利要求2的主題貢獻度計算方法統計所述對話記錄中的每個主題對所述對話標簽的貢獻度;
主題抽取模塊,其根據所述貢獻度對語料庫中每個對話標簽下的每個主題進行排序,并抽取貢獻度大于預設值的主題,將該貢獻度大于預設值的主題中的問題作為推薦問題,并將該貢獻度大于預設值的主題中對應的答案作為推薦答案;
對話模塊,其根據訪客提出的問題自動提取當前的問題標簽,并將該當前的問題標簽與語料庫中的對話標簽進行匹配,向訪客提供匹配的對話標簽下貢獻度大于預設值的主題中的推薦問題所對應的推薦答案。
8.根據權利要求7所述的一種用于對話的主題抽取系統,其特征在于:還包括模型構建模塊,其根據語料庫中的語料的對話主題對所有語料進行分類,對不同類型的語料設置對話標簽,得到標簽模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710065890.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:變電站設備自動貼二維碼板的裝置
- 下一篇:打印貼標機





