[發明專利]文本相似度最佳閾值自動尋找及優化方法及裝置在審
| 申請號: | 202011374448.1 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112329428A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 苑曉科;唐正才;田鳳占 | 申請(專利權)人: | 北京天潤融通科技股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/58;G06F40/51 |
| 代理公司: | 北京方韜法業專利代理事務所(普通合伙) 11303 | 代理人: | 黨小林 |
| 地址: | 100000 北京市大興區北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 最佳 閾值 自動 尋找 優化 方法 裝置 | ||
1.一種文本相似度最佳閾值自動尋找及優化方法,其特征在于,包括:
根據問題列表中每個問題的向量表示,計算問題相似度矩陣;
遍歷問題類別及問題相似度矩陣,得到問題類別平均相似度矩陣;
判斷是否有類間問題相似度大于類別平均相似度;
如果有,則發現存在的配置問題,并重復上述操作,直至不再存在類間問題相似度大于類別平均相似度的情況;
當不再存在類間問題相似度大于類別平均相似度的情況時,遍歷問題類別平均相似度矩陣,得到最優相似度閾值。
2.根據權利要求1所述的文本相似度最佳閾值自動尋找及優化方法,其特征在于,還包括:
在根據問題列表中每個問題的向量表示,計算問題相似度矩陣之前,形成問題類別列表;
使用NLP技術文本表示算法或深度學習預訓練模型得到每個問題文本的向量表示。
3.根據權利要求2所述的文本相似度最佳閾值自動尋找及優化方法,其特征在于,NLP技術文本表示算法包括:TFIDF詞頻統計算法。
4.根據權利要求2所述的文本相似度最佳閾值自動尋找及優化方法,其特征在于,還包括:
在形成問題類別列表之前,獲取對話機器人的FAQ數據配置的問題列表。
5.根據權利要求1所述的文本相似度最佳閾值自動尋找及優化方法,其特征在于,判斷是否有類間問題相似度大于類別平均相似度,包括:
選取問題列表中的一個問題;
根據該問題的類別配置,計算該問題的類別平均相似度;
根據問題相似度矩陣,判斷與該問題有關的類間問題相似度是否均小于類別平均相似度。
6.一種文本相似度最佳閾值自動尋找及優化裝置,其特征在于,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現根據權利要求1至5任意一項所述的文本相似度最佳閾值自動尋找及優化方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京天潤融通科技股份有限公司,未經北京天潤融通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011374448.1/1.html,轉載請聲明來源鉆瓜專利網。





