[發明專利]一種基于聚類與自動摘要的文本意圖歸納方法及裝置有效
| 申請號: | 202010152155.2 | 申請日: | 2020-03-06 |
| 公開(公告)號: | CN111339303B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 宋子文晗;江嶺 | 申請(專利權)人: | 成都曉多科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/34;G06F18/23213 |
| 代理公司: | 成都君合集專利代理事務所(普通合伙) 51228 | 代理人: | 賈林 |
| 地址: | 610000 四川省成都市天府新區華*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自動 摘要 文本 意圖 歸納 方法 裝置 | ||
本發明涉及文本摘要歸納技術領域,具體公開了基于聚類與自動摘要的文本意圖歸納方法及裝置,具體包括以下步驟:通過抽樣選擇模塊將用戶問題分為抽中問題和剩余問題;抽中問題通過預訓練特征提取模塊和層次聚類模塊處理得到K個簇,并計算每個簇的中心向量;剩余問題通過預訓練特征提取模塊和問題分配模塊處理并將用戶問題分配到距離最近的簇,完成將所有用戶問題分配到K個簇并獲得每個簇用戶問題的總數;通過摘要提取模塊獲得每個簇能夠代表核心意圖;審核、創建、標注和訓練模型。本發明只需要對少部分數據進行層次聚類,剩余的數據直接分配到聚類好的距離最近的簇,節省了內存資源和CPU計算資源的占用,提高了層次聚類的速度。
技術領域
本發明涉及文本意圖歸納技術領域,具體的說,是一種基于聚類與自動摘要的文本意圖歸納方法及裝置。
背景技術
隨著電商行業的急速發展,網上購物成為了大多數人必不可少的日常,在各大電商平臺的商家需要招募大量的客服人員對買家進行答疑解惑,與日俱增的咨詢量使得商家對客服機器人的需求逐漸提高。在智能客服領域,意圖識別是一個重要任務,旨在理解客服場景中買家發來的問題。而意圖識別的實現方式有很多種,傳統做法是基于一些規則匹配,后來大家利用機器學習進行相似度匹配、語義分類等。所謂相似度匹配,是針對每一種買家問題的意圖設置對應的代表這個意圖的常規問法示例,假設有100種意圖(“什么時候發貨?”、“能否退貨?”等),我們就可以將每一個買家發來的問題與這100種意圖對應的問法示例進行相似度匹配,如果匹配度非常高,則認為買家的問題屬于該意圖。另一種是語義分類,即對每種買家問題的意圖定義一個名稱,而機器學習或者深度學習模型就學習如何把每一個買家問題分類到正確的意圖名稱上,比如“我剛剛下單,你們今天可以發貨嗎?”,則分類到的意圖名稱為“今天是否能發貨”。不論是相似度匹配還是語義分類,我們的首要任務都是發現、定義意圖,有了明確的意圖,我們就可以將真實的買家問題歸類到對應的意圖上,并進行后續操作,這里的后續操作是指針對相應意圖回復買家答案。
目前業界沒有可行的方案,沒有在這方面做出應用的企業,且這方面的應用比較原始,基本上靠人力一條一條看買家的問題記錄,通過單純的人工檢索來達到發現新的意圖的目的。
1.純人工發現,需要從數十上百萬買家問題(短文本)中尋找新的意圖(未定義的意圖)。耗時耗力,效率低下。
2.人工發現且定義的新意圖,依然需要去尋找更多相關買家問題并標注到該意圖下,以便后續的模型訓練。模型的數據冷啟動慢,效率低。
3.人工發現意圖時需要不斷地思考每一條買家問題的意圖,并且在數十萬上百萬的買家問題中,會在不同位置都發現類似意圖的買家問題,需要人工在心里或者手動聚合到一起,并抽象出一個意圖。操作繁雜,重復性勞動多。
發明內容
本發明的目的在于提供一種基于聚類與自動摘要的文本意圖歸納方法及裝置,只需要對少部分數據進行層次聚類,剩余的數據直接分配到聚類好的距離最近的簇,節省了內存資源和CPU計算資源的占用,提高了層次聚類的速度。
本發明通過下述技術方案實現:
一種基于聚類與自動摘要的文本意圖歸納方法,具體包括以下步驟:
步驟S1:用戶問題通過抽樣選擇模塊將用戶問題分為抽中問題和剩余問題;
步驟S2:對于抽中問題依次通過預訓練特征提取模塊和層次聚類模塊處理得到K個簇,并計算每個簇的中心向量;
步驟S3:對于剩余問題依次通過預訓練特征提取模塊和問題分配模塊處理并將每一條用戶問題分配到距離最近的簇,完成將所有用戶問題都分配到K個簇并獲得每個簇用戶問題的總數;
步驟S4:針對每個簇通過摘要提取模塊進行自動摘要提取,獲得能夠代表該簇的核心意圖的核心問題;
步驟S5:最后以每個簇包含核心問題與該簇的用戶問題數目的方式進行審核、創建、標注和訓練模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都曉多科技有限公司,未經成都曉多科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010152155.2/2.html,轉載請聲明來源鉆瓜專利網。





