[發明專利]高頻問題的確定方法和裝置有效
| 申請號: | 201810448748.6 | 申請日: | 2018-05-11 |
| 公開(公告)號: | CN110489531B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 李鳳麟;郭依昆 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F40/30;G06F40/289 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 褚敏;宋子良 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 高頻 問題 確定 方法 裝置 | ||
本發明公開了一種高頻問題的確定方法和裝置。其中,該方法包括:獲取一時間段內的問句集合,其中,問句集合中包括至少一個用戶提問的多個語句;提取問句集合中每個語句的關鍵詞,得到多個短語;建立每個短語與其對應的語句的索引,并對每個短語索引到的語句進行聚類,得到多個聚類結果;根據多個短語和多個聚類結果確定問句集合中的高頻問題。本發明解決了確定高頻問題過程中聚類效果不佳的技術問題。
技術領域
本發明涉及自然語言處理技術領域,具體而言,涉及一種高頻問題的確定方法和裝置。
背景技術
在相關領域中,智能助理/對話機器人產品已經得到了廣泛的應用。在這些智能問答系統中,都面臨一個重要的問題:為了不斷地提高解決問題的能力,需要對未解決問題進行分析,抽取高頻問題,分析機器人的主要未解決場景。
高頻問題分析不僅面向內部人工智能訓練師,協助發現某個類目(行業)中的高頻未解決問題;同時也面向店家,幫助每個店家了解本店鋪的高頻未解決方案,進而配置相應的知識以提高機器人的問題解決率。又如,在商品促銷活動期間,用戶經常需要關注熱點問題,服務的人員需要了解目前用戶最關心的活動或者商品,已進行相應的回應。在這些場景,高頻問題的發現都至關重要。
在高頻問題的發現過程中,相似度計算和聚類是非常重要的技術手段。相似度計算包括傳統的基于N-gram(字/詞)TFIDF(Term?Frequency?Inverse?Document?Frequency)的相似度計算和近年來基于句子向量(語義空間)的相似度計算。聚類方面,也包括K-means,密度聚類,層次聚類等多種經典算法。
然而,在工業界的實踐中,相似度計算疊加聚類的方法面臨著一個棘手的問題:如果在聚類時最大化類族的純凈度,則容易產生大量的類別,例如,百萬級的數據在精準聚類后常常有十萬級的類族;如果最小化聚類的個數,則聚類結果常常比較差,產出類族中的數據比較混雜,并不是同一個意思或同一種語義。
一種可選的方法是提取句集中的高頻關鍵詞作為索引,然后在關鍵詞對應的句集進行聚類。該方法面臨的問題是單個關鍵詞包含的信息量太少,過于空泛。
另外一種快速聚類的方法是基于關鍵詞集的分組。對于句集中的每一個句子,借助TFIDF,TextRank,或者深度學習的Attention(注意力)機制,獲取其中最重要的若干個關鍵詞,然后把這些關鍵詞作為一個分組的鍵值。遍歷句集中的每一個句子,具有相同鍵值的句子將被聚到同一個類中。例如,如果句子“你好,我想查下物流信息,怎么弄”和“怎么查物流信息嗎?”能抽取到相同的關鍵詞集(例如,“怎么辦”,“查”,“物流信息”),即可歸到同一個類中。注意,在抽取關鍵詞的過程可能還需要進行一個歸一化,例如“怎么弄”和“怎么”兩個詞,都可以歸一化到“怎么辦”。這種方法的一個弊端是,在分組之后,組與組之間還需要進一步的聚類,計算過程比較復雜耗時,不適用于準實時的環境(例如,每個時刻都需要看到此前15分鐘或者30分鐘內的高頻問題)。
在精確聚類的過程中,可以使用層次聚類,但是層次聚類最大的問題在于計算速度太慢,并且并行化的成本很高(需要有類似于參數服務器的框架支持,并且在實際測試中發現性能依然是瓶頸)。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種高頻問題的確定方法和裝置,以至少解決確定高頻問題過程中聚類效果不佳技術問題。
根據本發明實施例的一個方面,提供了一種高頻問題的確定方法,包括:獲取一時間段內的問句集合,其中,問句集合中包括至少一個用戶提問的多個語句;提取問句集合中每個語句的關鍵詞,得到多個短語;建立每個短語與其對應的語句的索引,并對每個短語索引到的語句進行聚類,得到多個聚類結果;根據多個短語和多個聚類結果確定問句集合中的高頻問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810448748.6/2.html,轉載請聲明來源鉆瓜專利網。





