[發明專利]文本聚類方法、裝置、處理設備及存儲介質有效
| 申請號: | 202110238054.1 | 申請日: | 2021-03-04 |
| 公開(公告)號: | CN112966104B | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 浦嘉澍;毛曉曦;范長杰;胡志鵬 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 鐘揚飛 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 裝置 處理 設備 存儲 介質 | ||
本發明提供一種文本聚類方法、裝置、處理設備及存儲介質,涉及數據處理技術領域。包括:采用預設的多個語言模型中每個語言模型對待處理文本進行識別,得到文本特征,不同語言模型為預先采用基于樣本對話文本得到的不同特征學習文本數據進行訓練得到的文本特征識別模型;采用每個語言模型對應的聚類算法對每個語言模型輸出的文本特征聚類,得到聚類結果;對多個聚類結果融合,得到待處理文本的目標聚類結果。基于多個語言模型對待處理文本進行識別得到多個文本特征,使得識別的待處理文本的文本特征更加準確;繼而采對應的聚類算法對文本特征聚類,得到多個聚類結果,對多個聚類結果融合獲取目標聚類結果,也提高了聚類結果的準確性。
技術領域
本發明涉及數據處理技術領域,具體而言,涉及一種文本聚類方法、裝置、處理設備及存儲介質。
背景技術
自動對話在許多的行業和領域得到廣泛的應用。自動對話主要依賴于自然語言理解系統,基于自然語言理解系統的自動對話需要設置預設意圖,因此,對于預設意圖的獲取也變得越來越重要。
相關技術中,采用一個識別模型對文本進行識別獲取識別結果,對識別結果進行聚類分析得到具有聚類結果,對聚類結果進行標注可以得到對話意圖。
但是,相關技術中,采用一個識別模型獲取識別結果,在待識別文本的數據量較少時,容易出現識別結果不準確的問題,從而導致聚類結果不準確的問題。
發明內容
本發明的目的在于,針對上述現有技術中的不足,提供一種文本聚類方法、裝置、處理設備及存儲介質,以便解決相關技術中,采用一個識別模型獲取識別結果,在待識別文本的數據量較少時,容易出現識別結果不準確的問題,從而導致聚類結果不準確的問題。
為實現上述目的,本發明實施例采用的技術方案如下:
第一方面,本發明實施例提供了一種文本聚類方法,包括:
采用預設的多個語言模型中每個語言模型對待處理文本進行識別,得到文本特征,不同語言模型為預先采用基于樣本對話文本得到的不同特征學習文本數據進行訓練得到的文本特征識別模型;
采用所述每個語言模型對應的聚類算法對所述每個語言模型輸出的文本特征進行聚類,得到聚類結果;
對多個聚類結果進行融合,得到所述待處理文本的目標聚類結果。
可選的,在所述采用預設的多個語言模型中每個語言模型對待處理文本進行識別,得到文本特征之前,所述方法還包括:
從樣本對話文本中獲取多個特征學習文本數據;
分別根據所述多個特征學習文本數據進行模型訓練,得到所述多個語言模型。
可選的,所述從樣本對話文本中獲取多個特征學習文本數據,包括:
從所述樣本對話文本中獲取所述多個特征學習文本數據,以及所述每個特征學習文本數據對應的超參學習文本數據;
所述采用所述每個語言模型對應的聚類算法對所述每個語言模型輸出的文本特征進行聚類,得到聚類結果之前,所述方法還包括:
采用所述每個語言模型,對訓練所述每個語言模型采用的特征學習文本數據對應的超參學習文本數據進行識別,得到超參特征;
從所述超參特征中搜索目標超參數;
根據所述目標超參數,對預設的聚類算法中對應的超參數進行更新,得到所述每個語言模型對應的聚類算法。
可選的,所述從所述樣本對話文本中獲取所述多個特征學習文本數據,以及所述每個特征學習文本數據對應的超參學習文本數據,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110238054.1/2.html,轉載請聲明來源鉆瓜專利網。





