[發(fā)明專利]語音文本聚類方法和裝置有效
| 申請?zhí)枺?/td> | 202011247724.8 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112100986B | 公開(公告)日: | 2021-02-12 |
| 發(fā)明(設計)人: | 胡洪兵;李健;武衛(wèi)東;陳明 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151;G06F40/194;G06F40/289;G06F16/35 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀區(qū)東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 文本 方法 裝置 | ||
本申請實施例涉及一種語音文本聚類方法和裝置。所述方法包括:對多個語音文本進行預處理,得到相應的多個待處理語音文本;利用詞表示模型將所述待處理語音文本轉換為文本向量;對多個所述文本向量進行聚類,將其劃分為多個中間層類別;計算每一個中間層類別的中心向量,基于所述中心向量重新對所述多個所述文本向量劃分為多個類別。本申請實施例能夠實現對語音文本更加精準的聚類分析。
技術領域
本申請實施例涉及文本聚類技術領域,具體而言,涉及一種語音文本聚類方法和裝置。
背景技術
在大數據時代,數據的重要性不言而喻,數據已經成為各個公司重要的虛擬財產,各個公司依據自己所掌握的數據為自己在本領域建立了旁人不及的技術優(yōu)勢。
使用數據的前提需要對數據進行聚類分析以便后續(xù)使用,但是對于在日常生活中產生的大量語音文本數據集,其相對于互聯(lián)網文本來說離散程度更高,類別更多,例如,在一段移動通信運營商的客服通話文本中可能包含有費用查詢、寬帶辦理、緊急停開機、地區(qū)漫游等數量眾多有差異巨大的類別。語音文本的這些屬性給常用的聚類方法帶來的巨大壓力,因此,如何對語音文本進行聚類一直是業(yè)內研究的重難點。
發(fā)明內容
基于上述問題,本申請實施例提供一種語音文本聚類方法和裝置,旨對語音文本實現更精準的聚類分析。
本申請實施例第一方面提供一種語音文本聚類方法,所述方法包括:
對多個語音文本進行預處理,得到多個待處理語音文本;
利用詞表示模型將所述待處理語音文本轉換為一個文本向量;
對所述多個所述待處理語音文本獲得的所有文本向量進行聚類,獲得多個中間類別;
計算每一個中間類別的中心向量,基于計算獲得的多個中心向量重新將所述所有文本向量劃分為多個類別。
可選地,所述方法還包括:
計算所述所有文本向量在劃分為所述多個類別后改變類別的文本向量數目;
判斷改變類別的文本向量數目是否大于預設閾值,當改變類別的文本向量數目大于所述預設閾值時繼續(xù)執(zhí)行以下步驟:
迭代的,重新計算所述多個類別中每一類的中心向量,并基于重新計算獲得的中心向量對所有文本向量進行分類,直到改變類別的文本向量數目小于所述預設閾值。
可選地,對多個語音文本進行預處理,包括:
對語音文本進行分詞及詞性標注;
和/或,對語音文本進行停用詞過濾。
可選地,所述詞表示模型包括以下任意一者:
Word2vec、CBOW、Skip-gram、GloVe、BERT、GPT2.0。
可選地,利用詞表示模型將所述待處理語音文本轉換為一個文本向量,包括:
先將所述待處理語音文本中的實詞轉換為多個詞向量,所述實詞包括名詞、動詞和動名詞中的至少一個;
將所述待處理語音文本中的多個句子包含的詞向量平均池化,得到相應的多個句向量;
將所述多個句向量組合得到所述文本向量。
可選地,對所述多個所述待處理語音文本獲得的所有文本向量進行聚類,獲得多個中間類別,包括:
S1、對所述多個所述待處理語音文本獲得的所有文本向量編號,編號為1到n;
S2、將第一個文本向量劃分為第一文本向量類;
S3、計算第二個文本向量與所述第一個文本向量的第一輪余弦相似度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011247724.8/2.html,轉載請聲明來源鉆瓜專利網。





