[發明專利]語音文本聚類方法和裝置有效
| 申請號: | 202011247724.8 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112100986B | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 胡洪兵;李健;武衛東;陳明 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151;G06F40/194;G06F40/289;G06F16/35 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 文本 方法 裝置 | ||
1.一種語音文本聚類方法,其特征在于,所述方法包括:
對多個語音文本進行預處理,得到多個待處理語音文本;
利用詞表示模型將所述待處理語音文本轉換為一個文本向量;
對所述多個所述待處理語音文本獲得的所有文本向量進行聚類,獲得多個中間類別;
計算每一個中間類別的中心向量,基于計算獲得的多個中心向量重新將所述所有文本向量劃分為多個類別;
計算所述所有文本向量在劃分為所述多個類別后改變類別的文本向量數目;
判斷改變類別的文本向量數目是否大于預設閾值,當改變類別的文本向量數目大于所述預設閾值時繼續執行以下步驟:
迭代的,重新計算所述多個類別中每一類的中心向量,并基于重新計算獲得的中心向量對所有文本向量進行分類,直到改變類別的文本向量數目小于所述預設閾值。
2.根據權利要求1所述方法,其特征在于,對多個語音文本進行預處理,包括:
對語音文本進行分詞及詞性標注;
和/或,對語音文本進行停用詞過濾。
3.根據權利要求1所述方法,其特征在于,所述詞表示模型包括以下任意一者:
Word2vec、CBOW、Skip-gram、GloVe、BERT、GPT2.0。
4.根據權利要求1所述方法,其特征在于,利用詞表示模型將所述待處理語音文本轉換為一個文本向量,包括:
先將所述待處理語音文本中的實詞轉換為多個詞向量,所述實詞包括名詞、動詞和動名詞中的至少一個;
將所述待處理語音文本中的多個句子包含的詞向量平均池化,得到相應的多個句向量;
將所述多個句向量組合得到所述文本向量。
5.根據權利要求1所述方法,其特征在于,對所述多個所述待處理語音文本獲得的所有文本向量進行聚類,獲得多個中間類別,包括:
S1、對所述多個所述待處理語音文本獲得的所有文本向量編號,編號為1到n;
S2、將第一個文本向量劃分為第一文本向量類;
S3、計算第二個文本向量與所述第一個文本向量的第一輪余弦相似度;
S4、若所述第一輪余弦相似度大于預設閾值則將第二個文本向量劃分到第一文本向量類;
S5、若所述第一輪余弦相似度小于預設閾值則將第二個文本向量劃分到第二文本向量類;
S6、依順序計算新的文本向量時,讀取已劃分的文本向量類的類別;
S7、將所述新的文本向量依次與所述已劃分的文本向量類的類別分別計算新一輪余弦相似度,當計算得到所述新的文本向量與已劃分文本向量類中任一類別的新一輪余弦相似度大于預設閾值時,將所述新的文本向量劃分為該類別;
或者,當并未計算到所述新的文本向量與已劃分文本向量類中任一類別的新一輪余弦相似度都不大于預設閾值時,將所述新的文本向量劃分為第p文本向量類,所述p為已劃分文本向量類數目加一;
S8、重復上述步驟S6、S7直到計算完所述所有文本向量。
6.一種語音文本聚類裝置,其特征在于,所述裝置包括:
預處理模型,用于對多個語音文本進行預處理,得到多個待處理語音文本;
轉換模塊,用于利用詞表示模型將所述待處理語音文本轉換為一個文本向量;
第一聚類模塊,用于對所述多個所述待處理語音文本獲得的所有文本向量進行聚類,獲得多個中間類別;
第二聚類模塊,用于計算每一個中間類別的中心向量,基于計算獲得的多個中心向量重新將所述所有文本向量劃分為多個類別;
判斷模塊,用于計算所述所有文本向量在劃分為所述多個類別后改變類別的文本向量數目;
迭代模塊,用于判斷改變類別的文本向量數目是否大于預設閾值,當改變類別的文本向量數目大于所述預設閾值時繼續執行以下步驟:
迭代的,重新計算所述多個類別中每一類的中心向量,并基于重新計算獲得的中心向量對所有文本向量進行分類,直到改變類別的文本向量數目小于所述預設閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011247724.8/1.html,轉載請聲明來源鉆瓜專利網。





