[發明專利]一種大規模語音數據的核心內容挖掘方法及設備有效
| 申請號: | 201710582950.3 | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN107590172B | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 王富田;李健;張連毅;武衛東 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/30;G10L15/08 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 大規模 語音 數據 核心內容 挖掘 方法 設備 | ||
本發明提供了一種大規模語音數據的核心內容挖掘方法及設備,屬于計算機技術領域。本發明實施例提供的大規模語音數據的核心內容挖掘方法及設備,可以將待處理語音數據集轉換為對應的待處理文本數據集,然后通過文本聚類算法對與待處理文本數據集對應的待處理詞語文本集進行文本聚類得到對應的至少一個類別,可以將該至少一個類別對應的主題確定為待處理語音數據集的核心內容,將待處理文本數據集中每一條待處理文本數據所屬的類別的主題確定為該條待處理文本數據的核心內容,即,確定出每一條待處理語音數據的核心內容。實現了在零先驗條件下對大規模語音數據核心內容的挖掘,提高了核心內容挖掘的效率以及準確率。
技術領域
本發明屬于計算機技術領域,特別是涉及一種大規模語音數據的核心內挖掘方法及設備。
背景技術
目前,某些客戶端由于業務原因,通常會生成大量的語音數據,比如,在涉及電話客服、視頻直播以及網絡電話等業務的客戶端通常會有大量的語音數據。為了更好的了解用戶的興趣點或意圖等等,服務商通常會對語音數據的核心內容進行挖掘,以便于為用戶提供更好的服務。
現有技術中,在對語音數據的核心內容進行挖掘的時候,通常是需要人工聽取語音數據,然后根據個人理解,人工總結出核心內容。
但是,現有技術中采用的人工挖掘的方式,效率低下,且由于個人理解會存在一定偏差,會導致對語音數據的核心內容挖掘的因人而異。
發明內容
本發明提供一種大規模語音數據的核心內挖掘方法及設備,以便解決挖掘效率較低,且內容不統一的問題。
依據本發明的第一方面,提供了一種大規模語音數據的核心內容挖掘方法,該方法包括:
將大規模待處理語音數據集轉換為對應的待處理文本數據集;
對所述對應的待處理文本數據集進行預處理,得到所述待處理文本數據對應的待處理詞語文本集;
通過文本聚類算法對所述待處理詞語文本集進行文本聚類,得到對應的至少一個類別;
將所述至少一個類別對應的主題確定為所述大規模待處理語音數據集的核心內容。
可選的,所述預處理包括:對所述對應的待處理文本數據進行分詞處理以及去弱意義詞處理。
可選的,所述通過文本聚類算法對所述待處理詞語文本集進行文本聚類,得到對應的至少一個類別的步驟,包括:
針對所述待處理詞語文本集中的多個所有詞語建立詞語索引關系向量;
利用文本聚類算法對所述待處理詞語文本集進行聚類,得到對應的至少一個類別。
可選的,所述方法還包括:
根據所述文本聚類得到的聚類結果,構建文本分類模型;
其中,所述文本分類模型中包括所述至少一個類別,所述文本分類模型用于對新語音數據集對應的新文本數據集進行文本分類,進而確定所述新語音數據集的核心內容。
可選的,所述文本聚類算法為隱含狄利克雷分布LDA算法、分層狄利克雷HDP算法或概率潛在語義分析PLSA算法。
依據本發明的第二方面,提供了一種大規模語音數據的核心內容挖掘設備,該設備包括:
轉換模塊,用于將大規模待處理語音數據集轉換為對應的待處理文本數據集;
預處理模塊,用于對所述對應的待處理文本數據集進行預處理,得到所述待處理文本數據集對應的多個詞語構成的文本集;
聚類模塊,用于通過文本聚類算法對所述待處理詞語文本集進行文本聚類,得到對應的至少一個類別;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710582950.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





