[發明專利]語音轉錄文本質量評估方法、裝置、終端及可讀存儲介質有效
| 申請號: | 201810486906.7 | 申請日: | 2018-05-21 |
| 公開(公告)號: | CN109101518B | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 張強;宋博川;吳鵬;柴博;盛妍;朱龍珠;林國強;陳其鵬 | 申請(專利權)人: | 全球能源互聯網研究院有限公司;國網浙江省電力有限公司;國家電網有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06F40/284;G06F40/216 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 馬永芬 |
| 地址: | 102209 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 轉錄 文本 質量 評估 方法 裝置 終端 可讀 存儲 介質 | ||
本發明提供了一種語音轉錄文本質量評估方法、裝置、終端及可讀存儲介質,其中,該方法包括如下步驟:根據LDA主題模型獲取待測試語音轉錄文檔集中主題在每一個待測試語音轉錄文本中的主題概率分布;將主題概率分布進行聚類得到質量評估結果。上述方法先根據LDA主題模型得到主題概率分布,之后根據主題概率分布進行聚類得到聚類結果,并將聚類結果與質量評估結果對應,根據質量評估結果可直觀得出轉錄文本的質量,這樣便無需人工進行質量核對,提高了質量評估效率。
技術領域
本發明涉及語音轉錄文本領域,具體涉及一種語音轉錄文本質量評估方法、裝置、終端及可讀存儲介質。
背景技術
國家電網有限公司經營范圍覆蓋27省公司及全部地市,國網客服中心每天產生10萬到15萬條通話記錄,通話的語音轉錄文本可以通過大量的文本分析挖掘用戶的訴求和意圖,同時發掘重大事件等信息,具備重要價值。但是,現有的語音轉錄文本工具經常出現轉錄文本信息錯誤,編碼錯誤,轉錄文本存在較為嚴重的質量問題,為后期的樣本生成和語義理解增加了難度,需要人工對這些轉錄文本進行質量評估,故存在人工工作量大和質量評估效率低的缺陷。
發明內容
因此,本發明要解決的技術問題在于克服現有技術中的語音轉錄文本質量評估效率低的缺陷。
為此,本發明提供如下技術方案:
本發明第一方面,提供一種語音轉錄文本質量評估方法,包括如下步驟:根據LDA主題模型獲取待測試語音轉錄文檔集中主題在每一個待測試語音轉錄文本中的主題概率分布;將所述主題概率分布進行聚類得到質量評估結果。
可選地,通過如下公式得到主題概率分布,
p(z|α)=∫p(z|θ)Dir(θ|α)dθ
其中,θ為服從多項式分布的參數;α為主題的狄里克雷先驗分布的超參數,由不同的α可以產生不同的主題混合分布;z為文檔的每個主題。
可選地,根據LDA主題模型獲取待測試語音轉錄文檔集中主題在每一個待測試語音轉錄文本中的主題概率分布的步驟之前,還包括:根據訓練語音轉錄文檔集對LDA主題模型進行模型參數優化。
可選地,根據訓練語音轉錄文檔集對LDA主題模型進行模型參數優化的步驟中,包括:根據LDA主題模型獲取訓練語音轉錄文檔集中主題在每一個訓練語音轉錄文本中的訓練主題概率分布和訓練詞在主題上的分布;將所述訓練主題概率分布進行聚類得到聚類結果;根據所述聚類結果和所述訓練詞在主題上的分布進行模型參數優化。
可選地,通過如下公式得到訓練詞在主題上的分布,
p(w|z)=p(w|z,β)=∫p(w|z,φ)Dir(φ|β)dφ
其中,為主題的詞項分布;β為主題中詞項的先驗分布的超參數;w為具體的詞;z為文檔的每個主題。
可選地,根據LDA主題模型獲取待測試語音轉錄文檔集中主題在每一個待測試語音轉錄文本中的主題概率分布的步驟之前,還包括:對待測試語音轉錄文檔集中待測試語音轉錄文本進行預處理。
可選地,通過如下公式對所述主題概率分布進行聚類,
其中,A和B分別表示兩個文本的主題向量;A·B為向量的點積;‖A‖‖B‖為向量的叉積。
本發明第二方面,提供一種語音轉錄文本質量評估裝置,包括:第一獲取模塊,用于根據LDA主題模型獲取待測試語音轉錄文檔集中主題在每一個待測試語音轉錄文本中的主題概率分布;第一處理模塊,用于將所述主題概率分布進行聚類得到質量評估結果。
可選地,還包括:第二處理模塊,用于根據訓練語音轉錄文檔集對LDA主題模型進行模型參數優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于全球能源互聯網研究院有限公司;國網浙江省電力有限公司;國家電網有限公司,未經全球能源互聯網研究院有限公司;國網浙江省電力有限公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810486906.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理方法、信息處理設備以及介質
- 下一篇:信息采集系統和異構信息融合系統





