[發明專利]元件拆分與組合的語音文本數據分析方法及設備有效
| 申請號: | 202011211142.4 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112035625B | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 李暢 | 申請(專利權)人: | 上?;劢葜悄芗夹g有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35 |
| 代理公司: | 上海百一領御專利代理事務所(普通合伙) 31243 | 代理人: | 甘章乖;王路豐 |
| 地址: | 201210 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 元件 拆分 組合 語音 文本 數據 分析 方法 設備 | ||
本發明的目的是提供一種元件拆分與組合的語音文本數據分析方法及設備,為解決模型數量過多、字段過長及建模效率低的問題,本發明提出元件拆分與組合的數據分析方法,其基礎原理為定義不同類別的元件將建模過程分拆后再重新組合,再通過數據分析設備運用重新組合后的元件來定義發生的事件,從而建立二維、三維、多維的元件矩陣,大大降低建模的難度和人力耗費。
技術領域
本發明涉及計算機領域,尤其涉及一種元件拆分與組合的語音文本數據分析方法及設備。
背景技術
在各大行業領域的大數據分析應用,基本是通過模型對客戶意圖、業務內容、服務方式及客戶反饋情況進行分析,從而了解諸如客戶需求的趨勢變化,提升服務效率、客戶滿意度,或者是銷售成功率這些數據。
在統計的過程中,通常以描述型分析,使用關鍵詞及邏輯組合構造成模型,來定義所需要分析的目標事件。無論是傳統的組合建模法,還是新興的機器學習,都是窮舉法的應用,需要投入大量的標注及監督學習資源。尤其是針對錄音轉寫的對話內容,因為方言及說話方式,往往正確轉寫率低于90%,降低模型的準確性及產生較高的遺漏率,造成統計上的誤差。
由于使用窮舉法建模來表示各個事件,造成了進行大數據分析的如下三個問題:
一是模型數量會根據業務復雜度而成指數型增加;例如針對銀行業信用卡客服的分析,模型數量約500+,而其零售銀行由于包含保險與基金理財等更廣泛的服務類別,因此模型數量將可能增加至信用卡的數倍。
二是由于單個模型需要人工進行所有關鍵詞及其邏輯關系的羅列,單個模型字符數量甚至超過1萬,以致人工建模成本巨大。
三是完成羅列的模型重復使用困難,導致數據分析效率低下,以當前廣泛在金融領域的大數據分析為例,通常行業中僅僅選擇特定業務場景進行分析,限制了進一步全面統計及環比對應分析的應用。
發明內容
本發明的一個目的是提供一種元件拆分與組合的語音文本數據分析方法及設備。
根據本發明的一個方面,提供了一種元件拆分與組合的語音文本數據分析方法,該方法包括:
對擬建模分析的樣本語音文本數據中所包含的不同類別的元件進行拆分定義,基于所述拆分定義進行歸類,得到業務節點元件和服務場景元件;
選擇業務節點元件和/或服務場景元件,形成所選擇的業務節點元件之間和/或服務場景元件之間的邏輯關系組合,并將業務節點元件之間和/或服務場景元件之間的邏輯關系組合作為描述不同的目標事件的模型;
獲取待分析統計的客戶語音文本數據,將描述不同的目標事件的模型與待分析統計的客戶語音文本數據進行匹配,得到匹配的描述目標事件的模型;
將匹配到的描述目標事件的模型、所述待分析統計的客戶語音文本數據、待分析統計的客戶語音文本數據對應的原始的來電客戶和服務人員的語音、待分析統計的客戶語音文本數據的隨錄字段,通過界面進行展示,并反饋給對應的數據分析人員。
進一步的,上述方法中,待分析統計的客戶語音文本數據的隨錄字段,包括:
客戶ID、客戶姓名、客戶來電時間、服務人員工號和通話時長。
進一步的,上述方法中所選擇的業務節點元件之間的邏輯關系組合和/或服務場景元件之間的邏輯關系組合,包括:
與、或、非、臨近、間距關系中的一種或任意組合。
進一步的,上述方法中所述業務節點元件由一個第一關鍵詞組成或由若干個第一關鍵詞及其邏輯關系組合生成;
所述服務場景元件則由一個第二關鍵詞或由若干個第二關鍵詞及第二關鍵詞的邏輯關系組合生成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上?;劢葜悄芗夹g有限公司,未經上?;劢葜悄芗夹g有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011211142.4/2.html,轉載請聲明來源鉆瓜專利網。





