[發(fā)明專利]文本批量處理方法、系統(tǒng)、終端設(shè)備及計算機存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011471868.1 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112528673A | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計)人: | 蔡一欣;許翀;張溶芳;李堃 | 申請(專利權(quán))人: | 中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/284;G06F40/216;G06F40/194;G06F16/35;G06F16/31 |
| 代理公司: | 北京天昊聯(lián)合知識產(chǎn)權(quán)代理有限公司 11112 | 代理人: | 羅建民;杜丹丹 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 批量 處理 方法 系統(tǒng) 終端設(shè)備 計算機 存儲 介質(zhì) | ||
本公開提供一種文本批量處理方法、系統(tǒng)、終端設(shè)備及計算機可讀存儲介質(zhì),其中,所述方法包括:創(chuàng)建文本語義數(shù)據(jù)庫,所述文本語義數(shù)據(jù)庫中包括若干分區(qū);在接收到若干待處理文本后,將所述若干待處理文本分別匹配到相應的分區(qū)中;以及,分別對每個分區(qū)中的待處理文本進行批量處理。本公開實施例通過構(gòu)建劃分若干分區(qū)的投訴語義數(shù)據(jù)庫,對接收到的待處理文本自動匹配分區(qū),進而分別對每個分區(qū)的待處理文本進行同步批量處理,提高文本處理效率。
技術(shù)領(lǐng)域
本公開涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種文本批量處理方法、一種文本批量處理系統(tǒng)、一種終端設(shè)備以及一種計算機可讀存儲介質(zhì)。
背景技術(shù)
隨著通信技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)平臺需要處理大批量的文本數(shù)據(jù)。尤其對于電信運營商平臺及電商平臺等,通常需要處理大量的用戶的投訴文本,而隨著運營商平臺業(yè)務范圍不斷擴大,人工回復投訴問題需要對投訴處理人員進行不停地培訓與擴充,人工成本逐漸升高,而自動回復投訴的方法對算法準確性要求很高,有時不能準確匹配用戶提出的問題,無法及時有效地解決投訴。因此,當前運營商面臨著投訴文本信息量大,文本處理不及時、效率低等問題。
發(fā)明內(nèi)容
本公開提供了一種文本批量處理方法、系統(tǒng)、終端設(shè)備及計算機可讀存儲介質(zhì),以至少解決上述問題。
根據(jù)本公開實施例的一方面,提供一種文本批量處理方法,包括:
創(chuàng)建文本語義數(shù)據(jù)庫,所述文本語義數(shù)據(jù)庫中包括若干分區(qū);
在接收到若干待處理文本后,將所述若干待處理文本分別匹配到相應的分區(qū)中;以及,
分別對每個分區(qū)中的待處理文本進行批量處理。
在一種實施方式中,所述創(chuàng)建文本語義數(shù)據(jù)庫,包括:
獲取若干源文本數(shù)據(jù);
分別對所述若干源文本數(shù)據(jù)進行預處理,得到各源文本數(shù)據(jù)的特征向量;
基于各源文本數(shù)據(jù)的特征向量劃分若干分區(qū);
分別將各源文本數(shù)據(jù)的特征向量導入到各自對應的分區(qū)中;以及,
基于導入了相應源文本數(shù)據(jù)的特征向量的若干分區(qū)創(chuàng)建文本語義數(shù)據(jù)庫。
在一種實施方式中,所述分別對所述源文本數(shù)據(jù)進行預處理,得到各源文本數(shù)據(jù)的特征向量,包括:
分別對所述若干源文本數(shù)據(jù)進行文本分詞;
分別對經(jīng)過文本分詞的若干源文本數(shù)據(jù)進行詞頻分析,得到各源文本數(shù)據(jù)的詞頻分析結(jié)果;以及,
基于各源文本數(shù)據(jù)的詞頻分析結(jié)果,生成各源文本數(shù)據(jù)的特征向量。
在一種實施方式中,所述將所述若干待處理文本分別匹配到相應的分區(qū)中,包括:
分別對所述若干待處理文本進行預處理,得到各待處理文本的特征向量;
計算每個待處理文本的特征向量分別與各源文本數(shù)據(jù)的特征向量之間的相似度,得到每個待處理文本的相似度結(jié)果;以及,
基于所述每個待處理文本的相似度結(jié)果,將所述若干待處理文本分別匹配到與其相似度最高的源文本數(shù)據(jù)的特征向量對應的分區(qū)中。
在一種實施方式中,所述計算每個待處理文本的特征向量分別與各源文本數(shù)據(jù)的特征向量之間的相似度,包括:
將所述若干待處理文本的特征向量與所述若干源文本數(shù)據(jù)的特征向量作為數(shù)據(jù)集,針對所述數(shù)據(jù)集利用FCM聚類算法計算每個待處理文本的特征向量分別與各源文本數(shù)據(jù)的特征向量之間的相似度。
根據(jù)本公開實施例的另一方面,提供一種文本批量處理系統(tǒng),包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司,未經(jīng)中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011471868.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





