[發(fā)明專利]文本批量處理方法、系統(tǒng)、終端設(shè)備及計算機存儲介質(zhì)在審

申請?zhí)枺?/td>	202011471868.1	申請日：	2020-12-14
公開（公告）號：	CN112528673A	公開（公告）日：	2021-03-19
發(fā)明（設(shè)計）人：	蔡一欣;許翀;張溶芳;李堃	申請（專利權(quán)）人：	中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司
主分類號：	G06F40/30	分類號：	G06F40/30;G06F40/289;G06F40/284;G06F40/216;G06F40/194;G06F16/35;G06F16/31
代理公司：	北京天昊聯(lián)合知識產(chǎn)權(quán)代理有限公司 11112	代理人：	羅建民;杜丹丹
地址：	100033 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文本批量處理方法系統(tǒng) 終端設(shè)備計算機存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供一種文本批量處理方法、系統(tǒng)、終端設(shè)備及計算機可讀存儲介質(zhì)，其中，所述方法包括：創(chuàng)建文本語義數(shù)據(jù)庫，所述文本語義數(shù)據(jù)庫中包括若干分區(qū)；在接收到若干待處理文本后，將所述若干待處理文本分別匹配到相應的分區(qū)中；以及，分別對每個分區(qū)中的待處理文本進行批量處理。本公開實施例通過構(gòu)建劃分若干分區(qū)的投訴語義數(shù)據(jù)庫，對接收到的待處理文本自動匹配分區(qū)，進而分別對每個分區(qū)的待處理文本進行同步批量處理，提高文本處理效率。

技術(shù)領(lǐng)域

本公開涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，尤其涉及一種文本批量處理方法、一種文本批量處理系統(tǒng)、一種終端設(shè)備以及一種計算機可讀存儲介質(zhì)。

背景技術(shù)

隨著通信技術(shù)的不斷發(fā)展，互聯(lián)網(wǎng)平臺需要處理大批量的文本數(shù)據(jù)。尤其對于電信運營商平臺及電商平臺等，通常需要處理大量的用戶的投訴文本，而隨著運營商平臺業(yè)務范圍不斷擴大，人工回復投訴問題需要對投訴處理人員進行不停地培訓與擴充，人工成本逐漸升高，而自動回復投訴的方法對算法準確性要求很高，有時不能準確匹配用戶提出的問題，無法及時有效地解決投訴。因此，當前運營商面臨著投訴文本信息量大，文本處理不及時、效率低等問題。

發(fā)明內(nèi)容

本公開提供了一種文本批量處理方法、系統(tǒng)、終端設(shè)備及計算機可讀存儲介質(zhì)，以至少解決上述問題。

根據(jù)本公開實施例的一方面，提供一種文本批量處理方法，包括：

創(chuàng)建文本語義數(shù)據(jù)庫，所述文本語義數(shù)據(jù)庫中包括若干分區(qū)；

在接收到若干待處理文本后，將所述若干待處理文本分別匹配到相應的分區(qū)中；以及，

分別對每個分區(qū)中的待處理文本進行批量處理。

在一種實施方式中，所述創(chuàng)建文本語義數(shù)據(jù)庫，包括：

獲取若干源文本數(shù)據(jù)；

分別對所述若干源文本數(shù)據(jù)進行預處理，得到各源文本數(shù)據(jù)的特征向量；

基于各源文本數(shù)據(jù)的特征向量劃分若干分區(qū)；

分別將各源文本數(shù)據(jù)的特征向量導入到各自對應的分區(qū)中；以及，

基于導入了相應源文本數(shù)據(jù)的特征向量的若干分區(qū)創(chuàng)建文本語義數(shù)據(jù)庫。

在一種實施方式中，所述分別對所述源文本數(shù)據(jù)進行預處理，得到各源文本數(shù)據(jù)的特征向量，包括：

分別對所述若干源文本數(shù)據(jù)進行文本分詞；

分別對經(jīng)過文本分詞的若干源文本數(shù)據(jù)進行詞頻分析，得到各源文本數(shù)據(jù)的詞頻分析結(jié)果；以及，

基于各源文本數(shù)據(jù)的詞頻分析結(jié)果，生成各源文本數(shù)據(jù)的特征向量。

在一種實施方式中，所述將所述若干待處理文本分別匹配到相應的分區(qū)中，包括：

分別對所述若干待處理文本進行預處理，得到各待處理文本的特征向量；

計算每個待處理文本的特征向量分別與各源文本數(shù)據(jù)的特征向量之間的相似度，得到每個待處理文本的相似度結(jié)果；以及，

基于所述每個待處理文本的相似度結(jié)果，將所述若干待處理文本分別匹配到與其相似度最高的源文本數(shù)據(jù)的特征向量對應的分區(qū)中。

在一種實施方式中，所述計算每個待處理文本的特征向量分別與各源文本數(shù)據(jù)的特征向量之間的相似度，包括：

將所述若干待處理文本的特征向量與所述若干源文本數(shù)據(jù)的特征向量作為數(shù)據(jù)集，針對所述數(shù)據(jù)集利用FCM聚類算法計算每個待處理文本的特征向量分別與各源文本數(shù)據(jù)的特征向量之間的相似度。

根據(jù)本公開實施例的另一方面，提供一種文本批量處理系統(tǒng)，包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司，未經(jīng)中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011471868.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：降噪結(jié)構(gòu)、空調(diào)室內(nèi)機和空調(diào)器
下一篇：一種交互式混合光級聯(lián)矩陣

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】