[發明專利]文本識別方法、裝置、電子設備及存儲介質有效

申請號：	201910600211.1	申請日：	2019-07-04
公開（公告）號：	CN110717328B	公開（公告）日：	2021-06-18
發明（設計）人：	劉春	申請（專利權）人：	北京達佳互聯信息技術有限公司
主分類號：	G06F40/279	分類號：	G06F40/279;G06F16/35
代理公司：	北京潤澤恒知識產權代理有限公司 11319	代理人：	李娜
地址：	100085 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本識別方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請示出了一種文本識別方法、裝置、電子設備及存儲介質，所述文本識別方法包括：獲取待識別文本的基本特征集合；生成與待識別文本對應的文字文本；分別從待識別文本和文字文本中提取連續重復子序列特征；基于連續重復子序列特征和基本特征集合進行特征聚類，得到聚類結果，并基于聚類結果檢測待識別文本是否為包含重復序列的文本。基于連續重復子序列特征及基本特征集合進行特征聚類，確定待識別文本的類型，由于基本特征集合能夠體現霸屏、刷隊類評論特殊符號多的特點，連續重復子序列特征能夠體現霸屏、刷隊類評論重復率高的特點，因此，本申請能夠更加準確地識別出霸屏、刷隊類垃圾評論文本。

技術領域

本申請涉及計算機技術領域，尤其涉及一種文本識別方法、裝置、電子設備及存儲介質。

背景技術

當前技術中，社交平臺中用戶自由發表的評論極大地提升了用戶的觀看感受，連接了用戶和作者，用戶和用戶之間的社交關系。然而一些用戶發布的霸屏、刷隊等垃圾評論嚴重影響了正常用戶的體驗。

相關技術中的評論檢測方法主要包括基于規則，基于詞頻、垃圾詞匯分布特征以及基于評論語義分布特征三類方法。這些方法是實現霸屏、刷隊、欺凌、低俗、濫發Spam等類別垃圾評論的通用檢測方法。在需要檢測出特定類別如霸屏、刷隊類評論的應用場景下，仍然使用這些通用檢測方法，準確率較低。

發明內容

為克服相關技術中存在的問題，本申請提供一種文本識別方法、裝置、電子設備及存儲介質。

根據本申請的第一方面，提供一種文本識別方法，所述方法包括：

獲取待識別文本的基本特征集合，其中，所述基本特征集合為所述待識別文本所包含的文字和各預定類型符號的長度和占比特征的集合；

生成與所述待識別文本對應的文字文本，其中，所述文字文本為包含所述待識別文本的文字、且不包含各預定類型符號的文本；

分別從所述待識別文本和所述文字文本中提取連續重復子序列特征，其中，所述連續重復子序列特征用于表征相應文本中文字和各預定類型符號重復出現的信息；

基于所述連續重復子序列特征和所述基本特征集合進行特征聚類，得到聚類結果，并基于所述聚類結果檢測所述待識別文本是否為包含重復序列的文本。