[發明專利]文本識別方法、裝置、電子設備及存儲介質有效
| 申請號: | 201910600211.1 | 申請日: | 2019-07-04 |
| 公開(公告)號: | CN110717328B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 劉春 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F16/35 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 李娜 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 識別 方法 裝置 電子設備 存儲 介質 | ||
本申請示出了一種文本識別方法、裝置、電子設備及存儲介質,所述文本識別方法包括:獲取待識別文本的基本特征集合;生成與待識別文本對應的文字文本;分別從待識別文本和文字文本中提取連續重復子序列特征;基于連續重復子序列特征和基本特征集合進行特征聚類,得到聚類結果,并基于聚類結果檢測待識別文本是否為包含重復序列的文本。基于連續重復子序列特征及基本特征集合進行特征聚類,確定待識別文本的類型,由于基本特征集合能夠體現霸屏、刷隊類評論特殊符號多的特點,連續重復子序列特征能夠體現霸屏、刷隊類評論重復率高的特點,因此,本申請能夠更加準確地識別出霸屏、刷隊類垃圾評論文本。
技術領域
本申請涉及計算機技術領域,尤其涉及一種文本識別方法、裝置、電子設備及存儲介質。
背景技術
當前技術中,社交平臺中用戶自由發表的評論極大地提升了用戶的觀看感受,連接了用戶和作者,用戶和用戶之間的社交關系。然而一些用戶發布的霸屏、刷隊等垃圾評論嚴重影響了正常用戶的體驗。
相關技術中的評論檢測方法主要包括基于規則,基于詞頻、垃圾詞匯分布特征以及基于評論語義分布特征三類方法。這些方法是實現霸屏、刷隊、欺凌、低俗、濫發Spam等類別垃圾評論的通用檢測方法。在需要檢測出特定類別如霸屏、刷隊類評論的應用場景下,仍然使用這些通用檢測方法,準確率較低。
發明內容
為克服相關技術中存在的問題,本申請提供一種文本識別方法、裝置、電子設備及存儲介質。
根據本申請的第一方面,提供一種文本識別方法,所述方法包括:
獲取待識別文本的基本特征集合,其中,所述基本特征集合為所述待識別文本所包含的文字和各預定類型符號的長度和占比特征的集合;
生成與所述待識別文本對應的文字文本,其中,所述文字文本為包含所述待識別文本的文字、且不包含各預定類型符號的文本;
分別從所述待識別文本和所述文字文本中提取連續重復子序列特征,其中,所述連續重復子序列特征用于表征相應文本中文字和各預定類型符號重復出現的信息;
基于所述連續重復子序列特征和所述基本特征集合進行特征聚類,得到聚類結果,并基于所述聚類結果檢測所述待識別文本是否為包含重復序列的文本。
在一種可選地實現方式中,所述獲取待識別文本的基本特征集合的步驟,包括:
計算所述待識別文本所包含的文字文本的長度以及連續特殊符號序列的最大長度,其中,所述連續特殊符號序列是由連續的特殊符號組成的序列,所述特殊符號為所述待識別文本中除漢字、字母和表情符號之外的符號;
根據所述文字文本的長度以及所述待識別文本的長度,計算所述待識別文本所包含文字文本的第一占比;
根據所述連續特殊符號序列的最大長度以及所述待識別文本的長度,計算所述連續特殊符號序列的第二占比;
將所述文字文本的長度、所述連續特殊符號序列的最大長度、所述第一占比以及所述第二占比確定為所述基本特征集合的元素。
在一種可選地實現方式中,所述分別從所述待識別文本和所述文字文本中提取連續重復子序列特征的步驟,包括:
分別生成所述待識別文本和所述文字文本的字符序列;
當字符序列中存在連續的兩個目標子序列之間長度和相似度均滿足預設條件時,確定所述目標子序列為相應文本的連續重復相似子序列;
將相應文本中重復次數最大的連續重復相似子序列的重復次數、長度以及在相應文本中的占比,確定為相應文本的連續重復子序列特征。
在一種可選地實現方式中,當字符序列中存在連續的兩個目標子序列之間長度和相似度均滿足預設條件時,確定所述目標子序列為相應文本的連續重復相似子序列的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910600211.1/2.html,轉載請聲明來源鉆瓜專利網。





