[發明專利]文本識別方法、裝置、電子設備及存儲介質有效
| 申請號: | 201910600211.1 | 申請日: | 2019-07-04 |
| 公開(公告)號: | CN110717328B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 劉春 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F16/35 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 李娜 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 識別 方法 裝置 電子設備 存儲 介質 | ||
1.一種文本識別方法,其特征在于,所述方法包括:
獲取待識別文本的基本特征集合,其中,所述基本特征集合為所述待識別文本所包含的文字和各預定類型符號的長度和占比特征的集合;
生成與所述待識別文本對應的文字文本,其中,所述文字文本為包含所述待識別文本的文字、且不包含各預定類型符號的文本;
分別從所述待識別文本和所述文字文本中提取連續重復子序列特征,其中,所述連續重復子序列特征用于表征相應文本中文字和各預定類型符號重復出現的信息;
基于所述連續重復子序列特征和所述基本特征集合進行特征聚類,得到聚類結果,并基于所述聚類結果檢測所述待識別文本是否為包含重復序列的文本;
其中,所述分別從所述待識別文本和所述文字文本中提取連續重復子序列特征的步驟,包括:
分別生成所述待識別文本和所述文字文本的字符序列;
當字符序列中存在連續的兩個目標子序列之間長度和相似度均滿足預設條件時,確定所述目標子序列為相應文本的連續重復相似子序列;
將相應文本中重復次數最大的連續重復相似子序列的重復次數、長度以及在相應文本中的占比,確定為相應文本的連續重復子序列特征。
2.根據權利要求1所述的文本識別方法,其特征在于,所述獲取待識別文本的基本特征集合的步驟,包括:
計算所述待識別文本所包含的文字文本的長度以及連續特殊符號序列的最大長度,其中,所述連續特殊符號序列是由連續的特殊符號組成的序列,所述特殊符號為所述待識別文本中除漢字、字母和表情符號之外的符號;
根據所述文字文本的長度以及所述待識別文本的長度,計算所述待識別文本所包含文字文本的第一占比;
根據所述連續特殊符號序列的最大長度以及所述待識別文本的長度,計算所述連續特殊符號序列的第二占比;
將所述文字文本的長度、所述連續特殊符號序列的最大長度、所述第一占比以及所述第二占比確定為所述基本特征集合的元素。
3.根據權利要求1所述的文本識別方法,其特征在于,當字符序列中存在連續的兩個目標子序列之間長度和相似度均滿足預設條件時,確定所述目標子序列為相應文本的連續重復相似子序列的步驟,包括:
根據字符序列,按照預設規則生成多個后綴樹序列以及與各所述后綴樹序列對應的編碼;
確定第一后綴樹序列中自首位起長度為預設長度的第一目標子序列,以及第二后綴樹序列中自首位起長度為所述預設長度的第二目標子序列;
當所述第一后綴樹序列的編碼與所述第二后綴樹序列的編碼之差絕對值等于所述預設長度,且所述第一目標子序列與所述第二目標子序列之間的相似度大于或等于預設閾值時,確定所述第一目標子序列與所述第二目標子序列為連續重復相似子序列。
4.根據權利要求3所述的方法,其特征在于,在所述確定第一后綴樹序列中自首位起長度為預設長度的第一目標子序列,以及第二后綴樹序列中自首位起長度為所述預設長度的第二目標子序列的步驟之前,還包括:
獲得字符序列的自相關函數;
根據所述自相關函數極大值出現的位置,確定所述字符序列中字符串的重復周期;
根據所述重復周期,確定所述預設長度。
5.根據權利要求1至4任一項所述的方法,其特征在于,所述基于所述連續重復子序列特征和所述基本特征集合,進行特征聚類的步驟,包括:
采用預先訓練得到的聚類模型,對所述連續重復子序列特征和所述基本特征集合進行特征聚類。
6.根據權利要求5所述的方法,其特征在于,在所述采用預先訓練得到的聚類模型,對所述連續重復子序列特征和所述基本特征集合進行特征聚類的步驟之前,還包括:
獲得樣本文本,并對所述樣本文本進行標注,獲得所述樣本文本的類型標簽;
采用決策樹算法,對所述樣本文本的連續重復子序列特征、所述樣本文本的基本特征集合以及所述類型標簽進行模型訓練,獲得所述聚類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910600211.1/1.html,轉載請聲明來源鉆瓜專利網。





