[發明專利]一種字符識別方法、裝置及存儲介質在審
| 申請號: | 202010864604.6 | 申請日: | 2020-08-25 |
| 公開(公告)號: | CN112115933A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 劉濱;曠黎明;林大 | 申請(專利權)人: | 上海微億智造科技有限公司;常州微億智造科技有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20 |
| 代理公司: | 上海塔科專利代理事務所(普通合伙) 31380 | 代理人: | 耿恩華 |
| 地址: | 201100 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字符 識別 方法 裝置 存儲 介質 | ||
本發明公開了一種字符識別方法,所述方法包括:獲取目標字符,并組建至少一個目標字符庫;基于每一個目標字符庫和預設數據處理結構,構造每一個目標字符庫的目標數據結構;獲取待處理字符;根據微服務與所述目標數據結構的調用關系,對所述待處理字符進行識別,并獲取識別結果,旨在保證工業物聯網領域中大數據的采集做到規范合法、節省內存空間且高效的QPS,本發明采用Be?Tree的算法搭建起來微服務,可以有效防范對網站的XSS攻擊和非法字符的錄入,同時避免了現有的工業場景下微服務架構中每個微服務都要加載海量詞庫,從而節省大量的內存空和提升服務的可用性。
技術領域
本發明涉及工業互聯網的字符處理技術領域,尤其涉及一種加字符識別方法、裝置及存儲介質。
背景技術
工業互聯網是全球工業系統與高級計算、分析、感應技術以及互聯網連接融合的一種結果。可以是通過開放的、全球化的工業級網絡平臺把設備、生產線、工廠、供應商、產品和客戶緊密地連接和融合起來,高效共享工業經濟中的各種要素資源,幫助制造業延長產業鏈。而在各種要素資源中有可能存在非法字符,所謂的非法字符可以是測試數據中需要進行識別的字符,以避免測試數據出現問題,或者及時識別測試過程中出現的問題。
目前,常用的字符識別算法是將字符打包成傳統的打包形式,例如jar包的形式,因為這么做會導致每個需要進行非法字符過濾的服務,都要加載非法字符的詞庫,比如有10個服務集成了該jar包,如果非法詞庫的容量是1G,這樣就有9G內存的浪費,可見現有技術中的非法字符過濾方式會導致內存被占用,而且降低過濾效率。
發明內容
本發明的目的在于提供一種字符識別方法、裝置及存儲介質,旨在保證工業物聯網領域中大數據的采集做到規范合法、節省內存空間且高效的QPS,本發明采用Be-Tree的算法搭建起來微服務,可以有效防范對網站的XSS攻擊和非法字符的錄入;避免了現有的工業場景下微服務架構中每個微服務都要加載海量詞庫,從而節省大量的內存空和提升服務的可用性。
為了實現上述目的,提供了一種字符識別方法,所述方法包括:
獲取目標字符,并組建至少一個目標字符庫;
基于每一個目標字符庫和預設數據處理結構,構造每一個目標字符庫的目標數據結構;
獲取待處理字符;
根據微服務與所述目標數據結構的調用關系,對所述待處理字符進行識別,并獲取識別結果。
一種實現方式中,所述獲取目標字符,并組建至少一個目標字符庫的步驟包括:
獲取非法字符,其中,所述非法字符為預先設定的字符;
將所述非法字符確定為目標字符;
將所述目標字符組成目標字符庫;
將所述目標詞庫對應的數據加載到數據處理的內存中。
一種實現方式中,所述基于每一個目標字符庫和預設數據處理結構,構造每一個目標字符庫的目標數據結構的步驟,包括:
確定預設數據處理結構為Be_Tree數據結構;
根據所述Be_Tree數據結構,將每一個目標字符庫構造成樹形數據結構。
一種實現方式中,所述根據微服務與所述目標數據結構的調用關系,對所述待處理字符進行識別,并獲取識別結果的步驟,包括:
基于所述數據處理的內存調取所述樹形數據結構;
對所述待處理字符進行過濾,獲取字符過濾結果;
判斷所述字符過濾結果中是否包含與所述待處理字符相同的字符;
如果是,則確認所述待處理字符包含非法字符。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海微億智造科技有限公司;常州微億智造科技有限公司,未經上海微億智造科技有限公司;常州微億智造科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010864604.6/2.html,轉載請聲明來源鉆瓜專利網。





