[發明專利]基于漢字筆畫的漢語短文本相似度檢測方法及系統在審

申請號：	201910877967.0	申請日：	2019-09-17
公開（公告）號：	CN110674859A	公開（公告）日：	2020-01-10
發明（設計）人：	王路;王穎娜;張金生;魏俊華	申請（專利權）人：	智陽網絡技術(上海)有限公司
主分類號：	G06K9/62	分類號：	G06K9/62;G06K9/68;G06K9/20
代理公司：	31297 上海宏京知識產權代理事務所(普通合伙)	代理人：	李敏
地址：	201802 上海***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	筆畫筆順文本編碼庫短文本源文件漢字源文本漢語構建自然語言處理技術短文本分類相似度檢測人工智能分類效果漢字筆畫輸入漢字信息計算修復
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.基于漢字筆畫的漢語短文本相似度檢測方法，其特征在于，包括如下步驟：

步驟一、判斷當前輸入漢字是否屬于筆畫筆順編碼庫；

步驟二、在步驟一中輸入的漢字位于筆畫筆順編碼庫中時，直接對OCR生成文本與源文件進行編碼；

步驟三、在步驟一中輸入的漢字在筆畫筆順編碼庫中缺失時，先構建該漢字的筆畫筆順編碼，然后將構建的筆畫筆順編碼加入到筆畫筆順編碼庫中，再對OCR生成文本與源文件進行編碼；

步驟四、計算OCR生成文本與源文件之間的相似性。

2.根據權利要求1所述的基于漢字筆畫的漢語短文本相似度檢測方法，其特征在于，所述步驟三中構建輸入漢字的筆畫筆順編碼庫依次包括對每一個輸入漢字的筆畫進行編碼、對每一個輸入漢字的所有筆畫編碼信息進行整理以及對每一個輸入漢字的所有筆畫編碼信息按該漢字的筆順信息進行排序。

3.根據權利要求1所述的基于漢字筆畫的漢語短文本相似度檢測方法，其特征在于，所述步驟二、步驟三中對OCR生成文本與源文件進行編碼包括對OCR生成文本以及對源文件的分別編碼。

4.根據權利要求3所述的基于漢字筆畫的漢語短文本相似度檢測方法，其特征在于，所述對OCR生成文本的編碼是按照OCR生成文本的各漢字排列順序對各漢字所對應的編碼信息進行排序。

5.根據權利要求4所述的基于漢字筆畫的漢語短文本相似度檢測方法，其特征在于，所述對源文件的編碼是按照源文件的各漢字排列順序對各漢字所對應的編碼信息進行排序。

6.根據權利要求5所述的基于漢字筆畫的漢語短文本相似度檢測方法，其特征在于，根據生成的OCR生成文本的各漢字編碼排序信息以及源文件的各漢字編碼排序信息之間的編輯距離度量所述步驟四中的OCR生成文本與源文件之間的相似性。

7.一種基于漢字筆畫的漢語短文本相似度檢測系統，其特征在于，包括筆畫筆順編碼庫、漢字輸入模塊、漢字編碼檢索模塊、筆畫筆順編碼構建模塊、OCR生成文本編碼模塊、源文件編碼模塊和相似性計算模塊；

所述筆畫筆順編碼庫，用于存儲所有的漢字文字編碼；

所述漢字輸入模塊，用于輸入待檢測漢字；

所述漢字編碼檢索模塊，用于根據輸入的待檢測漢字對所述筆畫筆順編碼庫進行編碼檢索；

所述筆畫筆順編碼構建模塊，用于在所述漢字編碼檢索模塊未檢索到相應漢字編碼時，對指定漢字進行筆畫筆順編碼構建并存入到所述筆畫筆順編碼庫中；

所述OCR生成文本編碼模塊，用于對指定的OCR生成文本信息進行編碼；

所述源文件編碼模塊，用于對源文件信息進行編碼；

所述相似性計算模塊，用于計算和分析OCR生成文本編碼與源文件編碼之間的相似性。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于智陽網絡技術(上海)有限公司，未經智陽網絡技術(上海)有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910877967.0/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】