[發明專利]基于漢字筆畫的漢語短文本相似度檢測方法及系統在審
| 申請號: | 201910877967.0 | 申請日: | 2019-09-17 |
| 公開(公告)號: | CN110674859A | 公開(公告)日: | 2020-01-10 |
| 發明(設計)人: | 王路;王穎娜;張金生;魏俊華 | 申請(專利權)人: | 智陽網絡技術(上海)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/68;G06K9/20 |
| 代理公司: | 31297 上海宏京知識產權代理事務所(普通合伙) | 代理人: | 李敏 |
| 地址: | 201802 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 筆畫筆順 文本 編碼庫 短文本 源文件 漢字 源文本 漢語 構建 自然語言處理技術 短文本分類 相似度檢測 人工智能 分類效果 漢字筆畫 輸入漢字 信息計算 修復 | ||
1.基于漢字筆畫的漢語短文本相似度檢測方法,其特征在于,包括如下步驟:
步驟一、判斷當前輸入漢字是否屬于筆畫筆順編碼庫;
步驟二、在步驟一中輸入的漢字位于筆畫筆順編碼庫中時,直接對OCR生成文本與源文件進行編碼;
步驟三、在步驟一中輸入的漢字在筆畫筆順編碼庫中缺失時,先構建該漢字的筆畫筆順編碼,然后將構建的筆畫筆順編碼加入到筆畫筆順編碼庫中,再對OCR生成文本與源文件進行編碼;
步驟四、計算OCR生成文本與源文件之間的相似性。
2.根據權利要求1所述的基于漢字筆畫的漢語短文本相似度檢測方法,其特征在于,所述步驟三中構建輸入漢字的筆畫筆順編碼庫依次包括對每一個輸入漢字的筆畫進行編碼、對每一個輸入漢字的所有筆畫編碼信息進行整理以及對每一個輸入漢字的所有筆畫編碼信息按該漢字的筆順信息進行排序。
3.根據權利要求1所述的基于漢字筆畫的漢語短文本相似度檢測方法,其特征在于,所述步驟二、步驟三中對OCR生成文本與源文件進行編碼包括對OCR生成文本以及對源文件的分別編碼。
4.根據權利要求3所述的基于漢字筆畫的漢語短文本相似度檢測方法,其特征在于,所述對OCR生成文本的編碼是按照OCR生成文本的各漢字排列順序對各漢字所對應的編碼信息進行排序。
5.根據權利要求4所述的基于漢字筆畫的漢語短文本相似度檢測方法,其特征在于,所述對源文件的編碼是按照源文件的各漢字排列順序對各漢字所對應的編碼信息進行排序。
6.根據權利要求5所述的基于漢字筆畫的漢語短文本相似度檢測方法,其特征在于,根據生成的OCR生成文本的各漢字編碼排序信息以及源文件的各漢字編碼排序信息之間的編輯距離度量所述步驟四中的OCR生成文本與源文件之間的相似性。
7.一種基于漢字筆畫的漢語短文本相似度檢測系統,其特征在于,包括筆畫筆順編碼庫、漢字輸入模塊、漢字編碼檢索模塊、筆畫筆順編碼構建模塊、OCR生成文本編碼模塊、源文件編碼模塊和相似性計算模塊;
所述筆畫筆順編碼庫,用于存儲所有的漢字文字編碼;
所述漢字輸入模塊,用于輸入待檢測漢字;
所述漢字編碼檢索模塊,用于根據輸入的待檢測漢字對所述筆畫筆順編碼庫進行編碼檢索;
所述筆畫筆順編碼構建模塊,用于在所述漢字編碼檢索模塊未檢索到相應漢字編碼時,對指定漢字進行筆畫筆順編碼構建并存入到所述筆畫筆順編碼庫中;
所述OCR生成文本編碼模塊,用于對指定的OCR生成文本信息進行編碼;
所述源文件編碼模塊,用于對源文件信息進行編碼;
所述相似性計算模塊,用于計算和分析OCR生成文本編碼與源文件編碼之間的相似性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于智陽網絡技術(上海)有限公司,未經智陽網絡技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910877967.0/1.html,轉載請聲明來源鉆瓜專利網。





