[發(fā)明專利]基于OCR和機器學習的代碼分類系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 202210270268.1 | 申請日: | 2022-03-18 |
| 公開(公告)號: | CN114357174B | 公開(公告)日: | 2022-06-10 |
| 發(fā)明(設計)人: | 張志晨;范飛龍 | 申請(專利權)人: | 北京創(chuàng)新樂知網(wǎng)絡技術有限公司;長沙開發(fā)者科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06V10/28;G06K9/62;G06N20/00;G06V30/418 |
| 代理公司: | 深圳市諾正鑫澤知識產權代理有限公司 44689 | 代理人: | 彭佳偉 |
| 地址: | 100000 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 ocr 機器 學習 代碼 分類 系統(tǒng) 方法 | ||
本發(fā)明實施例公開了一種基于OCR和機器學習的代碼分類系統(tǒng)及方法,其系統(tǒng)包括:模型構建模塊,用于基于問答數(shù)據(jù)集構建出最優(yōu)分類器;圖片轉換模塊,用于將所述問答數(shù)據(jù)集中包含的代碼圖像轉換成三通道彩色圖像;字符提取模塊,用于基于預設的文本識別程序抽取出所述三通道彩色圖像中的目標代碼字符;代碼分類模塊,用于將所述目標代碼字符輸入至所述最優(yōu)分類器,獲得對應的分類結果。便于對代碼圖片中的代碼進行分類,滿足線上代碼分類的最低準確率要求。
技術領域
本發(fā)明涉及光學字符識別和機器學習融合技術領域,尤其涉及一種基于OCR和機器學習的代碼分類系統(tǒng)及方法。
背景技術
目前,在CSDN App 問答板塊中,有許多用戶上傳了圖片,沒有給問題打上標簽,通過互聯(lián)網(wǎng)搜索,現(xiàn)有的解決方案都是通過文本去分類,準備好各種編程語言的訓練文件,每種語言放在同一個文件夾,利用sklearn中的機器學習分類方法,訓練一個分類模型,使用訓練好的模型,預測輸入的代碼的所屬編程語言類別,對于圖片中的代碼,無法分類,缺乏數(shù)據(jù),并且,對于較短的代碼塊,現(xiàn)有技術對短代碼塊的分類準確率較低,不能達到上線最低準確率要求,且其需要的訓練數(shù)據(jù)較多。
因此,本發(fā)明提出一種基于OCR和機器學習的代碼分類系統(tǒng)及方法。
發(fā)明內容
基于此,有必要針對上述問題,提出了一種基于OCR和機器學習的代碼分類系統(tǒng)及方法。
本發(fā)明提出一種基于OCR和機器學習的代碼分類系統(tǒng),包括:
模型構建模塊,用于基于問答數(shù)據(jù)集構建出最優(yōu)分類器;
圖片轉換模塊,用于將所述問答數(shù)據(jù)集中包含的代碼圖像轉換成三通道彩色圖像;
字符提取模塊,用于基于預設的文本識別程序抽取出所述三通道彩色圖像中的目標代碼字符;
代碼分類模塊,用于將所述目標代碼字符輸入至所述最優(yōu)分類器,獲得對應的分類結果。
優(yōu)選的,所述模型構建模塊,包括:
抽取構建單元,用于對所述問答數(shù)據(jù)集進行抽取并構建出訓練集和測試集;
字符處理單元,用于對所述問答數(shù)據(jù)集中包含的字符進行篩選處理,獲得對應的處理文件;
模塊構建單元,用于對預設的文本特征提取模型和支持向量網(wǎng)絡進行流式化封裝,獲得初始分類器;
模型優(yōu)化單元,用于基于網(wǎng)格搜索對所述初始分類器進行不斷調參,獲得多個優(yōu)化分類器,將對所述訓練集的分類結果的最優(yōu)準確率對應的優(yōu)化分類器作為最優(yōu)分類器。
優(yōu)選的,所述圖片轉換模塊,包括:
圖像篩選單元,用于從所述問答數(shù)據(jù)集包含的測試集中篩選出代碼圖像;
定位符確定單元,用于確定出所述代碼圖像對應的統(tǒng)一資源定位符;
圖像下載單元,用于基于所述統(tǒng)一資源定位符下載對應的代碼圖像,獲得對應的待處理圖像;
圖像轉換單元,用于基于預設方式將所述待處理圖像轉換成對應的三通道彩色圖像。
優(yōu)選的,所述字符提取模塊,包括:
字符抽取單元,用于基于預設的文本識別程序抽取出所述三通道彩色圖像中的代碼字符;
特征提取單元,用于基于特征提取模型對所述三通道彩色圖像進行特征提取,獲得對應的特征圖像;
標準化處理單元,用于基于標準化模型對所述特征圖像進行標準化處理,獲得標準特征圖像;
降維處理單元,用于基于降維算法模型對所述標準特征圖像進行降維處理,獲得對應的低維特征圖像;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京創(chuàng)新樂知網(wǎng)絡技術有限公司;長沙開發(fā)者科技有限公司,未經(jīng)北京創(chuàng)新樂知網(wǎng)絡技術有限公司;長沙開發(fā)者科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210270268.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





