[發明專利]一種針對OCR簡歷識別算法的自動化測試方法和系統在審
| 申請號: | 202110598969.3 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113343816A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 談梁河 | 申請(專利權)人: | 的盧技術有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06K9/62 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210001 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 ocr 簡歷 識別 算法 自動化 測試 方法 系統 | ||
本發明公開了一種針對OCR簡歷識別算法的自動化測試方法,包括以下步驟:(1)導入簡歷相關信息;(2)隨機生成簡歷;(3)文字內容比對;(4)輸出測試報告。本發明還公開了一種針對OCR簡歷識別算法的自動化測試系統,包括導入模塊、生成模塊、內容比對模塊和輸出模塊。本發明高效生成簡歷,人工干預階段僅需完成搜集輸入工作,減輕了測試人員的負擔,提升了測試效率,且通過本測試方法可以對有限的數據重組出多種形式的簡歷,也減少了所需要的數據量;本發明高效對比簡歷內容,無需自主對比分析OCR算法的結果,大大降低了測試人員的門檻,也減少了因人為原因而產生的誤判,測試結果的可靠性有所提升,為算法的進一步優化提供了良好的指導效果。
技術領域
本發明涉及簡歷識別,特別是一種針對OCR簡歷識別算法的自動化測試方法,以及使用該方法的系統。
背景技術
傳統OCR主要指對輸入掃描的文檔圖形進行分析和處理,檢測并識別出圖像中的文字信息,并將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。如今的OCR技術則更多用于自然場景下文字識別,例如招聘網站在接收到求職者各類排版的簡歷時,需要將其轉化為標準格式的簡歷以方便招聘者查閱,在簡歷識別過程中如何除錯或利用輔助信息提高識別正確率,是OCR最重要的課題,也成為衡量一個OCR簡歷識別系統性能好壞的主要指標。
然而長期以來對于OCR簡歷識別算法的測試卻很難實現,更多的測試活動是停留在前期的白盒測試,例如代碼走讀、靜態檢查等,而黑盒測試則依賴于人工的導入識別。很多測試活動又因人力資源的限制,無法開展大規模的測試,很難評估一個OCR簡歷識別系統的識別正確率,只能匆忙上線交由實際用戶去評估,造成了該系統風險的存在。
發明內容
發明目的:本發明的目的是提供一種識別率高的針對OCR簡歷識別算法的自動化測試方法,本發明的另一目的是提供一種可用性強的針對OCR簡歷識別算法的自動化測試系統。
技術方案:本發明所述的一種針對OCR簡歷識別算法的自動化測試方法,包括以下步驟:
(1)導入簡歷相關信息;
(2)隨機生成簡歷:將導入的文字內容打亂重排以模擬生成新的簡歷內容,并且隨機填充至之前導入的簡歷模板中;
(3)文字內容比對;
(4)輸出測試報告。
所述步驟(1)具體為:
(1.1)導入簡歷版式:提供一個或多個標準A4尺寸頁面,在此頁面上支持以手動方式繪制添加文字框,也支持自動生成簡歷版式,自動生成的邏輯為隨機生成不同大小的文字框直到布局滿整個頁面,隨后參考實際簡歷版式對每個文字框進行板塊的人工或自動標注;
(1.2)導入簡歷內容:僅支持手工輸入,所述簡歷內容包括必填內容和可選內容,所述必填內容包括個人資料、教育背景、工作經歷,所述可選內容包括掌握技能、個人評估、聯系方式、項目經歷、獲獎情況。
所述步驟(3)中的內容比對包括整段落的標題識別和段落內文字匹配率識別。
所述步驟(4)中的報告為圖形化HTML格式的報告,報告的主要參數包括識別的簡歷數量、識別的段落數量、匹配成功的段落數量、段落匹配成功率、匹配總文字數量、文字識別正確。
一種針對OCR簡歷識別算法的自動化測試系統,包括以下模塊:
導入模塊:包括簡歷版式導入和簡歷內容導入;
生成模塊:將導入的文字內容打亂重排以模擬生成新的簡歷內容,并且隨機填充至之前導入的簡歷模板中;
內容比對模塊:包括整段落的標題識別和段落內文字匹配率識別;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于的盧技術有限公司,未經的盧技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110598969.3/2.html,轉載請聲明來源鉆瓜專利網。





