[發(fā)明專利]一種基于OCR和文本處理技術(shù)識別網(wǎng)貸網(wǎng)站的方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201911209962.7 | 申請日: | 2019-11-29 |
| 公開(公告)號: | CN111078979A | 公開(公告)日: | 2020-04-28 |
| 發(fā)明(設(shè)計)人: | 陶景龍;梁淑云;劉勝;馬影;王啟凡;魏國富;徐明;殷錢安;余賢喆;周曉勇 | 申請(專利權(quán))人: | 上海觀安信息技術(shù)股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/958;G06K9/00;G06Q50/26;G06F40/289;G06F40/284 |
| 代理公司: | 合肥市浩智運專利代理事務所(普通合伙) 34124 | 代理人: | 張景云 |
| 地址: | 200333 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 ocr 文本 處理 技術(shù) 識別 網(wǎng)站 方法 系統(tǒng) | ||
本發(fā)明提供一種基于OCR和文本處理技術(shù)識別網(wǎng)貸網(wǎng)站的方法,包括以下步驟:S101,獲取待檢測網(wǎng)站URL;S102,使用爬蟲技術(shù),對待檢測網(wǎng)站進行圖片爬取,并輸出URL圖片集;S103,使用OCR技術(shù),對爬取的圖片集進行文字提取;104,使用jieba分詞技術(shù),對已提取文字進行內(nèi)容過濾并分詞,然后翻譯成拼音分詞內(nèi)容;S105,對拼音分詞內(nèi)容,進行網(wǎng)貸關(guān)鍵詞匹配,輸出對應URL是否為網(wǎng)貸網(wǎng)站。通對網(wǎng)站圖片中的文字內(nèi)容和網(wǎng)貸業(yè)務專家建立網(wǎng)貸信息關(guān)鍵詞庫,使用OCR技術(shù)、文本處理技術(shù),實現(xiàn)拼音匹配,完成了系統(tǒng)化的網(wǎng)貸網(wǎng)站識別方法,該方法高效、準確,有效的彌補了該領(lǐng)域技術(shù)空缺。
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)貸網(wǎng)站識別技術(shù)領(lǐng)域,具體來說是一種基于OCR和文本處理技術(shù)識別網(wǎng)貸網(wǎng)站的方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)金融行業(yè)的快速發(fā)展,網(wǎng)站的建立更便捷,門檻也更低,從而導致很多不良、不法網(wǎng)站,如不法網(wǎng)貸網(wǎng)站、釣魚網(wǎng)站、賭博網(wǎng)站等。近年來,P2P公司跑路、網(wǎng)絡詐騙、電信詐騙等事件頻繁發(fā)生,給民眾造成了較為嚴重的財產(chǎn)損失,有些甚至危害到了個人人身安全,同時產(chǎn)生了不良的社會影響。對網(wǎng)貸網(wǎng)站的準確及時識別,進而及時提醒用戶謹慎操作,能夠避免用戶的財產(chǎn)等受到損失,同時提高了企業(yè)的社會責任及企業(yè)形象。
其中網(wǎng)絡貸款要求門檻愈來愈低,由此產(chǎn)生了很多以網(wǎng)絡貸款為主營業(yè)務的組織或企業(yè),一般來說這類企業(yè)都會有自己的網(wǎng)貸在線申請平臺,借助互聯(lián)網(wǎng)的時域性、互動性發(fā)展貸款業(yè)務。這類網(wǎng)貸網(wǎng)站的訪問鏈接和普通網(wǎng)站鏈接并無明顯差異,對于它們的區(qū)分,一種方式是人工進行鏈接訪問,通過其網(wǎng)站展示內(nèi)容從而判別是否為網(wǎng)貸網(wǎng)站。這種方式會耗費大量的人力資源和時間,效率低。申請?zhí)枮?01910565890.3公開的網(wǎng)站信息識別方法、裝置和電子設(shè)備,主要技術(shù)為根據(jù)目標網(wǎng)站的地址獲取目標網(wǎng)站的內(nèi)容;內(nèi)容包括:文本內(nèi)容、圖片文件和展示效果截圖;根據(jù)預設(shè)的敏感違規(guī)庫對文本內(nèi)容進行精確匹配和/或自然語言分析處理,確定出目標網(wǎng)站的文本識別結(jié)果;根據(jù)預設(shè)的帶有不同類型標簽的樣本圖片對圖片文件和展示效果截圖分別進行基于深度學習的圖像分類識別,確定出目標網(wǎng)站的圖片識別結(jié)果。該技術(shù)在獲取目標網(wǎng)站的內(nèi)容后,對文本內(nèi)容進行精確匹配和/或自然語言分析處理以獲得文本識別結(jié)果;對圖片文件和展示效果截圖進行深度學習以獲得圖片識別結(jié)果。可以有效地判斷該網(wǎng)站是否存在不良內(nèi)容,減少誤判率。但是該方法存在的問題是,需要對文字、圖片分別進行處理,無法對圖片中文字進行識別和和判斷,尤其是基于學習對圖片進行分類,計算量大,效率低。另外,該方法僅針對文字進行識別和匹配,但是文字匹配誤差較大,如漢字情況下,“貸款”與“下款”只有百分之五十的相似度,但是“dai kuan”與“xia kuan”的相似度卻有75%,故而導致匹配結(jié)果存在很大誤差。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于對于網(wǎng)貸網(wǎng)站的識別技術(shù)效率低、誤差大。
本發(fā)明通過以下技術(shù)手段實現(xiàn)解決上述技術(shù)問題的:
一種基于OCR和文本處理技術(shù)識別網(wǎng)貸網(wǎng)站的方法,包括以下步驟:
S101,獲取待檢測網(wǎng)站URL;
S102,使用爬蟲技術(shù),對待檢測網(wǎng)站進行圖片爬取,并輸出URL圖片集;
S103,使用OCR技術(shù),對爬取的圖片集進行文字提取;
S104,使用jieba分詞技術(shù),對已提取文字進行內(nèi)容過濾并分詞并將分詞翻譯成拼音,得到拼音分詞內(nèi)容M;
S105,構(gòu)建拼音關(guān)鍵詞庫K,利用拼音關(guān)鍵詞庫,對拼音分詞內(nèi)容M,進行網(wǎng)貸關(guān)鍵詞匹配,輸出對應URL是否為網(wǎng)貸網(wǎng)站。
通對網(wǎng)站圖片中的文字內(nèi)容和網(wǎng)貸業(yè)務專家建立網(wǎng)貸信息關(guān)鍵詞庫,使用OCR技術(shù)、文本處理技術(shù),將關(guān)鍵詞庫和待匹配文字翻譯成拼音,提高識別率,減小誤差,完成了系統(tǒng)化的網(wǎng)貸網(wǎng)站識別方法,該方法高效、準確,有效的彌補了該領(lǐng)域技術(shù)空缺。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海觀安信息技術(shù)股份有限公司,未經(jīng)上海觀安信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911209962.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- OCR文檔識別方法及其裝置
- 智能調(diào)度多OCR識別引擎的方法及設(shè)備
- OCR掛接方法、裝置與設(shè)備
- 一種用于教學系統(tǒng)的OCR識別方法、裝置和終端
- OCR識別模型的確定方法及裝置
- 基于聯(lián)邦OCR模型的字符檢測方法、裝置、設(shè)備和介質(zhì)
- OCR系統(tǒng)的評估方法、裝置、設(shè)備及可讀存儲介質(zhì)
- OCR模型訓練方法、系統(tǒng)及裝置
- 識別轉(zhuǎn)換圖像文件的方法、系統(tǒng)、計算機設(shè)備及存儲介質(zhì)
- OCR訓練數(shù)據(jù)生成方法、裝置、計算機設(shè)備及存儲介質(zhì)





