[發明專利]基于大數據和關鍵詞的行業類型識別方法、系統及設備在審
| 申請號: | 202011377648.2 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112416992A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 崔哲愷;范淵;楊勃 | 申請(專利權)人: | 杭州安恒信息技術股份有限公司 |
| 主分類號: | G06F16/2457 | 分類號: | G06F16/2457;G06F16/28 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王曉坤 |
| 地址: | 310000 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 關鍵詞 行業 類型 識別 方法 系統 設備 | ||
本申請公開了一種基于大數據和關鍵詞的行業類型識別方法、系統及電子設備和存儲介質,該方法包括:獲取待識別目標網絡資產單位的行業特征信息,分別對其中的單位名稱、單位性質、域名和行業初始值進行正向匹配和反向匹配,為目標網絡資產單位添加相應的行業類型標簽;基于所有行業類型標簽,通過去重和聚合處理,得到目標網絡資產單位的目標行業類型標簽,以確定目標網絡資產單位的行業類型。本申請可在獲取到待識別的目標網絡資產單位的行業特征信息后,分別對各行業特征信息進行正向匹配和反向匹配,為目標網絡資產單位添加相應的行業類型標簽,得到最終的行業類型識別結果,提高了識別的準確率和覆蓋率,且無需耗費人力成本,提高了識別效率。
技術領域
本申請涉及信息處理技術領域,更具體地說,涉及一種基于大數據和關鍵詞的行業類型識別方法、系統及一種電子設備和一種計算機可讀存儲介質。
背景技術
傳統技術中,對行業類型的識別通常采用兩種方式:一是通過單一的HTML關鍵字來識別并輔以人工研判的二次驗證來進行識別;二是通過預先設置各行業的分值規則模型,設置基礎規則和分詞匹配來進行快速識別。然而,上述第一種方案識別效率低,重復工作量較大,且識別方式單一、錯誤率高,還增加了人工成本,而第二種方案雖然可以降低成本,但其準確率和覆蓋率仍然不高。
因此,如何解決上述問題是本領域技術人員需要重點關注的。
發明內容
本申請的目的在于提供一種基于大數據和關鍵詞的行業類型識別方法、系統及一種電子設備和一種計算機可讀存儲介質,提高了識別的準確率和覆蓋率,且無需耗費人力成本,提高了識別效率。
為實現上述目的,本申請提供了一種基于大數據和關鍵詞的行業類型識別方法,包括:
獲取待識別的目標網絡資產單位的行業特征信息,所述行業特征信息包括單位名稱、單位性質、域名和行業初始值;
分別對所述單位名稱、所述單位性質、所述域名和所述行業初始值進行正向匹配和反向匹配,為所述目標網絡資產單位添加相應的行業類型標簽;
基于所有所述行業類型標簽,通過去重處理和聚合處理,得到所述目標網絡資產單位對應的目標行業類型標簽,以確定所述目標網絡資產單位的行業類型。
可選的,在所述獲取待識別的目標網絡資產單位的行業特征信息之后,還包括:
將所述行業特征信息通過Hive表的形式保存至Hive庫中。
可選的,所述分別對所述單位名稱、所述單位性質、所述域名和所述行業初始值進行正向匹配和反向匹配,為所述目標網絡資產單位添加相應的行業類型標簽,包括:
按照所述單位名稱對提取得到的所述域名進行合并;
利用預設的行業后綴名對所述域名的后綴進行匹配;
若匹配成功,則利用當前所述行業后綴名對應的行業過濾詞對所述單位名稱進行匹配;
若所述單位名稱未匹配到所述行業過濾詞,則允許為所述目標網絡資產單位添加當前所述行業后綴名對應的行業類型標簽。
可選的,所述分別對所述單位名稱、所述單位性質、所述域名和所述行業初始值進行正向匹配和反向匹配,為所述目標網絡資產單位添加相應的行業類型標簽,包括:
獲取預先設置的單位性質與行業類型之間的映射關系;
根據所述映射關系,利用各個所述行業類型對應的目標單位性質對所述單位性質進行匹配;
若任一單位性質匹配成功,則為所述目標網絡資產單位添加當前所述目標單位性質對應的行業類型標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州安恒信息技術股份有限公司,未經杭州安恒信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011377648.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:模塊化的帶柄股骨部件測試夾具
- 下一篇:控制面板安裝結構及列間空調
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





