[發明專利]一種多源異構農業農村大數據分類方法在審
| 申請號: | 202211056658.5 | 申請日: | 2022-08-31 |
| 公開(公告)號: | CN115495576A | 公開(公告)日: | 2022-12-20 |
| 發明(設計)人: | 李照;謝潤中;褚海濤 | 申請(專利權)人: | 上海飛未信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F40/284;G06Q50/02;G06Q50/26 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 201108 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多源異構 農業 農村 數據 分類 方法 | ||
本發明涉及農業農村大數據技術領域,具體揭示了一種多源異構農業農村大數據分類方法,包括如下步驟:S1、首先根據數據源的配置,讀取源數據的元數據信息;S2、然后根據源表名稱和描述信息,利用已訓練好的自然語言處理模型。本發明通過使用自然語言處理分類模型Fasttext、TextCNN、SVM和隨機森林完成對表描述和字段描述信息進行分類預測,結合權重計算模型進行分類權重計算,獲得精準的標準數據集(表)的推薦和標準數據項(字段)的推薦,達到了自動化效率高的優點,解決了現有的農村大數據讀取自動化效率低,往往數據讀取都是人為處理,這樣容易出錯和主觀分類不同意,而且效率比較低,因此不便于人們使用的問題。
技術領域
本發明涉及農業農村大數據技術領域,具體為一種多源異構農業農村大數據分類方法。
背景技術
隨著生產力的提高和社會發展,新一輪科技革命、產業變革方興未艾,云計算、大數據、區塊鏈、物聯網、智聯網等新一代信息技術加快應用,深刻改變生產生活方式,引發經濟格局和產業形態深度變革,形成發展數字經濟的普遍共識,數字農業農村既是鄉村振興的戰略方向,也是建設數字中國的重要內容,但是數據很多情況只在很小的范圍內垂直交換,導致無法發揮應數據有的價值,迫切需要進行數據整合,按照統一運行網絡、統計基礎設施、統一數據資源、統一服務平臺、統一安全策略、統一標準規范的總體要求,建立統一的農業農村大數據平臺。
本申請人意識到在建立統一農業農村大數據平臺的過程一般需要數據讀取、數據處理、數據治理、數據組織和數據服務等過程,而首先需要處理的是數據讀取匯聚,由于以前信息化建設時都是由各個業務職能部門進行信息化建設,沒有統一的建設標準,必然存在數據標準不統一,數據表示方式各種各樣的問題。
數據讀取時,源數據和標準數據的對應問題會需要大量的繁瑣調查和確認處理,而人為處理由于存在個體差異,容易出錯和主觀分類不統一,而且效率相對比較低下,隨著計算機技術和機器學習和人工智能技術的發展,可以很好地進行數據分類推薦,輔助人進行數據識別和分類,降低主觀影響數據分類錯誤。
本發明主要處理兩個方面的問題:第一個是多源異構的數據讀取問題;另一個是根據接入數據元數據信息(從數據源獲取或者額外補充)自動匹配標準數據的處理,標準數據處理包括數據集(表)分類推薦,數據項(數據元)分類推薦,其中多源異構接入底層使用插件技術保證數據異構數據的靈活性和可擴展性,整合了開源的Datax完成數據集成,數據集分類推薦和數據項分類推薦則采用機器學習方法與規則處理相結合的方法處理,目的是為農業農村大數據平臺數據數據讀取處理自動化提供輔助手段,提高數據讀取的自動化水平,為農業農村大數據平臺提供一種數據讀取自動化分類與匹配的方法,促進農業農村信息化和大數據平臺化的進程。
發明內容
針對現有技術的不足,本發明提供一種多源異構農業農村大數據分類方法,具備自動化效率高的優點,解決了現有的農村大數據讀取自動化效率低,往往數據讀取都是人為處理,這樣容易出錯和主觀分類不同意,而且效率比較低,因此不便于人們使用的問題。
本發明的一種多源異構農業農村大數據分類方法,包括如下步驟:
S1、首先根據數據源的配置,讀取源數據的元數據信息;
S2、然后根據源表名稱和描述信息,利用已訓練好的自然語言處理模型,識別標準數據集,一般情況下推薦5~10個標準數據集;
S3、此時根據推薦的數據集,進一步做源表字段名稱、類型、長度、描述等處理,利用已訓練好的字段分類模型識別出標準字段;
S4、綜合標準字段和標準數據集的識別權重值,進行綜合計算,得出最后的綜合權重并排序推薦標準數據集和標準數據字段。
本發明的一種多源異構農業農村大數據分類方法,所述多源異構數據讀取采用底層插件技術,針對不同的數據源采用不同的獨立插件讀取數據和元數據補充信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海飛未信息技術有限公司,未經上海飛未信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211056658.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于轉發信標的游標式定位系統與方法
- 下一篇:仿生大兜蟲生態機器人
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





