[發明專利]一種非結構化數據標注管理方法及系統在審
| 申請號: | 201811208798.3 | 申請日: | 2018-10-17 |
| 公開(公告)號: | CN109408688A | 公開(公告)日: | 2019-03-01 |
| 發明(設計)人: | 鄧熾成 | 申請(專利權)人: | 珠海市智圖數研信息技術有限公司 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 盧澤明 |
| 地址: | 519000 廣東省珠海市橫琴新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽管理 數據標簽 管理方法及系統 非結構化數據 特征抽取模塊 抽取模塊 文本抽取 標注 查詢處理模塊 存儲管理模塊 訪問接口模塊 圖像抽取模塊 標簽標記 標簽創建 標簽存儲 抽象模塊 加載模塊 模塊實現 人工處理 業務屬性 業務數據 智能分析 大數據 連接端 停用詞 一站式 轉換 抽取 垂直 存儲 視頻 文本 創建 管理 建設 | ||
本發明公開了一種非結構化數據標注管理方法及系統,包括標簽管理平臺,所述標簽管理平臺包括特征抽取模塊、存儲管理模塊、轉換加載模塊、數據標簽模塊、訪問接口模塊和查詢處理模塊,所述標簽管理平臺連接端設有業務抽象模塊和人工處理模塊;所述數據標簽模塊包括標簽創建模塊、標簽標記模塊和標簽存儲模塊;所述特征抽取模塊包括文本抽取模塊、圖像抽取模塊、音頻抽取模塊和視頻抽取模塊;所述文本抽取模塊用于從文本中抽取停用詞、TF?IDF特征和關鍵詞。本發明通過建設標簽管理平臺,利用數據標簽模塊實現描述業務屬性的數據標簽創建、轉換、存儲的“一站式”管理,提高大數據利用價值,提高垂直業務數據智能分析水平。
技術領域
本發明涉及數據管理領域,特別涉及一種非結構化數據標注管理方法及系統。
背景技術
大量爬蟲爬取的信息主要是各種非格式化的數據,缺乏格式化、標準化的要求,這些數據對垂直業務的分析存在多方面不完整的缺陷,會直接影響到垂直業務的分析結果。
因此,發明一種非結構化數據標注管理方法及系統來解決上述問題很有必要。
發明內容
本發明的目的在于提供一種非結構化數據標注管理方法及系統,通過建設標簽管理平臺,利用數據標簽模塊實現描述業務屬性的數據標簽創建、轉換、存儲的“一站式”管理,提高大數據利用價值,提高垂直業務數據智能分析水平,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:一種非結構化數據標注管理方法及系統,包括標簽管理平臺,所述標簽管理平臺包括特征抽取模塊、存儲管理模塊、轉換加載模塊、數據標簽模塊、訪問接口模塊和查詢處理模塊,所述標簽管理平臺連接端設有業務抽象模塊和人工處理模塊;
所述數據標簽模塊包括標簽創建模塊、標簽標記模塊和標簽存儲模塊;
所述特征抽取模塊包括文本抽取模塊;
所述文本抽取模塊用于從文本中抽取停用詞、TF-IDF特征和關鍵詞;
所述存儲管理模塊提供存儲建模功能,可插入、修改和刪除非結構化數據;
所述轉換加載模塊用于根據提取的特征對常用格式的文本、圖像、音頻和視頻數據進行自動化處理;
所述訪問接口模塊用于應對查詢語言、應用程序和Web服務訪問的接口要求;
所述查詢處理模塊用于提供查詢結果排序和批量返回功能,并進行范圍查詢、全文查詢、樣例查詢、和語義查詢,利用多種查詢方式對管理系統中的非結構化數據進行查詢;
所述業務抽象模塊將業務非結構化數據抽象,制定符合業務要求的數據標準;
所述人工處理模塊具體為用戶終端,利用人工,根據非結構化數據處理的要求對數據進行人工處理,調整數據,使其符合業務要求的數據標準;
所述標簽創建模塊、標簽轉換模塊和標簽存儲模塊用于實現描述業務屬性的數據標簽創建、轉換、存儲的“一站式”管理。
優選的,所述存儲管理模塊支持整形、浮點型、布爾型、字符串、日期等基本數據類型。
優選的,所述轉換加載模塊對非結構化數據提供初步的自動結構化處理。
優選的,所述查詢處理模塊支持查詢非結構化數據。
本發明還公開了一種非結構化數據標注管理方法,具體包括以下步驟:
步驟一,運作標簽管理平臺,當非結構化數據信息傳輸至標簽管理平臺時,存儲管理模塊根據非結構化數據的原始數據、基本屬性、底層特征和語義特征進行存儲建模,使得非結構化數據在標簽管理平臺內進行轉化存儲,可適用于標簽管理平臺內部的功能模塊進行運算處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海市智圖數研信息技術有限公司,未經珠海市智圖數研信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811208798.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:科技成果轉移轉化服務平臺
- 下一篇:數據獲取方法、裝置、系統及電子設備





