[發明專利]多源異構數據適配方法、裝置、設備及可讀存儲介質在審
| 申請號: | 202110167874.6 | 申請日: | 2021-02-05 |
| 公開(公告)號: | CN112925958A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 朱小非;徐高峰;曹軍偉 | 申請(專利權)人: | 深圳力維智聯技術有限公司;南京中興力維軟件有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F16/906;G06K9/62 |
| 代理公司: | 深圳市恒程創新知識產權代理有限公司 44542 | 代理人: | 劉冰 |
| 地址: | 518061 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多源異構 數據 配方 裝置 設備 可讀 存儲 介質 | ||
本發明公開了一種多源異構數據適配方法、裝置、設備及可讀存儲介質,該方法包括:從待訓練數據提取待訓練源數據,并獲取待訓練源數據中的第一關鍵字,以及與第一關鍵字匹配的第一目標值;從待訓練數據提取包含第一目標值的待訓練目標數據,獲取待訓練目標數據的目標類別,以及待訓練目標數據中與第一目標值匹配的第二關鍵字;根據預設貝葉斯算法和待訓練數據,計算第一關鍵字屬于目標類別的目標概率,并基于目標概率對待訓練源數據標注標簽,以生成訓練樣本;根據訓練樣本生成貝葉斯模型,向貝葉斯模型中輸入待適配源數據,得到第一目標數據。本發明通過模型訓練源數據與目標數據的適配關系,提高了多源異構數據適配的準確度。
技術領域
本發明涉及數據接入領域,尤其涉及多源異構數據適配方法、裝置、設備及可讀存儲介質。
背景技術
隨著科學技術的快速發展,越來越多的智能終端設備出現在人們的生活中,在多源異構數據接入技術領域,針對一個行業或者業務擴展企業來說,業務相對聚焦,但是對外數據類型和對端廠家形式種類繁多,在對這些種類繁多的多源異構數據接入前,還需要對對這些種類繁多的多源異構數據進行適配,這就造成了巨大的工作量,因此,如何提高多源異構數據的適配速度便成為了亟待解決的技術問題。
發明內容
本發明的主要目的在于提供一種多源異構數據適配方法、裝置、設備及可讀存儲介質,旨在解決如何提高多源異構數據的適配速度的技術問題。
此外,為實現上述目的,本發明還提供一種多源異構數據適配方法,所述多源異構數據適配方法包括以下步驟:
從待訓練數據中提取待訓練源數據,并獲取所述待訓練源數據中的第一關鍵字,以及與所述第一關鍵字匹配的第一目標值;
從所述待訓練數據中提取包含所述第一目標值的待訓練目標數據,獲取所述待訓練目標數據的目標類別,以及所述待訓練目標數據中與所述第一目標值匹配的第二關鍵字,其中,所述第一關鍵字與所述第二關鍵字不相同;
根據預設貝葉斯算法和所述待訓練數據,計算所述第一關鍵字屬于所述目標類別的目標概率,并基于所述目標概率對所述待訓練源數據標注標簽,以生成訓練樣本;
根據所述訓練樣本生成貝葉斯模型,向所述貝葉斯模型中輸入待適配源數據,得到與所述待適配源數據適配的第一目標數據。
可選地,所述獲取所述待訓練源數據中的第一關鍵字,以及與所述第一關鍵字匹配的第一目標值的步驟包括:
獲取所述待訓練源數據對應的目標文本,對所述目標文本中預設范圍內的字符進行分詞處理,得到目標字符;
獲取所述目標字符的目標屬性,并根據所述目標屬性,確定所述目標字符中的第一關鍵字和第一目標值。
可選地,所述根據預設貝葉斯算法和所述待訓練數據,計算所述第一關鍵字屬于所述目標類別的目標概率的步驟包括:
獲取所述待訓練數據中包含所述第一關鍵字的數據的第一比例,和所述目標類別對應的目標比例;
根據預設貝葉斯算法、所述第一比例和所述目標比例,計算所述第一關鍵字屬于所述目標類別的目標概率。
可選地,所述獲取所述待訓練數據中包含所述第一關鍵字的數據的第一比例,和所述目標類別對應的目標比例的步驟包括:
若所述目標類別包含第一類別和第二類別,則獲取所述待訓練數據中所述第一類別對應的待訓練目標數據的第二比例;
獲取所述待訓練數據中所述第二類別對應的待訓練目標數據的第三比例,其中,目標比例包括所述第二比例和所述第三比例。
可選地,所述根據預設貝葉斯算法、所述第一比例和所述目標比例,計算所述第一關鍵字屬于所述目標類別的目標概率的步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳力維智聯技術有限公司;南京中興力維軟件有限公司,未經深圳力維智聯技術有限公司;南京中興力維軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110167874.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





