[發(fā)明專利]一種數(shù)據(jù)處理方法、裝置以及可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011073815.4 | 申請日: | 2020-10-09 |
| 公開(公告)號: | CN112052414A | 公開(公告)日: | 2020-12-08 |
| 發(fā)明(設(shè)計)人: | 羅佳晨;曾毅 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/903;G06F16/215;G06F16/23;G06F40/289;G06F40/295 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 熊永強;杜維 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)處理 方法 裝置 以及 可讀 存儲 介質(zhì) | ||
本發(fā)明實施例公開了一種數(shù)據(jù)處理方法、裝置以及可讀存儲介質(zhì)。該數(shù)據(jù)處理方法包括:獲取源業(yè)務(wù)數(shù)據(jù),并獲取所述源業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)格式類型;根據(jù)所述數(shù)據(jù)格式類型,在所述源業(yè)務(wù)數(shù)據(jù)中進行標注信息抽取,得到所述源業(yè)務(wù)數(shù)據(jù)對應(yīng)的標注信息;獲取所述源業(yè)務(wù)數(shù)據(jù)中具有目標媒體類型的多媒體子數(shù)據(jù),對所述多媒體子數(shù)據(jù)進行格式標準化處理,得到更新后的源業(yè)務(wù)數(shù)據(jù);將所述更新后的源業(yè)務(wù)數(shù)據(jù)和所述標注信息關(guān)聯(lián)存儲至數(shù)據(jù)庫。采用本發(fā)明實施例,可以最小化人工標注成本,提高數(shù)據(jù)標注的效率,且提升數(shù)據(jù)的兼容性。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法、裝置以及可讀存儲介質(zhì)。
背景技術(shù)
隨著數(shù)據(jù)信息化的發(fā)展,數(shù)據(jù)量快速增長,數(shù)據(jù)的標注信息在推薦系統(tǒng)、監(jiān)督學習等領(lǐng)域起到重要作用,因此,如何快速高效地從開放領(lǐng)域的數(shù)據(jù)中抽取出有效信息,成為擺在人們面前的重要問題。
現(xiàn)有的技術(shù)十分依賴人力,某些領(lǐng)域?qū)F隊人員的專業(yè)水平要求較高,且主要通過人工進行信息標注,需要標注的部分過多,耗費時間過長,造成處理數(shù)據(jù)的效率較低,且現(xiàn)有技術(shù)無法對數(shù)據(jù)進行兼容性處理,難以保證數(shù)據(jù)的通用性。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種數(shù)據(jù)處理方法、裝置以及可讀存儲介質(zhì),可以最小化人工標注成本,提高數(shù)據(jù)標注的效率,且提升數(shù)據(jù)的兼容性。
本發(fā)明實施例一方面提供了一種數(shù)據(jù)處理方法,該方法包括:
獲取源業(yè)務(wù)數(shù)據(jù),并獲取所述源業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)格式類型;
根據(jù)所述數(shù)據(jù)格式類型,在所述源業(yè)務(wù)數(shù)據(jù)中進行標注信息抽取,得到所述源業(yè)務(wù)數(shù)據(jù)對應(yīng)的標注信息;
獲取所述源業(yè)務(wù)數(shù)據(jù)中具有目標媒體類型的多媒體子數(shù)據(jù),對所述多媒體子數(shù)據(jù)進行格式標準化處理,得到更新后的源業(yè)務(wù)數(shù)據(jù);
將所述更新后的源業(yè)務(wù)數(shù)據(jù)和所述標注信息關(guān)聯(lián)存儲至數(shù)據(jù)庫。
本發(fā)明實施例一方面提供了一種數(shù)據(jù)處理裝置,該裝置包括:
獲取模塊,用于獲取源業(yè)務(wù)數(shù)據(jù),并獲取所述源業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)格式類型;
抽取模塊,用于根據(jù)所述數(shù)據(jù)格式類型,在所述源業(yè)務(wù)數(shù)據(jù)中進行標注信息抽取,得到所述源業(yè)務(wù)數(shù)據(jù)對應(yīng)的標注信息;
標準化模塊,用于獲取所述源業(yè)務(wù)數(shù)據(jù)中具有目標媒體類型的多媒體子數(shù)據(jù),對所述多媒體子數(shù)據(jù)進行格式標準化處理,得到更新后的源業(yè)務(wù)數(shù)據(jù);
存儲模塊,用于將所述更新后的源業(yè)務(wù)數(shù)據(jù)和所述標注信息關(guān)聯(lián)存儲至數(shù)據(jù)庫。
其中,所述抽取模塊包括:
解析單元,用于若所述數(shù)據(jù)格式類型為網(wǎng)頁格式類型,則對所述源業(yè)務(wù)數(shù)據(jù)進行解析,得到所述源業(yè)務(wù)數(shù)據(jù)包含的有效字段;
網(wǎng)頁抽取單元,用于根據(jù)所述有效字段在數(shù)據(jù)庫中的標準標簽集合中進行字段匹配;根據(jù)與所述標準標簽集合相匹配的有效字段,獲取字段標注信息;若所述字段標注信息中存在標識字段,則根據(jù)所述數(shù)據(jù)庫中的標識映射關(guān)系表,對所述字段標注信息中的所述標識字段進行標識映射,得到所述標識字段對應(yīng)的映射值;將所述字段標注信息和所述標識字段對應(yīng)的映射值,確定為所述源業(yè)務(wù)數(shù)據(jù)對應(yīng)的標注信息。
其中,所述抽取模塊包括:
文件名獲取單元,用于若所述數(shù)據(jù)格式類型為文件格式類型,則獲取所述源業(yè)務(wù)數(shù)據(jù)的文件名;
第一文件抽取單元,用于若所述文件名的命名格式符合正則表達式的過濾邏輯,則基于所述正則表達式,從所述文件名中抽取出所述源業(yè)務(wù)數(shù)據(jù)對應(yīng)的標注信息;若所述文件名的命名格式不符合正則表達式的過濾邏輯,則遍歷數(shù)據(jù)庫中標準標簽集合內(nèi)的標準標簽,將所述文件名中與所述標準標簽的值相匹配的數(shù)據(jù),確定為所述源業(yè)務(wù)數(shù)據(jù)對應(yīng)的標注信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011073815.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種肛管直腸狹窄術(shù)后自助護理裝置
- 下一篇:無壓痕呼吸面罩
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





