[發(fā)明專利]一種數(shù)據(jù)資源的信息目錄主題庫分類方法在審
| 申請?zhí)枺?/td> | 202110659501.0 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113342975A | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設(shè)計)人: | 陳白雪;張律;楊洋;吳胤杰;周國棟;汪濤 | 申請(專利權(quán))人: | 江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;上海百之敖信息科技有限公司;昆山百敖電子科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06K9/62 |
| 代理公司: | 無錫知初知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32418 | 代理人: | 高春濤 |
| 地址: | 214205 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 資源 信息 目錄 主題 分類 方法 | ||
本發(fā)明公開了一種數(shù)據(jù)資源的信息目錄主題庫分類方法,涉及大數(shù)據(jù)管理技術(shù)領(lǐng)域。包括以下步驟:1)采集數(shù)據(jù)資源的信息目錄樣本作為樣本數(shù)據(jù);2)對樣本數(shù)據(jù)進行標記,標記所用標簽為擬定的主題庫名稱;3)基于自然語言處理方法將標簽進行向量化處理,基于機器學習方法訓(xùn)練分類模型,使用分類模型進行數(shù)據(jù)資源的信息目錄主題庫分類,劃分主題庫;4)調(diào)整樣本數(shù)據(jù)內(nèi)容和標簽類別,優(yōu)化分類模型。本申請結(jié)合自然語言處理的方法,將劃分主題庫轉(zhuǎn)化為文本分類問題,不需要人工去總結(jié)標簽體系規(guī)則,能夠批量對主題庫進行分類,提高了資源的有效利用率。同時結(jié)合本問題的特點對文本特征做了改造,相比改造之前分類的準確性得到顯著提升。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)管理技術(shù)領(lǐng)域,具體涉及一種數(shù)據(jù)資源的信息目錄主題庫分類方法。
背景技術(shù)
數(shù)據(jù)資源的信息目錄是信息組織的一種方式,可以展示所有的數(shù)據(jù)資源但又可以不對外暴露數(shù)據(jù)。政府和企業(yè)的數(shù)據(jù)資源的信息目錄也是如此。對于政府數(shù)據(jù)資源的信息目錄來說,根據(jù)目錄、信息組織、信息資源、元數(shù)據(jù)等相關(guān)概念,可以從技術(shù)角度定義政府數(shù)據(jù)資源的信息目錄體系為:以元數(shù)據(jù)為核心,以政務(wù)分類表和主題詞表為控制詞表,對政府數(shù)據(jù)資源的信息目錄進行網(wǎng)狀組織,滿足從分類、主題、應(yīng)用等多個角度對政府數(shù)據(jù)資源進行管理、識別、定位、發(fā)現(xiàn)、評估與選擇。
傳統(tǒng)上劃分主題庫方法一種是通過業(yè)務(wù)人員創(chuàng)建資源時根據(jù)自身的理解劃分主題,人工判定耗時耗力,且不能批量,另一種是創(chuàng)建規(guī)則,但對于擁有龐大數(shù)據(jù)量的機構(gòu)或企業(yè)規(guī)則會覆蓋不全面。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的上述問題,本發(fā)明所要解決的技術(shù)問題在于提供一種數(shù)據(jù)資源的信息目錄主題庫分類方法。
為了解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案如下:
一種數(shù)據(jù)資源的信息目錄主題庫分類方法,包括以下步驟:
1)采集數(shù)據(jù)資源的信息目錄樣本作為樣本數(shù)據(jù);
2)對樣本數(shù)據(jù)進行標記,標記所用標簽為擬定的主題庫名稱;
3)基于自然語言處理方法將標簽進行向量化處理,基于機器學習方法訓(xùn)練分類模型,使用分類模型進行數(shù)據(jù)資源的信息目錄主題庫分類,劃分主題庫;
4)調(diào)整樣本數(shù)據(jù)內(nèi)容和標簽類別,優(yōu)化分類模型。
進一步的,步驟1)中,數(shù)據(jù)資源的信息目錄的基本結(jié)構(gòu)包括接入表的表名、數(shù)據(jù)項字段名稱、字段含義、說明描述。
進一步的,步驟2)中,使用one-hot方法標簽向量化,使用smote算法對訓(xùn)練樣本數(shù)據(jù)做合成樣本處理,使得每個標簽標記的樣本數(shù)據(jù)量一致,使用TFIDF方法進行特征抽取并舍棄噪音數(shù)據(jù),然后結(jié)合本問題變型劃分不同的特征矩陣,進行特征計算,再使用lightGBM算法訓(xùn)練分類模型。
進一步的,步驟3)中,使用分類模型的predict_proba函數(shù)得到數(shù)據(jù)資源的信息目錄劃分到每個標簽的概率,設(shè)定概率閾值,如果大于閾值就將數(shù)據(jù)資源的信息劃分到該標簽所擬定的主題庫。
進一步的,步驟4)中,當接入新的數(shù)據(jù)資源時,可直接依據(jù)當前分類模型進行數(shù)據(jù)資源的信息主題庫分類,劃分主題庫。
進一步的,驟4)中,當接入新的數(shù)據(jù)資源時,可直接依據(jù)當前分類模型的每個標簽劃分的概率即當前每個主題庫劃分的概率,劃分主題庫。
進一步的,步驟4)中,當接入新的數(shù)據(jù)資源時,劃分主題庫與期望不符時,通過人工介入,糾錯劃分的結(jié)果;糾錯之后返回步驟2),重新訓(xùn)練分類模型。
進一步的,步驟4)中,隨著樣本數(shù)據(jù)內(nèi)容的調(diào)整,主題庫有新增或刪減時,需對標記所用標簽進行相應(yīng)的新增或刪減,然后返回步驟2),重新訓(xùn)練分類模型。
進一步的,同一數(shù)據(jù)資源可屬于多個主題庫。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;上海百之敖信息科技有限公司;昆山百敖電子科技有限公司,未經(jīng)江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;上海百之敖信息科技有限公司;昆山百敖電子科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110659501.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





