[發(fā)明專利]一種數(shù)據(jù)資源的信息目錄主題庫分類方法在審
| 申請?zhí)枺?/td> | 202110659501.0 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113342975A | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設(shè)計)人: | 陳白雪;張律;楊洋;吳胤杰;周國棟;汪濤 | 申請(專利權(quán))人: | 江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;上海百之敖信息科技有限公司;昆山百敖電子科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06K9/62 |
| 代理公司: | 無錫知初知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32418 | 代理人: | 高春濤 |
| 地址: | 214205 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 資源 信息 目錄 主題 分類 方法 | ||
1.一種數(shù)據(jù)資源的信息目錄主題庫分類方法,其特征在于,包括以下步驟:
1)采集數(shù)據(jù)資源的信息目錄樣本作為樣本數(shù)據(jù);
2)對樣本數(shù)據(jù)進行標記,標記所用標簽為擬定的主題庫名稱;
3)基于自然語言處理方法將標簽進行向量化處理,基于機器學習方法訓練分類模型,使用分類模型進行數(shù)據(jù)資源的信息主題庫分類,劃分主題庫;
4)調(diào)整樣本數(shù)據(jù)內(nèi)容和標簽類別,優(yōu)化分類模型。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)資源的信息目錄主題庫分類方法,其特征在于,步驟1)中,所述數(shù)據(jù)資源的信息目錄的基本結(jié)構(gòu)包括接入表的數(shù)據(jù)來源、表名、數(shù)據(jù)項字段名稱、字段含義、說明描述。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)資源的信息目錄主題庫分類方法,其特征在于,步驟2)中,使用one-hot方法標簽向量化,使用smote算法對訓練樣本數(shù)據(jù)做合成樣本處理,使得每個標簽標記的樣本數(shù)據(jù)量一致,使用TFIDF方法進行特征抽取并舍棄噪音數(shù)據(jù),然后結(jié)合本問題變型劃分不同的特征矩陣,進行特征計算,再使用lightGBM算法訓練分類模型。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)資源的信息目錄主題庫分類方法,其特征在于,步驟3)中,使用分類模型的predict_proba函數(shù)得到數(shù)據(jù)資源的信息目錄劃分到每個標簽的概率,設(shè)定概率閾值,如果大于閾值就將數(shù)據(jù)資源的信息目錄劃分到該標簽所擬定的主題庫。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)資源的信息目錄主題庫分類方法,其特征在于,步驟4)中,當接入新的數(shù)據(jù)資源時,可直接依據(jù)當前分類模型進行數(shù)據(jù)資源的信息目錄主題庫分類,劃分主題庫。
6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)資源的信息目錄主題庫分類方法,其特征在于,步驟4)中,當接入新的數(shù)據(jù)資源時,可直接依據(jù)當前分類模型的每個標簽劃分的概率即當前每個主題庫劃分的概率,劃分主題庫。
7.根據(jù)權(quán)利要求5所述的數(shù)據(jù)資源的信息目錄主題庫分類方法,其特征在于,步驟4)中,當接入新的數(shù)據(jù)資源時,劃分主題庫與期望不符時,通過人工介入,糾錯劃分的結(jié)果;糾錯之后返回步驟2),重新訓練分類模型。
8.根據(jù)權(quán)利要求1所述的數(shù)據(jù)資源的信息目錄主題庫分類方法,其特征在于,步驟4)中,隨著樣本數(shù)據(jù)內(nèi)容的調(diào)整,主題庫有新增或刪減時,需對標記所用標簽進行相應(yīng)的新增或刪減,然后返回步驟2),重新訓練分類模型。
9.根據(jù)權(quán)利要求1所述的數(shù)據(jù)資源的信息目錄主題庫分類方法,其特征在于,同一數(shù)據(jù)資源可屬于多個主題庫。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;上海百之敖信息科技有限公司;昆山百敖電子科技有限公司,未經(jīng)江蘇卓易信息科技股份有限公司;南京百敖軟件有限公司;上海百之敖信息科技有限公司;昆山百敖電子科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110659501.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





