[發(fā)明專(zhuān)利]一種對(duì)標(biāo)處理的方法、裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)及終端有效
| 申請(qǐng)?zhí)枺?/td> | 201811598897.7 | 申請(qǐng)日: | 2018-12-26 |
| 公開(kāi)(公告)號(hào): | CN109800215B | 公開(kāi)(公告)日: | 2020-11-24 |
| 發(fā)明(設(shè)計(jì))人: | 張毅然;王健偉 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京明略軟件系統(tǒng)有限公司 |
| 主分類(lèi)號(hào): | G06F16/215 | 分類(lèi)號(hào): | G06F16/215;G06F16/22;G06F16/242 |
| 代理公司: | 北京安信方達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11262 | 代理人: | 王康;栗若木 |
| 地址: | 102218 北京市昌平區(qū)東小*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 處理 方法 裝置 計(jì)算機(jī) 存儲(chǔ) 介質(zhì) 終端 | ||
一種對(duì)標(biāo)處理的方法、裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)及終端,包括:構(gòu)建待對(duì)標(biāo)處理的各目標(biāo)表的第一特征向量;對(duì)構(gòu)建的第一特征向量進(jìn)行聚類(lèi)運(yùn)算;根據(jù)聚類(lèi)運(yùn)算結(jié)果,對(duì)屬于同一聚類(lèi)簇的目標(biāo)表進(jìn)行融合,獲得對(duì)應(yīng)于各聚類(lèi)簇的寬表;根據(jù)原始表與獲得的各寬表的相似度信息,從獲得的所有寬表中選擇其中一個(gè)作為用于對(duì)標(biāo)處理的標(biāo)準(zhǔn)表。本發(fā)明實(shí)施例提升了原始表的對(duì)標(biāo)效率。
技術(shù)領(lǐng)域
本文涉及但不限于數(shù)據(jù)處理技術(shù),尤指一種對(duì)標(biāo)處理的方法、裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)及終端。
背景技術(shù)
標(biāo)準(zhǔn)化是數(shù)據(jù)治理流程中提升治理效率的重要手段,是實(shí)現(xiàn)公安、金融、工業(yè)等領(lǐng)域半自動(dòng)化數(shù)據(jù)治理的關(guān)鍵步驟。在數(shù)據(jù)治理中,原始表表示公安、金融等各領(lǐng)域最初收集的數(shù)據(jù)源中的數(shù)據(jù),如公安行業(yè)統(tǒng)計(jì)的“卡口車(chē)輛信息表”等,目標(biāo)表是指分析原始表數(shù)據(jù)并從中提取的有價(jià)值的信息,比如實(shí)體人信息、車(chē)輛信息等。原始表數(shù)據(jù)一般是雜亂、冗余的,因此原始表數(shù)據(jù)量大,在數(shù)據(jù)治理過(guò)程中提取標(biāo)準(zhǔn)表較難。一般的數(shù)據(jù)治理主要通過(guò)人工方法從原始表提取有價(jià)值的字段組成目標(biāo)表,處理過(guò)程繁瑣;比如要研究“嫌疑人”,就需要手工從原始表抽取“嫌疑人”的相關(guān)信息,要研究“嫌疑車(chē)輛”又需要手工從原始表抽取“嫌疑車(chē)輛”的相關(guān)信息,即每次都要重新從原始表抽取不同的信息,工作效率非常低。
標(biāo)準(zhǔn)化就是簡(jiǎn)化上述過(guò)程的一種方法,它旨在將行業(yè)內(nèi)積累的目標(biāo)表構(gòu)建一個(gè)通用的標(biāo)準(zhǔn)庫(kù),標(biāo)準(zhǔn)庫(kù)保存了領(lǐng)域內(nèi)很多通用的標(biāo)準(zhǔn)表。當(dāng)一個(gè)新項(xiàng)目到來(lái)時(shí),由于同一領(lǐng)域內(nèi)的業(yè)務(wù)邏輯相近,可以大概率的在標(biāo)準(zhǔn)庫(kù)匹配到需要構(gòu)建的目標(biāo)表,可以直接使用匹配到的標(biāo)準(zhǔn)表中已構(gòu)建好的字段來(lái)映射原始表中的相關(guān)字段,從而縮短人工構(gòu)建目標(biāo)表及目標(biāo)表字段的耗時(shí)。
上述標(biāo)準(zhǔn)化過(guò)程主要通過(guò)將多個(gè)項(xiàng)目中配置的標(biāo)準(zhǔn)表進(jìn)行聚合,構(gòu)成一個(gè)容量龐大的標(biāo)準(zhǔn)庫(kù),雖然能覆蓋領(lǐng)域內(nèi)絕大多數(shù)業(yè)務(wù)邏輯,但是會(huì)出現(xiàn)標(biāo)準(zhǔn)表重復(fù)出現(xiàn)的冗余問(wèn)題,導(dǎo)致標(biāo)準(zhǔn)庫(kù)無(wú)節(jié)制地?cái)U(kuò)大,影響對(duì)標(biāo)效率。
發(fā)明內(nèi)容
以下是對(duì)本文詳細(xì)描述的主題的概述。本概述并非是為了限制權(quán)利要求的保護(hù)范圍。
本發(fā)明實(shí)施例提供一種對(duì)標(biāo)處理的方法、裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)及終端,能夠提升對(duì)標(biāo)效率。
本發(fā)明實(shí)施例提供了一種對(duì)標(biāo)處理的方法,
構(gòu)建待對(duì)標(biāo)處理的各目標(biāo)表的第一特征向量;
對(duì)構(gòu)建的第一特征向量進(jìn)行聚類(lèi)運(yùn)算;
根據(jù)聚類(lèi)運(yùn)算結(jié)果,對(duì)屬于同一聚類(lèi)簇的目標(biāo)表進(jìn)行融合,獲得對(duì)應(yīng)于各聚類(lèi)簇的寬表;
根據(jù)原始表與獲得的各寬表的相似度信息,從獲得的所有寬表中選擇其中一個(gè)作為用于對(duì)標(biāo)處理的標(biāo)準(zhǔn)表;
根據(jù)選擇的標(biāo)準(zhǔn)表進(jìn)行原始表的對(duì)標(biāo)處理;
其中,所述對(duì)標(biāo)處理包括:使用選擇的標(biāo)準(zhǔn)表中已構(gòu)建的字段映射原始表中的相關(guān)字段。
可選的,所述構(gòu)建待對(duì)標(biāo)的各目標(biāo)表的第一特征向量包括:
對(duì)所有目標(biāo)表包含的字段均進(jìn)行分詞處理,獲得包含所有分詞的詞典;
根據(jù)獲得的詞典對(duì)各目標(biāo)表進(jìn)行詞頻統(tǒng)計(jì),獲得對(duì)應(yīng)于各目標(biāo)表的詞頻向量;
對(duì)獲得的各詞頻向量分別進(jìn)行預(yù)處理后,構(gòu)建對(duì)應(yīng)于各目標(biāo)表的所述第一特征向量;
其中,所述預(yù)處理包括:歸一化處理。
可選的,所述對(duì)構(gòu)建的第一特征向量進(jìn)行聚類(lèi)運(yùn)算之前,所述方法還包括:
根據(jù)預(yù)設(shè)策略確定所述聚類(lèi)運(yùn)算的聚類(lèi)中心數(shù);
其中,所述聚類(lèi)中心數(shù)與所述目標(biāo)表包含的種類(lèi)數(shù)成正比。
可選的,所述對(duì)屬于同一聚類(lèi)簇的目標(biāo)表進(jìn)行融合包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京明略軟件系統(tǒng)有限公司,未經(jīng)北京明略軟件系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811598897.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 雙桌面遠(yuǎn)程控制系統(tǒng)及方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 雙計(jì)算機(jī)系統(tǒng)
- 制導(dǎo)雷達(dá)計(jì)算機(jī)系統(tǒng)
- 一種服務(wù)部署方法及裝置
- 一種計(jì)算機(jī)集成系統(tǒng)及故障自動(dòng)切換方法
- 一種計(jì)算機(jī)信息安全監(jiān)控系統(tǒng)
- 混合型量子計(jì)算機(jī)架構(gòu)及其執(zhí)行計(jì)算任務(wù)的方法





