[發明專利]一種數據整理的方法、裝置、計算機存儲介質及終端在審
| 申請號: | 201811634064.1 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109783483A | 公開(公告)日: | 2019-05-21 |
| 發明(設計)人: | 張毅然;于陽 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王康;栗若木 |
| 地址: | 102218 北京市昌平區東小*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 原始表 標準表 映射庫 計算機存儲介質 數據整理 預設 終端 運算量 存儲 查詢 中文 | ||
1.一種數據整理的方法,其特征在于,包括:
確定預設的映射庫中是否包含與需對標的原始表對應的標準表;
預設的映射庫中未包含與需對標的原始表對應的標準表時,根據中文表名確定對應于需對標的原始表的標準表;
其中,所述映射庫中存儲有:在前確定的原始表及對應于原始表的標準表。
2.根據權利要求1所述的方法,其特征在于,所述確定預設的映射庫中是否包含與需對標的原始表對應的標準表包括:
查詢所述映射庫中是否包含第一中文表名與需對標的原始表相同的已存儲的原始表;
所述映射庫中包含第一中文表名均與需對標的原始表相同的已存儲的原始表時,將已存儲的第一中文表名與需對標的原始表相同的已存儲的原始表所對應的標準表,作為需對標的原始表所對應的標準表。
3.根據權利要求1所述的方法,其特征在于,所述根據中文表名確定對應于需對標的原始表的標準表包括:
獲取需對標的原始表的第一中文表名的第一特征向量;
獲取各種類標準表的第二中文表名的第二特征向量;
計算獲取的第一特征向量與各第二特征向量的相似度分值;
根據計算得到的相似度分值確定與需對標的原始表對應的標準表。
4.根據權利要求3所述的方法,其特征在于,所述獲取各種類標準表的第二中文表名的第二特征向量包括:將標準表按照預設的分類策略進行分類后,對各分類中的標準表分別通過以下處理獲得對應的第二特征向量:
對當前分類的標準表的第二中文表名進行分詞處理,獲得當前分類標準表的第二中文表名的關鍵詞;
對分詞獲得的第二中文表名的關鍵詞分別進行預處理后,構建當前分類標準表的關鍵詞詞庫;
對當前分類標準表中的各標準表,分別通過詞頻統計方式確定相應的第二特征向量;
其中,所述預處理包括:去除重復詞和/或停用詞的處理。
5.根據權利要求4所述的方法,其特征在于,所述根據計算得到的相似度分值確定與需對標的原始表對應的標準表包括:
按照預設策略從相似度分值大于預設的相似度閾值的標準表中確定其中一個標準表,作為與需對標的原始表對應的標準表。
6.根據權利要求1~5任一項所述的方法,其特征在于,所述根據中文表名確定與需對標的原始表對應的標準表后,所述方法還包括:
在所述映射庫中添加確定的與所述需對標的原始表對應的標準表的映射信息。
7.一種數據整理的裝置,其特征在于,包括:判斷單元和確定單元;其中,
判斷單元用于:確定預設的映射庫中是否包含與需對標的原始表對應的標準表;
確定單元用于:預設的映射庫中未包含與需對標的原始表對應的標準表時,根據中文表名確定對應于需對標的原始表的標準表;
其中,所述映射庫中存儲有:在前確定的原始表及對應于原始表的標準表。
8.根據權利要求7所述的裝置,其特征在于,所述判斷單元用于:
查詢所述映射庫中是否包含第一中文表名與需對標的原始表相同的已存儲的原始表;
所述映射庫中包含第一中文表名與需對標的原始表相同的已存儲的原始表時,將已存儲的第一中文表名與需對標的原始表相同的已存儲的原始表所對應的標準表,作為需對標的原始表所對應的標準表。
9.根據權利要求7所述的裝置,其特征在于,所述確定單元具體用于:
獲取需對標的原始表的第一中文表名的第一特征向量;
獲取各種類標準表的第二中文表名的第二特征向量;
計算獲取的第一特征向量與各第二特征向量的相似度分值;
根據計算得到的相似度分值確定與需對標的原始表對應的標準表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811634064.1/1.html,轉載請聲明來源鉆瓜專利網。





