[發明專利]指標數據入庫方法、裝置、設備及存儲介質有效
申請號: | 202111022190.3 | 申請日: | 2021-09-01 |
公開(公告)號: | CN113722460B | 公開(公告)日: | 2023-10-24 |
發明(設計)人: | 李勇 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F16/951;G06F40/289;G06Q10/0639 |
代理公司: | 北京市京大律師事務所 11321 | 代理人: | 姚維 |
地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 指標 數據 入庫 方法 裝置 設備 存儲 介質 | ||
1.一種指標數據入庫方法,其特征在于,所述指標數據入庫方法包括:
獲取預設的自定義詞庫,其中,所述自定義詞庫包含指標關鍵詞;
對所述自定義詞庫中的所有指標關鍵詞進行聚類,得到所有指標關鍵詞對應的N個指標類別,以及所述指標類別對應的聚類中心,其中,N為不小于1的整數;
將所述聚類中心作為指標名,并根據所述指標關鍵詞與對應的指標名構建映射關系表;
獲取目標文本,并將所述目標文本進行分詞和數據預處理,得到對應的文本分詞組,其中,所述文本分詞組包括名詞分詞和數詞分詞;
通過所述映射關系表,確定所述文本分詞組中的名詞分詞對應的指標名,并將對應的數詞分詞作為指標值;
將所述目標文本對應的指標名和指標值作為指標數據錄入預設的指標數據庫中。
2.根據權利要求1所述的指標數據入庫方法,其特征在于,所述對所述自定義詞庫中的所有指標關鍵詞進行聚類,得到所有指標關鍵詞對應的N個指標類別,以及所述指標類別對應的聚類中心包括:
設定聚類中心集,其中,所述聚類中心集為空;
將所述自定義詞庫中的第一個指標關鍵詞作為聚類中心加入所述聚類中心集中;
計算第二個指標關鍵詞與所述聚類中心集中每個聚類中心之間的相似度,并判斷最小的相似度是否小于預設閾值;
若是,則將所述第二個指標關鍵詞與最小的相似度對應的聚類中心作為同一指標類別;
若否,則將所述第二個指標關鍵詞作為新的聚類中心加入所述聚類中心集中;
循環上述過程,直至所有指標關鍵詞完成聚類,得到所有指標關鍵詞對應的N個指標類別,以及所述指標類別對應的聚類中心。
3.根據權利要求2所述的指標數據入庫方法,其特征在于,所述計算第二個指標關鍵詞與所述聚類中心集中每個聚類中心之間的相似度包括:
獲取音碼映射規則和形碼映射規則;
通過所述音碼映射規則對所有指標關鍵詞進行轉換,得到對應的音碼,并通過所述形碼映射規則對所有指標關鍵詞進行轉換,得到對應的形碼;
將所述指標關鍵詞對應的音碼和對應的形碼進行拼接,得到對應的指標音形碼;
根據所述指標音形碼,計算所述第二個指標關鍵詞與所述聚類中心集中每個聚類中心之間的編輯距離,并根據所述編輯距離計算所述第二個指標關鍵詞與所述聚類中心集中每個聚類中心的相似度。
4.根據權利要求3所述的指標數據入庫方法,其特征在于,所述計算所述第二個指標關鍵詞與所述聚類中心集中每個聚類中心之間的編輯距離,并根據所述編輯距離計算所述第二個指標關鍵詞與所述聚類中心集中每個聚類中心的相似度包括:
計算所述第二個指標關鍵詞與所述聚類中心集中所有聚類中心之間的編輯距離;
根據所述編輯距離構造對應的編輯距離矩陣;
將所述編輯距離矩陣中最右下角的值作為對應的最短編輯距離;
根據預設的相似度公式和所述最短編輯距離計算所述編輯距離計算所述第二個指標關鍵詞與對應的聚類中心的相似度。
5.根據權利要求1所述的指標數據入庫方法,其特征在于,所述對所述自定義詞庫中的所有指標關鍵詞進行聚類,得到所有指標關鍵詞對應的N個指標類別,以及所述指標類別對應的聚類中心還包括:
將所述指標關鍵詞轉換成對應的詞向量,并設定聚類個數N個;
在所述自定義詞庫中隨機選擇N個指標關鍵詞作為初始聚類中心;
分別計算所述自定義詞庫中的指標關鍵詞到每一個初始聚類中心的余弦距離;
將與初始聚類中心的余弦距離在預設的誤差范圍內的指標關鍵詞劃分為同一指標類別;
計算所述指標類別中詞向量的均值向量,并就所述均值向量重新選擇當前聚類中心,以及計算所述當前聚類中心與對應的初始聚類中心的余弦距離;
若所述當前聚類中心與對應的初始聚類中心的余弦距離小于或等于預設閾值,則得到所有指標關鍵詞對應的N個指標類別,以及所述指標類別對應的聚類中心;
若所述當前聚類中心與對應的初始聚類中心的余弦距離大于預設閾值,則以當前聚類中心進行重新聚類,直到當前聚類中心與上一聚類中心的余弦距離小于或等于預設閾值,得到所有指標關鍵詞對應的N個指標類別,以及所述指標類別對應的聚類中心。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111022190.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置