[發明專利]數據字典生成方法、數據查詢方法、裝置、設備及介質有效
| 申請號: | 202010589195.3 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111737977B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 劉東煜;陳樂清;曾增烽;李炫 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/242;G06F16/901;G06F16/903 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 譚果林 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 字典 生成 方法 查詢 裝置 設備 介質 | ||
1.一種數據字典生成方法,其特征在于,包括:
獲取第一待存儲數據,所述第一待存儲數據包括第一拼音節點和第二拼音節點;
基于所述第一拼音節點和所述第二拼音節點,在預設的第一數據字典中進行查詢,確定第一索引序列和第二索引序列,其中,第一拼音節點指通過1gram對第一待存儲數據進行句子劃分之后得到的第一個拼音數據;第二拼音節點指通過所述1gram對第一待存儲數據進行句子劃分之后得到的第二個拼音數據;所述第一索引序列為所述第一拼音節點在所述第一數據字典中匹配到的1gram拼音節點所對應的索引序列,所述第二索引序列為所述第二拼音節點在所述第一數據字典中匹配到的1gram拼音節點所對應的索引序列;
采用CSR方法對所述第一索引序列和所述第二索引序列進行處理,得到候選索引組;所述采用CSR方法對所述第一索引序列和所述第二索引序列進行處理,得到候選索引組,包括:將第一索引序列作為矩陣的行,將第二索引序列作為矩陣的列;通過CSR方法中的行向量與列向量,確定矩陣中第一索引序列所對應行的列索引數組,再將第一索引序列所對應行的列索引數組與第二索引序列做交集處理,得到候選索引組;
在預設的第二數據字典中查詢每一所述候選索引組的候選頻率值,從所述候選索引組中篩選出所述候選頻率值符合預設要求的目標索引組;
將所述待存儲數據和所述目標索引組進行映射存儲,生成第三數據字典。
2.如權利要求1所述的數據字典生成方法,其特征在于,在基于所述第一拼音節點和所述第二拼音節點,在預設的第一數據字典中進行查詢之前,所述數據字典生成方法還包括:
獲取第二待存儲數據,所述第二待存儲數據包括N個第三拼音節點和每一所述第三拼音節點對應的M個字符串;
采用雙數組字典樹算法對每一所述第三拼音節點的每一所述字符串進行處理,確定每一所述第三拼音節點對應的索引值集;
將每一所述第三拼音節點對應的所述索引值集寫入預設的第一索引數組中,得到第一目標索引數組;
從所述第一目標索引數組中確定每一所述第三拼音節點的起始索引位置;
采用雙數組字典樹算法對每一所述第三拼音節點進行處理,得到每一所述第三拼音節點的節點標識;
將每一所述第三拼音節點的所述節點標識與對應的所述起始索引位置進行映射存儲,生成偏移數組集;
將所述第一目標索引數組和所述偏移數組集進行組合,生成第一數據字典。
3.如權利要求1所述的數據字典生成方法,其特征在于,所述在預設的第二數據字典中查詢每一所述候選索引組的候選頻率值之前,所述數據字典生成方法還包括:
獲取第三待存儲數據,所述第三待存儲數據包括第四拼音字節、第五拼音字節和目標頻率值;
采用雙數組字典樹算法對所述第四拼音字節和所述第五拼音字節進行處理,得到第四索引值和第五索引值,其中,所述第四索引值為所述第四拼音字節的索引值,所述第五索引值為所述第五拼音字節的索引值;
采用CSR方法將所述第四索引值、所述第五索引值和所述目標頻率值進行映射存儲,生成所述第二數據字典;其中,采用CSR方法將所述第四索引值、所述第五索引值和所述目標頻率值進行映射存儲,生成所述第二數據字典包括:預設一個二維矩陣,將第四索引值作為該二維矩陣的行,將第五索引值作為該二維矩陣的列,目標頻率值作為該二維矩陣中的元素值,采用CSR方法對該二維矩陣進行稀疏矩陣存儲處理,生成第二數據字典。
4.如權利要求1所述的數據字典生成方法,其特征在于,所述數據字典生成方法還包括:
獲取第四待存儲數據,所述第四待存儲數據包括L個樣本字符串和每一所述樣本字符串對應的樣本頻率值;
采用雙數組字典樹算法對每一所述樣本字符串進行處理,得到每一所述樣本字符串的第六索引值;
將每一所述樣本字符串和對應的所述第六索引值寫入預設數組中,得到存儲數組;
將每一所述第六索引值與對應的所述樣本頻率值進行映射存儲,生成第四數據字典。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010589195.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





