[發明專利]一種基于雙數組字典樹進行術語匹配的方法有效
| 申請號: | 201610897567.2 | 申請日: | 2016-10-15 |
| 公開(公告)號: | CN106649286B | 公開(公告)日: | 2019-07-02 |
| 發明(設計)人: | 馮澤康 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27;G06F16/33 |
| 代理公司: | 江蘇法德永衡律師事務所 32305 | 代理人: | 劉林 |
| 地址: | 430073 湖北省武漢市東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙數 字典 進行 術語 匹配 方法 | ||
1.一種基于雙數組字典樹進行術語匹配的方法,其特征是包括用雙數組字典樹建索引的步驟,及基于雙數組字典樹索引進行術語匹配的步驟;
所述用雙數組字典樹建索引的步驟包括:
(1)生成雙數組字典樹的定位根據指定的雙數組字典樹的數目,用哈希算法,對插入術語計算哈希值,然后對雙數組字典樹的數目取模,計算得出雙數組字典樹的位置編號,用以實現雙數組字典樹的定位;
(2)計算內存緩存系統的二級索引的ID
從mongo數據庫里讀出術語,將術語插入雙數組字典樹,返回術語在雙數組字典樹的pos值,將所述雙數組字典樹的位置編號,乘以1000萬,加上所述pos值,再配合程序設定的前綴字串,得出內存緩存系統里的二級索引的ID;
(3)對術語建索引
根據二級索引的ID查詢出插入術語在數據庫里對應的數據記錄的術語庫ID和對象ID,用術語庫ID和對象ID構造鍵值,形成二級索引的ID和鍵值的映射關系,存放于內存緩沖系統;
所述基于雙數組字典樹索引進行術語匹配的步驟包括:
(1)生成雙數組字典樹的定位
(2)分詞
將標點符號濾掉,對于西方語言直接按空格拆分,對于中文系列的語言按單個字拆分,用逆向最大匹配算法結合雙數組字典,分出詞匯,以及詞匯在雙數組字典樹里的位置;
(3)基于索引進行術語匹配
根據二級索引的ID查詢插入術語在數據庫里對應的數據記錄的術語庫ID和對象ID,過濾并查詢出插入術語在數據庫的完整信息。
2.根據權利要求1所述的基于雙數組字典樹進行術語匹配的方法,其特征是所述內存緩存系統是在術語語料所在的數據庫之外。
3.根據權利要求1所述的基于雙數組字典樹進行術語匹配的方法,其特征是所述雙數組字典樹是通過遍歷數據庫獲取字符串數據的源字符串和目標字符串生成的。
4.根據權利要求1所述的基于雙數組字典樹進行術語匹配的方法,其特征是所述內存緩存系統包括一級索引和二級索引;
所述一級索引的生成步驟是:將字符串數據插入雙數組字典樹,返回字符串數據在雙數組字典樹里的位置值,并通過位置值計算得出字符串數據ID,將字符串數據ID放入內存緩存系統里,用于實現字符串數據的一級索引;
所述二級索引的生成步驟是:建立字符串數據ID與字符串數據在數據庫內部已建立索引的數據記錄的關鍵字段的對應關系,用于實現字符串數據的二級索引。
5.根據權利要求4所述的基于雙數組字典樹進行術語匹配的方法,其特征是所述一級索引和二級索引被定時寫入硬盤。
6.根據權利要求4所述的基于雙數組字典樹進行術語匹配的方法,其特征是所述一級索引和二級索引達到數量閾值后被寫入硬盤。
7.根據權利要求4所述的基于雙數組字典樹進行術語匹配的方法,其特征是所述索引為雙向索引。
8.根據權利要求1所述的基于雙數組字典樹進行術語匹配的方法,其特征是所述逆向最大匹配算法,從被處理字符串的末端開始匹配掃描,每次取最末端的2i個字符作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續匹配,匹配是否失敗需要借助分詞字典(如雙數組字典)是否查詢到當前切割出的詞來判斷。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610897567.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:椅子(MK?705)
- 下一篇:椅子(MK?701)





