[發明專利]分詞過程中進行前綴索引的方法及裝置有效
| 申請號: | 201811622746.0 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109684439B | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 譚峰 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/332;G06F16/36 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;吳歡燕 |
| 地址: | 430000 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 過程 進行 前綴 索引 方法 裝置 | ||
本發明實施例提供一種分詞過程中進行前綴索引的方法及裝置,所述方法包括:基于改進的哈希算法SDBMHash對詞典數據進行拆分并存儲到多個雙數組Trie樹中;利用所述改進的哈希算法SDBMHash對待檢索的詞進行哈希計算,并根據哈希計算的結果確定所述待檢索的詞所在的雙數組Trie樹;在所述待檢索的詞所在的雙數組Trie樹中對所述待檢索的詞進行前綴索引。本發明實施例在支持把詞典拆分多個雙數組Trie樹的應用場景下,還能保證在分詞過程中前綴索引的高效。
技術領域
本發明實施例涉及自然語言處理技術領域,更具體地,涉及一種分詞過程中進行前綴索引的方法及裝置。
背景技術
雙數組Trie樹(DoubleArrayTrie)是一種空間復雜度低的Trie樹,主要應用在信息檢索領域,構建分詞詞典。雙數組Trie樹結合了數組存取的快速和鏈式存儲的壓縮。雙數組Trie樹支持前綴索引,即可以檢索一個詞在樹中是否存在以該詞為前綴的其他詞。
分詞即把一個句子分解成多個詞。應用雙數組Trie樹的場景是把一個句子分解為多個在雙數組Trie樹中存在的詞。在分詞過程中,需要依次對句子中的詞在雙數組Trie樹中進行前綴查詢,判斷該詞是否存在以該詞為前綴的其他詞,來達到分詞的目的。
雙數組Trie樹提高了詞典的檢索效率,但由于雙數組的數據存儲方式,所有詞典數據是一個整體。在實際應用中,詞典往往是非常大的。這會給詞典的加載、持久化、存儲等方面造成效率低、耗時長、管理難等缺陷。為了解決詞典過大問題,可以把詞典數據進行拆分,分布的存儲到多個雙數組Trie樹。但是在分詞過程中進行前綴索引時,需要依次去每個雙數組Trie樹進行檢索該詞,極大的降低了檢索效率。
因此,亟需提供一種方法,在支持把詞典拆分多個雙數組Trie樹的應用場景下,還能保證在分詞中進行高效地前綴索引。
發明內容
本發明實施例提供一種克服上述問題或者至少部分地解決上述問題的分詞過程中進行前綴索引的方法及裝置。
第一方面,本發明實施例提供一種分詞過程中進行前綴索引的方法,包括:
基于改進的哈希算法SDBMHash對詞典數據進行拆分并存儲到多個雙數組Trie樹中;
使用所述改進的哈希算法SDBMHash對待檢索的詞進行哈希計算,并根據哈希計算的結果確定所述待檢索的詞所在的雙數組Trie樹;
在所述待檢索的詞所在的雙數組Trie樹中對所述待檢索的詞進行前綴索引。
第二方面,本發明實施例提供一種分詞過程中進行前綴索引的裝置,包括:
分組模塊,用于基于改進的哈希算法SDBMHash對詞典數據進行拆分并存儲到多個雙數組Trie樹中;
哈希計算模塊,用于使用所述改進的哈希算法SDBMHash對待檢索的詞進行哈希計算,并根據哈希計算的結果確定所述待檢索的詞所在的雙數組Trie樹;
前綴索引模塊,用于在所述待檢索的詞所在的雙數組Trie樹中對所述待檢索的詞進行前綴索引。
第三方面,本發明實施例提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如第一方面所提供的分詞過程中進行前綴索引的方法的步驟。
第四方面,本發明實施例提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如第一方面所提供的分詞過程中進行前綴索引的方法的步驟。
本發明實施例提供的分詞過程中進行前綴索引的方法及裝置,在支持把詞典拆分多個雙數組Trie樹的應用場景下,還能保證在分詞過程中前綴索引的高效。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811622746.0/2.html,轉載請聲明來源鉆瓜專利網。





