[發明專利]一種基于分布式數據庫的全文搜索引擎有效
| 申請號: | 201710395591.0 | 申請日: | 2017-05-31 |
| 公開(公告)號: | CN107229714B | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 江和慧;黃顯洛 | 申請(專利權)人: | 杭州宇為科技有限公司 |
| 主分類號: | G06F16/93 | 分類號: | G06F16/93;G06F16/27 |
| 代理公司: | 33206 浙江翔隆專利事務所(普通合伙) | 代理人: | 郭關夫 |
| 地址: | 310026 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式數據庫 單詞 分表 文檔表 語料庫 文檔 字段 全文搜索引擎 緩存 均衡 分布式功能 索引和搜索 存儲介質 計算功能 擴展能力 搜索效率 查詢 分詞 索引 排序 搜索 返回 | ||
1.一種基于分布式數據庫的全文搜索引擎,其特征在于,包括索引和搜索,其中:索引包括下載文檔、分析文檔、以及將文檔和文檔經過分詞后得到的單詞存入分布式數據庫;
搜索是根據用戶的輸入,查詢分布式數據庫,返回包含用戶輸入的、按照得分進行排序的結果文檔;
文檔id、文檔地址、文檔內容存入分布式數據庫中對應節點的文檔表中;
對文檔進行分詞和分析,得到單詞id、單詞、單詞所在的文檔id以及單詞的頻率存入到分布式數據庫中對應節點的單詞表中;
文檔id以及單詞id是通過將文檔地址的hash值以及文檔分詞后的每個單詞的hash值轉換為整數得到,然后對文檔id、單詞id分別對分布式數據庫內的節點數取余數,得到文檔對應的節點id以及單詞對應的節點id;
搜索的基本步驟如下:對用戶的輸入進行分詞,得到單詞和單詞之間的邏輯關系,針對每個單詞到對應節點的單詞表中搜索;
根據單詞表的文檔id和單詞邏輯關系計算結果文檔id的集合,并且根據文檔id提取文檔內容;同時相同文檔id內所有單詞的頻率逆文檔頻率之和構成文檔的得分,文檔按照得分從高到低排名;
其中:單詞的頻率逆文檔頻率為單詞的頻率和語料庫中單詞的逆文檔頻率相乘結果;
單詞之間的邏輯關系是指與、或、非、及三種邏輯運算的任意組合。
2.根據權利要求1中所述的一種基于分布式數據庫的全文搜索引擎,其特征在于,文檔存儲在分布式數據庫相關節點的文檔表中,單詞存儲在分布式數據庫相關節點的單詞表中,單詞的逆文檔頻率存儲在分布式數據庫相關節點的語料庫表中,其中:文檔與單詞的關系是:一份文檔是由若干個單詞組成,將一份文檔進行分詞即可得到若干個單詞;其中:所謂分詞是指將由若干個單詞組成的一份文檔分為這若干個單詞。
3.根據權利要求1中所述的一種基于分布式數據庫的全文搜索引擎,其特征在于,分布式數據庫中節點的文檔表基本屬性包括文檔id、文檔地址、文檔內容等,文檔表的均衡字段采用文檔id;
分布式數據庫中節點的單詞表基本屬性包括單詞id、單詞、單詞所在的文檔id、單詞的頻率,單詞表的均衡字段采用單詞id;
分布式數據庫中節點的語料庫表基本屬性包括單詞id、單詞、單詞的逆文檔頻率,語料庫表的均衡字段采用單詞id。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州宇為科技有限公司,未經杭州宇為科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710395591.0/1.html,轉載請聲明來源鉆瓜專利網。





