[發明專利]一種用于關鍵詞搜索的多節點分詞系統及方法在審
| 申請號: | 202010414135.8 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111708935A | 公開(公告)日: | 2020-09-25 |
| 發明(設計)人: | 商良磊 | 申請(專利權)人: | 深圳市世強元件網絡有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 深圳市瑞方達知識產權事務所(普通合伙) 44314 | 代理人: | 郭方偉 |
| 地址: | 518000 廣東省深圳市龍崗區坂田街道雪崗路*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 關鍵詞 搜索 節點 分詞 系統 方法 | ||
本發明涉及一種用于關鍵詞搜索的多節點分詞系統及方法。該系統中詞元分發代理服務器分別通信連接每個分詞節點服務器,詞元分發代理服務器接收大量詞元,按照預設分詞規則將每個詞元分發至對應的分詞節點服務器;客戶端代理服務器分別通信連接每個分詞節點服務器,客戶端代理服務器接收用戶終端上傳的待搜索詞,按照預設分詞規則將待搜索詞分發至對應的分詞節點服務器;分詞節點服務器查詢出與待搜索詞匹配的詞元,并將查詢所得詞元返回至客戶端代理服務器;客戶端代理服務器將查詢所得詞元下發至對應的用戶終端。本發明使用多個分詞節點服務器來分散數據量,且通過設置詞匯分發算對待搜索詞進行分發,實現大平臺大詞匯量下的高效低成本檢索。
技術領域
本發明涉及搜索引擎搜索詞推薦領域,更具體地說,涉及一種用于關鍵詞搜索的多節點分詞系統及方法。
背景技術
參考圖1,為現有技術中分詞器的系統結構示意圖,現有搜索引擎分詞器使用單機內存式存儲,自帶字典有42萬組詞匯。在某一領域具體使用時會根據需要添加第三方詞匯,達到補充語義的效果。這種方法只能解決50萬左右的詞匯量需求,若詞匯達到百萬級別和千萬級別時,就需要進行大規模內存擴容,費用會直線上升,成本特別高。例如電子元器件行業,對品類的劃分極其細致,并且規格編碼的詞元量也很大,很容易就會達到百萬乃至千萬級量級,現有分詞器不能滿足要求。另外,編程語言對軟件的內存有上限要求,如Java虛擬機內存達到一定的大小GB級別時,會引起不可預知的內存泄漏,導致不可用甚至帶來系統崩潰的災難。
發明內容
本發明要解決的技術問題在于,針對現有技術的上述缺陷,提供一種用于關鍵詞搜索的多節點分詞系統及方法。
本發明解決其技術問題所采用的技術方案是:構造一種用于關鍵詞搜索的多節點分詞系統,包括詞元分發代理服務器、客戶端代理服務器和至少兩個分詞節點服務器;
所述詞元分發代理服務器分別通信連接每個所述分詞節點服務器,所述詞元分發代理服務器接收大量詞元,按照預設分詞規則將每個所述詞元分發至對應的所述分詞節點服務器;
所述客戶端代理服務器分別通信連接每個所述分詞節點服務器,所述客戶端代理服務器接收用戶終端上傳的待搜索詞,按照所述預設分詞規則將所述待搜索詞分發至對應的分詞節點服務器;所述分詞節點服務器查詢出與所述待搜索詞匹配的詞元,并將查詢所得詞元返回至所述客戶端代理服務器;所述客戶端代理服務器將查詢所得詞元下發至對應的所述用戶終端。
進一步,在本發明所述的用于關鍵詞搜索的多節點分詞系統中,所述預設分詞規則為詞元屬性信息,每個所述分詞節點服務器設置對應的詞元屬性信息;
所述客戶端代理服務器根據每個詞元的詞元屬性信息將詞元分發至對應的所述分詞節點服務器,所述客戶端代理服務器根據所述待搜索詞的詞元屬性信息將所述待搜索詞分發至對應的所述分詞節點服務器。
進一步,在本發明所述的用于關鍵詞搜索的多節點分詞系統中,所述詞元屬性信息為詞元對應漢語拼音的首字母;或
所述詞元屬性信息為詞元對應語言拼寫的首字母。
進一步,在本發明所述的用于關鍵詞搜索的多節點分詞系統中,多個所述分詞節點服務器為多個獨立的實體服務器;或
多個所述分詞節點服務器為多個獨立的虛擬服務器;或
多個所述分詞節點服務器為多個獨立的實體服務器和多個獨立的虛擬服務器的混合。
進一步,在本發明所述的用于關鍵詞搜索的多節點分詞系統中,所述詞元分發代理服務器接收的大量詞元為電子元器件相關詞匯。
進一步,本發明所述的用于關鍵詞搜索的多節點分詞系統還包括備用分詞節點服務器,在某一所述分詞節點服務器損壞時自動啟動與其對應的備用分詞節點服務器。
另外,本發明還提供一種用于關鍵詞搜索的多節點分詞方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市世強元件網絡有限公司,未經深圳市世強元件網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010414135.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于貝葉斯模型的多真值沖突消解方法
- 下一篇:一種整體式鉆模結構





