[發明專利]中文分詞方法及裝置在審
| 申請號: | 201810463351.4 | 申請日: | 2018-05-15 |
| 公開(公告)號: | CN108763200A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 王江;高翔;紀達麒;陳運文 | 申請(專利權)人: | 達而觀信息科技(上海)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標類別 目標文本信息 中文分詞 查詢操作 數據映射 分類器 預設 查詢結果返回 準確度 技術效果 接收用戶 用戶發送 準確率 分詞 發送 申請 | ||
本申請公開了一種中文分詞方法及裝置。該方法包括:接收用戶發送來的第一目標文本信息;將所述第一目標文本信息通過第一分類器進行數據映射,得到對應的第一目標類別信息;根據所述第一目標類別信息進行預設查詢操作并將查詢結果返回至所述用戶;采用將用戶發送來的第一目標文本信息通過第一分類器進行數據映射的方式,得到對應的第一目標類別信息,達到了根據第一目標類別信息進行預設查詢操作的目的,從而實現了提高分詞準確率的技術效果,進而解決了相關技術中中文分詞準確度低的問題。
技術領域
本申請涉及搜索引擎領域,具體而言,涉及一種中文分詞方法及裝置。
背景技術
搜索引擎是基于一種稱為倒排索引的結構。倒排索引是<key,value>的結構,該結構中的key值,直接影響到整個搜索引擎的準確度、召回率、速度。我們不妨先看看不使用中文分詞,會存在什么情況。
假設不使用中文分詞,可以采用單個漢字索引方式。例如,達觀,先索引 '達'字,然后再索引'觀'字。同樣,對于一篇文章,先把所有的漢字都單獨索引一次,并記錄他們的位置。搜索過程中,也是先找'達'字的所有文檔,再找'觀' 字的所有文檔,然后做交叉'與'運算,即包含這兩個字,而且位置連續的文檔才會做為符合要求的結果。這種方式是最基本的索引方式,現在有些搜索引擎中還在使用。但這樣會存在一個很大的性能問題:中文中常用漢字是3000多個,每次進行查詢時,進行'與'操作的計算量會相當大,對于大數據量搜索引擎來說(超過數億的文檔),每天點擊率查過上億次,這樣的索引結構對硬件和算法無疑是一個極大挑戰。
處于對查找速度的考慮,如果不使用分詞,還有另外一種選擇:n元組合索引方式,二元/三元等。對二元來說,白天鵝,首先索引'白天',然后再索引' 天鵝'。同樣,對于一篇文章,以二元為單位,把所有相鄰的漢字都索引起來,并且記錄他們的位置。搜索過程中,也是首先找包含'白天'的所有文檔,然后再找'天鵝'的所有文檔,最后做交叉'與'運算,即包含這兩個單元,而且位置連續的文檔才會做為符合要求的結果。這樣以兩個字做為索引單元,可以大大減少在搜索過程中的計算量。
發明人發現,以上兩種方式,都是不需要分詞,也可以實現搜索引擎的索引和搜索。但是這里存在一個不可忽視的問題:準確度。一些很常見的例子:拍賣,如果按照上面兩種方式,都會查到包含“乒乓球拍賣完了”的文檔;和尚也會得到“結婚的和尚未結婚的”的文檔。對于大數據量的搜索引擎來說,用戶期望通過輸入關鍵字的方式挑選他真正感興趣的結果,每個搜索次都會有成千上萬個結果被召回,如果這里還要增加許多錯誤,用戶體驗就會比極差。因此中文分詞對于搜索引擎是必要的。
因此,急需一種中文分詞方法及裝置,以解決相關技術中中文分詞準確度低的問題。
發明內容
本申請的主要目的在于提供一種中文分詞方法及裝置,以解決相關技術中中文分詞準確度低的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種中文分詞方法。
根據本申請的中文分詞方法包括:接收用戶發送來的第一目標文本信息;將所述第一目標文本信息通過第一分類器進行數據映射,得到對應的第一目標類別信息,其中,所述第一分類器用于作為將所述第一目標文本信息中的文本數據映射到指定類別的分類模型;根據所述第一目標類別信息進行預設查詢操作并將查詢結果返回至所述用戶。
進一步的,所述將所述第一目標文本信息通過第一分類器進行數據映射,得到對應的第一目標類別信息包括:建立機器學習模型,并根據預設類別訓練語料進行模型訓練,得到第一機器學習模型;通過所述第一機器學習模型對所述第一目標文本信息進行解析,得到所述第一目標類別信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達而觀信息科技(上海)有限公司,未經達而觀信息科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810463351.4/2.html,轉載請聲明來源鉆瓜專利網。





