[發明專利]一種分詞方法、裝置、終端及計算機可讀存儲介質有效
| 申請號: | 201811619990.1 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109800427B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 許晏銘 | 申請(專利權)人: | 北京金山安全軟件有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/31 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 李欣;馬敬 |
| 地址: | 100123 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分詞 方法 裝置 終端 計算機 可讀 存儲 介質 | ||
1.一種分詞方法,其特征在于,所述方法包括:
根據用戶輸入的文本信息,確定待分詞的文本信息;
根據預設匹配算法、預先構建的分詞模型中的一元詞庫和所述一元詞庫所對應的詞索引表對所述文本信息進行分詞;其中,所述一元詞庫中的詞是按照每個詞所包含的字符數量進行排序的,所述一元詞庫中相同字符數量的詞被聚集在一起;所述詞索引表用于:索引每種字符數量的詞在所述一元詞庫中的位置;所述分詞模型包括:N元組模型;
得到所述文本信息的分詞結果;
根據所述文本信息的分詞結果和所述詞索引表,從所述N元組模型中查找N元關系,得到所述文本信息的分詞結果所對應的多個預測詞;
按照各個預測詞出現的概率從大到小的順序,展示預設個數個所述預測詞。
2.根據權利要求1所述的方法,其特征在于,所述確定待分詞的文本信息的步驟,包括:
檢測輸入框中的信息是否發生更新;
當輸入框中的信息發生更新時,獲得所述輸入框中的信息作為目標信息;
按照從右到左的選取方式,選取所述目標信息中預設數量的字符序列,得到待分詞的文本信息。
3.根據權利要求1所述的方法,其特征在于,所述預設匹配算法包括:逆向最長匹配算法。
4.根據權利要求1所述的方法,其特征在于,在所述根據預設匹配算法、預先構建的分詞模型中的一元詞庫和所述一元詞庫所對應的詞索引表對所述文本信息進行分詞的步驟之前,還包括:
獲取原始語料和分詞詞庫;
利用所述分詞詞庫對所述原始語料進行分詞,得到所述原始語料的分詞結果;
根據所述原始語料的分詞結果,對所述分詞詞庫中各個詞的詞頻進行統計;
根據所述原始語料的分詞結果和所統計得到的詞頻,訓練得到分詞模型;其中,所述分詞模型中包括一元詞庫,所述一元詞庫中記錄有所述各個詞;
按照詞所包含的字符數量,對所述一元詞庫中的所述各個詞進行排序。
5.根據權利要求4所述的方法,其特征在于,所述詞索引表包括第一子索引表和第二子索引表;
在所述按照詞所包含的字符數量,對所述一元詞庫中的各個詞進行排序的步驟之后,還包括:
構建用于記錄所述一元詞庫中每種字符數量的詞的起始位置信息的第一子索引表;
構建用于記錄所述每種字符數量的詞所占的存儲空間大小的第二子索引表。
6.根據權利要求1所述的方法,其特征在于,所述按照各個預測詞出現的概率從大到小的順序,展示預設個數個所述預測詞的步驟,包括:
確定用戶所輸入的拼音字符串;
確定各個預測詞中滿足所述拼音字符串的拼寫規則的預測詞,作為目標預測詞;
按照各個目標預測詞出現的概率從大到小的順序,在輸入法的推薦詞顯示界面顯示所述各個目標預測詞。
7.一種分詞裝置,其特征在于,所述裝置包括:
第一確定模塊,用于根據用戶輸入的文本信息,確定待分詞的文本信息;
第一分詞模塊,用于根據預設匹配算法、預先構建的分詞模型中的一元詞庫和所述一元詞庫所對應的詞索引表對所述文本信息進行分詞;其中,所述一元詞庫中的詞是按照每個詞所包含的字符數量進行排序的,所述一元詞庫中相同字符數量的詞被聚集在一起;所述詞索引表用于:索引每種字符數量的詞在所述一元詞庫中的位置;所述分詞模型包括:N元組模型;
獲得模塊,用于得到所述文本信息的分詞結果;
查找模塊,用于在得到所述文本信息的分詞結果之后,根據所述文本信息的分詞結果和所述詞索引表,從所述N元組模型中查找N元關系,得到所述文本信息的分詞結果所對應的多個預測詞;
顯示模塊,用于按照各個預測詞出現的概率從大到小的順序,展示預設個數個所述預測詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山安全軟件有限公司,未經北京金山安全軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811619990.1/1.html,轉載請聲明來源鉆瓜專利網。





