[發明專利]分詞方法和裝置、用于分詞的裝置有效
| 申請號: | 201611030865.8 | 申請日: | 2016-11-16 |
| 公開(公告)號: | CN108073566B | 公開(公告)日: | 2022-01-18 |
| 發明(設計)人: | 姜里羊;王宇光;陳偉;程善伯 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/242;G06F40/40 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 劉祥景 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 方法 裝置 用于 | ||
1.一種分詞方法,其特征在于,包括:
獲取待分詞文本對應的分詞序列;
從所述分詞序列中獲取未存在于預置詞典中的目標詞匯;所述預置詞典用于存儲詞匯;
依據所述預置詞典對所述目標詞匯進行切分處理,以得到對應的切分結果,包括:從所述預置詞典中獲取所述目標詞匯的拼接所需的最小數量的詞匯,將所述最小數量的詞匯作為所述目標詞匯對應的切分結果;
所述從所述預置詞典中獲取所述目標詞匯的拼接所需的最小數量的詞匯,包括:
獲取所述目標詞匯對應的字符序列集合;
按照所述字符序列集合的子集從小到大的順序,通過遞推方式確定各子集的拼接所需詞匯的最小數量、以及對應的回溯拼接點;F(k)表示所述字符序列集合中的前k個連續字符的拼接所需詞匯的最小數量;對前k個連續字符對應的拼接點t進行遍歷和是否符合預置條件的判斷,F(k)為依據判斷結果和最小的F(t)得到;0≤k≤所述目標詞匯的字符個數M;
依據所述字符序列集合的各子集的拼接所需詞匯的最小數量、以及對應的回溯拼接點,得到所述目標詞匯對應的切分結果。
2.根據權利要求1所述的方法,其特征在于,所述按照所述字符序列集合的子集從小到大的順序,通過遞推方式確定各子集的拼接所需詞匯的最小數量,包括:
對所述前k個連續字符對應的拼接點t進行遍歷,以得到始于所述拼接點t止于第k個連續字符的第一字符序列;其中,0≤tk;
判斷各拼接點t是否符合預置條件,以得到對應的判斷結果;所述預置條件包括:所述拼接點t對應的第一字符序列存在于所述預置詞典中、或者所述拼接點t對應的第一字符序列的組成字符為字母和/或數字,且前t個連續字符能夠成功拼接;
依據所述判斷結果、及所述拼接點t對應的F(t),得到F(k)。
3.根據權利要求1所述的方法,其特征在于,所述依據所述判斷結果、及所述拼接點t對應的F(t),得到F(k)的步驟,包括:
從符合預置條件的所有拼接點t對應的F(t)中獲取最小的F(t),依據所述最小的F(t)得到F(k)。
4.根據權利要求3所述的方法,其特征在于,所述按照所述字符序列集合的子集從小到大的順序,通過遞推方式確定各子集的拼接所需詞匯的最小數量對應的回溯拼接點的步驟,還包括:
將所述最小的F(t)對應的拼接點作為F(k)對應的回溯拼接點進行記錄,以得到相應的記錄內容。
5.根據權利要求4所述的方法,其特征在于,所述依據所述字符序列集合的各子集的拼接所需詞匯的最小數量、以及對應的回溯拼接點,得到所述目標詞匯對應的切分結果的步驟,包括:
對F(k)對應的回溯拼接點進行回溯,以得到所述字符序列集合對應最大子集的拼接所需詞匯的最小數量對應的回溯拼接點;
依據所述字符序列集合對應最大子集的拼接所需詞匯的最小數量對應的回溯拼接點,對所述目標詞匯進行切分,以得到對應的切分結果。
6.根據權利要求5所述的方法,其特征在于,所述對F(k)對應的回溯拼接點進行回溯的步驟,包括:
從所述記錄內容中獲取F(k)對應的第一回溯拼接點P1;
獲取第一回溯拼接點P1對應的F(P1),并從記錄內容中獲取F(P1)對應的第二回溯拼接點P2。
7.根據權利要求1至6中任一所述的方法,其特征在于,通過如下步驟構建所述預置詞典;
對預置語料中詞匯的出現次數進行統計;
依據統計得到的出現次數,從所述預置語料中選取待保存詞匯,并將所述待保存詞匯保存至所述預置詞典中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611030865.8/1.html,轉載請聲明來源鉆瓜專利網。





