[發明專利]一種詞庫生成方法及裝置在審
| 申請號: | 201611229448.6 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106776573A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 郭紅艷;李博;張淑燕 | 申請(專利權)人: | 努比亞技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司11270 | 代理人: | 張穎玲,李梅香 |
| 地址: | 518000 廣東省深圳市南山區高新區北環大道9018*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 詞庫 生成 方法 裝置 | ||
1.一種詞庫生成方法,其特征在于,包括:
當預設時間段到達時,獲取至少一個待分詞文檔;
按照第一預設劃分策略,將所述至少一個待分詞文檔劃分成至少一個第一字符串集合,其中,一個待分詞文檔對應一個第一字符串集合;
根據預設內聚模型和預設比較策略,確定與所述至少一個第一字符串集合中每個第一字符串集合對應的第一詞語集合,得到至少一個第一詞語集合;
根據所述至少一個第一詞語集合,確定第一詞庫。
2.根據權利要求1所述的方法,其特征在于,根據所述預設內聚模型和所述預設比較策略,確定與一個第一字符串集合對應的所述第一詞語集合的方法包括:
根據所述預設內聚模型,計算第一字符串的第一內聚度,所述第一字符串為所述一個第一字符串集合中的任意一個字符串;
根據所述第一內聚度和所述預設比較策略,判斷所述第一字符串中是否存在第一詞語;
當判斷出所述第一字符串中存在所述第一詞語時,將所述第一字符串存儲至第一詞語集合中,直至判斷完所述一個第一字符串集合中的所有字符串,得到所述第一詞語集合。
3.根據權利要求2所述的方法,其特征在于,所述計算第一字符串的第一內聚度,包括:
統計所述一個第一字符串集合的第一數量和所述第一字符串在第一待分詞文檔中出現的第二數量,所述第一待分詞文檔為所述至少一個待分詞文檔中所述一個第一字符串集合對應的待分詞文檔;
按照所述預設內聚模型將所述第一字符串劃分成左部分和右部分;
在所述第一待分詞文檔中分別統計所述左部分的第三數量和所述右部分的第四數量;
根據所述第一數量、所述第二數量、所述第三數量和所述第四數量計算所述第一內聚度。
4.根據權利要求2或3所述的方法,其特征在于,所述根據所述第一內聚度和所述預設比較策略,判斷所述第一字符串中是否存在第一詞語,包括:
獲取預設內聚度閾值;
將所述第一內聚度與所述預設內聚度閾值進行比較;
當所述第一內聚度大于所述預設內聚度閾值時,判斷所述第一字符串中存在所述第一詞語;
當所述第一內聚度小于所述預設內聚度閾值時,判斷所述第一字符串中不存在所述第一詞語。
5.根據權利要求4所述的方法,其特征在于,所述獲取預設內聚度閾值,包括:
選取N個無歧義基本詞;
在所述至少一個待分詞文檔中計算所述N個無歧義基本詞分別對應的第三內聚度集合;
將所述第三內聚度集合劃分成至少一個區域,在所述至少一個區域中確定第四數量最多的第一區域,所述第四數量為所述第三內聚度集合中所述第一區域內的第三內聚度的個數;
根據所述第四數量和所述第三內聚度計算所述第一區域中的內聚度平均值,并將所述內聚度平均值確定為所述預設內聚度閾值。
6.根據權利要求1所述的方法,其特征在于,所述根據所述至少一個第一詞語集合,確定第一詞庫,包括:
根據所述至少一個第一詞語集合確定第一詞語庫;
判斷是否存在第二詞庫,所述第二詞庫為已經存在的詞庫;
當存在所述第二詞庫時,將所述第一詞語庫中的第二詞語與所述第二詞庫的第三詞語進行匹配;
當所述第二詞語與所述第三詞語匹配失敗時,將所述第二詞語添加至所述第二詞庫中;
當不存在所述第二詞庫時,將所述第一詞語庫確定為所述第一詞庫。
7.一種詞庫生成裝置,其特征在于,所述裝置包括:
獲取單元,用于當預設時間段到達時,獲取至少一個待分詞文檔;
劃分單元,用于按照第一預設劃分策略,將所述至少一個待分詞文檔劃分成至少一個第一字符串集合,其中,一個待分詞文檔對應一個第一字符串集合;
確定單元,用于根據預設內聚模型和預設比較策略,確定與所述至少一個第一字符串集合中每個第一字符串集合對應的第一詞語集合,得到至少一個第一詞語集合;根據所述至少一個第一詞語集合,確定第一詞庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于努比亞技術有限公司,未經努比亞技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611229448.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種人稱識別方法
- 下一篇:用戶評論文本挖掘方法及裝置





