[發明專利]一種分詞詞典自動擴展的方法和裝置在審
| 申請號: | 201310660234.4 | 申請日: | 2013-12-10 |
| 公開(公告)號: | CN103631938A | 公開(公告)日: | 2014-03-12 |
| 發明(設計)人: | 羅晶;尹巖;嚴敏 | 申請(專利權)人: | 江蘇金智教育信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 江蘇銀創律師事務所 32242 | 代理人: | 孫計良 |
| 地址: | 211100 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分詞 詞典 自動 擴展 方法 裝置 | ||
1.一種分詞詞典自動擴展的方法,其特征在于,該方法包括以下步驟:
S1,獲取詞匯資源文本;
S2,采用分詞器對詞匯資源文本處理后提取未能識別的單詞組成候選詞匯;
S3,統計候選詞匯中每個單詞出現的頻次;
S4,選擇高頻的單詞加入至詞典。
2.如權利要求1所述的分詞詞典自動擴展的方法,其特征在于,該方法應用于搜索裝置,該搜索裝置包括搜索日志數據庫,所述步驟S1包括:
S11,提取搜索日志數據庫中的搜索文本。
3.如權利要求2所述的分詞詞典自動擴展的方法,其特征在于,所述步驟S1還包括:
S12,通過網絡爬蟲從公共網站中抓取網頁。
4.一種分詞詞典自動擴展的裝置,其特征在于,該裝置包括:
獲取詞匯資源文本的裝置;
采用分詞器對詞匯資源文本處理后提取未能識別的單詞組成候選詞匯的裝置;
統計候選詞匯中每個單詞在出現的頻次的裝置;
選擇高頻的單詞加入至詞典的裝置。
5.如權利要求4所述的分詞詞典自動擴展的裝置,其特征在于,所述獲取詞匯資源文本的裝置包括提取搜索裝置的搜索日志數據庫中的搜索文本的裝置。
6.如權利要求5所述的分詞詞典自動擴展的裝置,其特征在于,所述獲取詞匯資源文本的裝置還包括網絡爬蟲裝置;所述的網絡爬蟲裝置用于從公共網站中抓取網頁。
7.一種機器可讀介質,其特征在于,該可讀介質上存儲有指令集,當該指令集被執行時,使得該機器可執行權利要求1或2或3所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇金智教育信息技術有限公司,未經江蘇金智教育信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310660234.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種輸送帶上托輥及底盤的專用清潔工具
- 下一篇:洗蛋機





