[發明專利]詞庫生成方法和裝置在審
| 申請號: | 201710668364.0 | 申請日: | 2017-08-08 |
| 公開(公告)號: | CN109388689A | 公開(公告)日: | 2019-02-26 |
| 發明(設計)人: | 路緒海;楊迪;馬怡安;龔靖;任華;王錚;黃挺 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/9535;G06F17/27 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 曹蓓 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞庫 語料 更新 文本 方法和裝置 人工智能技術 詞匯更新 詞頻統計 循環執行 預定策略 時效性 輸入法 分詞 詞匯 申請 | ||
1.一種詞庫生成方法,其特征在于,包括:
步驟i):根據開源詞庫確定基本詞匯庫;
步驟ii):根據所述基本詞匯庫,基于詞頻統計的分詞方法處理部分語料文本,獲取更新詞匯;
步驟iii):以預定策略利用所述更新詞匯更新所述基本詞匯庫;
循環執行步驟ii)、iii),直至完成全部語料文本的處理;
根據更新后的所述基本詞匯庫建立詞庫。
2.根據權利要求1所述的方法,其特征在于,
所述以預定策略利用所述更新詞匯更新所述基本詞匯庫包括:每完成一篇文本的處理后,利用處理該文本產生的更新詞匯更新所述基本詞匯庫;
和/或,
所述語料文本為利用網頁爬蟲獲取的互聯網網頁文本。
3.根據權利要求1所述的方法,其特征在于,還包括:
生成所述基本詞匯庫中詞匯的詞向量。
4.根據權利要求3所述的方法,其特征在于,還包括:
基于迭代算法優化所述詞向量以使所述詞向量體現詞匯的相互關系。
5.根據權利要求3或4所述的方法,其特征在于,所述根據更新后的所述基本詞匯庫建立詞庫包括:
將所述基本詞匯庫中的各個更新詞匯出現的頻率和/或次數與預定閾值相比較,若所述頻率和/或次數低于閾值,則刪除該更新詞匯及該更新詞匯的詞向量;
生成詞庫,所述詞庫中包括基本詞匯庫中的詞匯和所述詞匯的詞向量。
6.一種詞庫生成裝置,其特征在于,包括:
基本詞匯庫確定單元,用于根據開源詞庫確定基本詞匯庫;
更新詞匯獲取單元,用于根據所述基本詞匯庫,基于詞頻統計的分詞方法處理部分語料文本,獲取更新詞匯;
基本詞匯庫更新單元,用于以預定策略利用所述更新詞匯更新所述基本詞匯庫,繼而調用所述更新詞匯獲取單元,直至完成全部語料文本的處理;
詞庫建立單元,用于根據更新后的所述基本詞匯庫建立詞庫。
7.根據權利要求6所述的裝置,其特征在于,
所述基本詞匯庫更新單元用于在每完成一篇文本的處理后,利用處理該文本產生的更新詞匯更新所述基本詞匯庫;
和/或,
還包括:語料文本獲取單元,用于利用網頁爬蟲獲取互聯網網頁文本作為所述語料文本。
8.根據權利要求6所述的裝置,其特征在于,還包括:
詞向量生成單元,用于生成所述基本詞匯庫中詞匯的詞向量。
9.根據權利要求8所述的裝置,其特征在于,還包括:
詞向量優化單元,用于基于迭代算法優化所述詞向量以使所述詞向量體現詞匯的相互關系。
10.根據權利要求8或9所述的裝置,其特征在于,所述詞庫建立單元用于:
將所述基本詞匯庫中的各個更新詞匯出現的頻率和/或次數與預定閾值相比較,若所述頻率和/或次數低于閾值,則刪除該更新詞匯及該更新詞匯的詞向量;
生成詞庫,所述詞庫中包括基本詞匯庫中的詞匯和所述詞匯的詞向量。
11.一種詞庫生成裝置,包括:
存儲器;以及
耦接至所述存儲器的處理器,所述處理器被配置為基于存儲在所述存儲器的指令執行如權利要求1至5任一項所述的方法。
12.一種計算機可讀存儲介質,其上存儲有計算機程序指令,該指令被處理器執行時實現權利要求1至5任意一項所述的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710668364.0/1.html,轉載請聲明來源鉆瓜專利網。





