[發(fā)明專利]一種中文代詞消解模型建立方法及裝置在審
| 申請?zhí)枺?/td> | 201610711459.1 | 申請日: | 2016-08-23 |
| 公開(公告)號: | CN107766320A | 公開(公告)日: | 2018-03-06 |
| 發(fā)明(設計)人: | 溫海嬌;陳虹;牛國揚;許慢 | 申請(專利權(quán))人: | 中興通訊股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 深圳鼎合誠知識產(chǎn)權(quán)代理有限公司44281 | 代理人: | 江婷,李發(fā)兵 |
| 地址: | 518057 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 代詞 消解 模型 建立 方法 裝置 | ||
1.一種中文代詞消解模型建立方法,其特征在于,包括:
將語料樣本文件經(jīng)過預處理得到訓練樣本文件;
將所述訓練樣本文件,按照預先設置的模型進行編碼得到詞向量矩陣特征庫;
將所述詞向量矩陣特征庫,按照預先設置的長短期記憶神經(jīng)網(wǎng)絡算法LSTM處理得到中文代詞消解模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述詞向量矩陣特征庫是K*W維度的特征向量矩陣,其中,K為所述訓練樣本文件中詞匯數(shù)量與詞性標注數(shù)量之和,W為大于1的自然數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預先設置的模型為文本深度表示模型。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在按照預先設置的模型進行編碼得到詞向量矩陣特征庫之前,所述方法還包括:
生成所述訓練樣本文件的哈弗曼樹。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述按照預先設置的模型進行編碼得到所述詞向量矩陣特征庫之后,所述方法還包括:
將新增語料樣本文件經(jīng)過預處理,得到新增訓練樣本文件;
獲取所述新增訓練樣本文件中所有詞匯的詞頻,根據(jù)所述詞頻的信息重新生成所述哈弗曼樹;
根據(jù)重新生成所述哈弗曼樹更新所述詞向量矩陣特征庫。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,獲取所述新增訓練樣本文件中所有詞匯的詞頻,根據(jù)所述詞頻的信息重新生成所述哈弗曼樹包括:
當所述新增訓練樣本文件的詞不存在于所述訓練樣本文件中時,從原哈弗曼樹中找到與所述新增訓練樣本文件的詞的詞頻數(shù)相同的葉子節(jié)點并行構(gòu)建子樹重新生成所述哈弗曼樹。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,獲取所述新增訓練樣本文件中所有詞匯的詞頻,根據(jù)所述詞頻的信息重新生成所述哈弗曼樹包括:
當所述新增訓練樣本文件的詞存在于所述訓練樣本文件中時,不對所述新增訓練樣本文件的詞的葉子節(jié)點進行處理。
8.一種中文代詞消解方法,其特征在于,包括:
將待消解文件經(jīng)過預處理,根據(jù)預處理過的所述待消解文件從預先設置的詞向量矩陣特征庫中提取所述待消解文件的詞向量矩陣;
將所述詞向量矩陣按照預先設置的中文代詞消解模型消解處理。
9.一種中文代詞消解模型建立裝置,其特征在于,包括:
預處理模塊,用于將語料樣本文件經(jīng)過預處理得到訓練樣本文件;
編碼模塊,用于將所述訓練樣本文件,按照預先設置的模型進行編碼得到詞向量矩陣特征庫;
處理模塊,用于將所述詞向量矩陣特征庫,按照預先設置的長短期記憶神經(jīng)網(wǎng)絡算法LSTM處理得到中文代詞消解模型。
10.一種中文代詞消解裝置,其特征在于,包括:
提取模塊,用于將待消解文件經(jīng)過預處理,根據(jù)預處理過的所述待消解文件從預先設置的詞向量矩陣特征庫中提取所述待消解文件的詞向量矩陣;
消解模塊,用于將所述詞向量矩陣按照預先設置的中文代詞消解模型消解處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中興通訊股份有限公司,未經(jīng)中興通訊股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610711459.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:工業(yè)應用的操縱手柄
- 下一篇:多功能操控手柄





