[發明專利]文本的詞性標注方法及裝置在審
| 申請號: | 202011063051.0 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112131873A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 陳政波;盧文達;周洋;王劍;馮燭明;馮珺;包迅格;靖穩峰;孫嘉偉;劉宏;胡輝;茍蛟龍;郭剛 | 申請(專利權)人: | 國網浙江省電力有限公司信息通信分公司;西安交通大學;美林數據技術股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李偉 |
| 地址: | 310007 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 詞性 標注 方法 裝置 | ||
1.一種文本的詞性標注方法,其特征在于,包括:
當接收到文本處理指令時,確定所述文本處理指令所對應的任務類型;
在所述任務類型為詞性標注任務的情況下,獲取所述文本處理指令所指定的待標注文本集合,所述待標注文本集合包含至少一個待標注文本;
確定所述待標注文本集合中的待處理文本所屬的語料領域,并確定所述語料領域對應的預先設置的詞性標注模型;
對所述待標注文本集合中的每個所述待標注文本進行預處理;
將每個經過預處理的待標注文本依次輸入至所述詞性標注模型中,得到每個所述待處理文本對應的詞性標注結果。
2.根據權利要求1所述的方法,其特征在于,所述詞性標注模型的設置過程,包括:
獲取初始詞性標注模型以及所述語料領域的樣本數據集;所述樣本數據集中的每個樣本數據為預先經過詞性標注的文本數據;所述樣本數據集劃分為訓練樣本集、驗證樣本集以及測試樣本集;
應用所述訓練樣本集中的各個樣本數據依次對所述初始詞性標注模型進行訓練,并基于所述驗證樣本集中的樣本數據對已完成訓練的初始詞性標注模型進行驗證,得到備選詞性標注模型;
應用所述測試樣本集對所述備選詞性標注模型進行測試,得到測試結果,依據所述測試結果判斷所述備選詞性標注模型的詞性標注準確率,若所述詞性標注準確率大于預先設置的準確率閾值,則將該備選詞性標注模型作為該語料領域對應的詞性標注模型。
3.根據權利要求1所述的方法,其特征在于,所述對所述待標注文本集合中的每個待標注文本進行預處理,包括:
對待標注文本集合中的每個待標注文本進行拆分,得到每個待標注文本的各個文本塊;每個所述文本塊包括至少一個字符;
對于每個待標注文本,將該待標注文本的各個文本塊進行映射,以完成對該待標注文本的預處理。
4.根據權利要求1所述的方法,其特征在于,將每個經過預處理的待標注文本依次輸入至預先設置的詞性標注模型中,得到每個所述待處理文本對應的詞性標注結果,包括:
將每個經過預處理的待標注文本輸入至預先設置的詞性標注模型;其中,所述詞性標注模型由多個編碼器依次堆疊得到;
觸發該詞性標注模型中的各個編碼器依次對輸入的經過預處理的待標注文本進行處理,得到每個待處理文本對應的詞性標注結果,其中,每個經過預處理的待標注文本分別為詞性標注模型中的首個編碼器的輸入,每個所述編碼器的輸出作為下一編碼器的輸入。
5.根據權利要求1所述的方法,其特征在于,所述確定所述待標注文本集合中的待處理文本所屬的語料領域,包括:
獲取所述待標注文本集合的文本屬性信息;
基于所述文本屬性信息確定所述待標注文件集合中的待處理文本所屬的語料領域。
6.一種文本的詞性標注裝置,其特征在于,包括:
接收單元,用于當接收到文本處理指令時,確定所述文本處理指令所對應的任務類型;
獲取單元,用于在所述任務類型為詞性標注任務的情況下,獲取所述文本處理指令所指定的待標注文本集合,所述待標注文本集合包含至少一個待標注文本;
確定單元,用于確定所述待標注文本集合中的待處理文本所屬的語料領域,并確定所述語料領域對應的詞性標注模型;
預處理單元,用于對所述待標注文本集合中的每個所述待標注文本進行預處理;
標注單元,用于將每個經過預處理的待標注文本依次輸入至預先設置的詞性標注模型中,得到每個所述待處理文本對應的詞性標注結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網浙江省電力有限公司信息通信分公司;西安交通大學;美林數據技術股份有限公司,未經國網浙江省電力有限公司信息通信分公司;西安交通大學;美林數據技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011063051.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種物料入庫方法、裝置及管理設備
- 下一篇:電子設備及信息處理方法





