[發明專利]文本的詞性標注方法及裝置在審
| 申請號: | 202011063051.0 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112131873A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 陳政波;盧文達;周洋;王劍;馮燭明;馮珺;包迅格;靖穩峰;孫嘉偉;劉宏;胡輝;茍蛟龍;郭剛 | 申請(專利權)人: | 國網浙江省電力有限公司信息通信分公司;西安交通大學;美林數據技術股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/289 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李偉 |
| 地址: | 310007 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 詞性 標注 方法 裝置 | ||
本發明提供了一種文本的詞性標注方法及裝置,該方法包括:當接收到文本處理指令時,確定所述文本處理指令所對應的任務類型;在所述任務類型為詞性標注任務的情況下,獲取所述文本處理指令所指定的待標注文本集合,所述待標注文本集合包含至少一個待標注文本;確定待標注文本集合中的待處理文本所屬的語料領域,并確定所述語料領域對應的預先設置的詞性標注模型;對所述待標注文本集合中的每個所述待標注文本進行預處理;將每個經過預處理的待標注文本依次輸入至所述詞性標注模型中,得到每個所述待處理文本對應的詞性標注結果。應用本發明提供的方法,能夠應用待標注文本所屬的語料領域對應的詞性標注模型進行詞性標注,提高了詞性標注的準確率。
技術領域
本發明涉及計算機技術領域,特別涉及一種文本的詞性標注方法及裝置。
背景技術
隨著科學技術的發展,自然語言處理也得到長足發展,自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法,而在執行各種復雜的自然語言任務的過程中,例如在智能問答領域,往往會需要對文本進行詞性標注。
詞性標注就是對待處理文本的各個元素打上詞性標簽,在現有技術中,在進行詞性標注時,通常會由人工制定文本特征,再通過識別文本的特征來進行標簽分配,而人工訂制文本特征容易導致特征描述不準確,從而造成詞性標注的準確率低。
發明內容
本發明所要解決的技術問題是提供一種文本的詞性標注方法,能夠提高詞性標注的準確率。
本發明還提供了一種文本的詞性標注裝置,用以保證上述方法在實際中的實現及應用。
一種文本的詞性標注方法,包括:
當接收到文本處理指令時,確定所述文本處理指令所對應的任務類型;
在所述任務類型為詞性標注任務的情況下,獲取所述文本處理指令所指定的待標注文本集合,所述待標注文本集合包含至少一個待標注文本;
確定所述待標注文本集合中的待處理文本所屬的語料領域,并確定所述語料領域對應的預先設置的詞性標注模型;
對所述待標注文本集合中的每個所述待標注文本進行預處理;
將每個經過預處理的待標注文本依次輸入至所述詞性標注模型中,得到每個所述待處理文本對應的詞性標注結果。
上述的方法,可選的,所述詞性標注模型的設置過程,包括:
獲取初始詞性標注模型以及所述語料領域的樣本數據集;所述樣本數據集中的每個樣本數據為預先經過詞性標注的文本數據;所述樣本數據集劃分為訓練樣本集、驗證樣本集以及測試樣本集;
應用所述訓練樣本集中的各個樣本數據依次對所述初始詞性標注模型進行訓練,并基于所述驗證樣本集中的樣本數據對已完成訓練的初始詞性標注模型進行驗證,得到備選詞性標注模型;
應用所述測試樣本集對所述備選詞性標注模型進行測試,得到測試結果,依據所述測試結果判斷所述備選詞性標注模型的詞性標注準確率,若所述詞性標注準確率大于預先設置的準確率閾值,則將該備選詞性標注模型作為該語料領域對應的詞性標注模型。
上述的方法,可選的,所述對所述待標注文本集合中的每個待標注文本進行預處理,包括:
對待標注文本集合中的每個待標注文本進行拆分,得到每個待標注文本的各個文本塊;每個所述文本塊包括至少一個字符;
對于每個待標注文本,將該待標注文本的各個文本塊進行映射,以完成對該待標注文本的預處理。
上述的方法,可選的,將每個經過預處理的待標注文本依次輸入至預先設置的詞性標注模型中,得到每個所述待處理文本對應的詞性標注結果,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網浙江省電力有限公司信息通信分公司;西安交通大學;美林數據技術股份有限公司,未經國網浙江省電力有限公司信息通信分公司;西安交通大學;美林數據技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011063051.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種物料入庫方法、裝置及管理設備
- 下一篇:電子設備及信息處理方法





