[發明專利]一種基于聚類與預訓練模型結合的命名實體識別方法在審
| 申請號: | 202110602241.3 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113283242A | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 朱磊;吳江浩;黑新宏;王一川;姬文江 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/211;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 韓玙 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 模型 結合 命名 實體 識別 方法 | ||
本發明公開了一種基于機器學習與Bert模型結合的命名實體識別方法對Bert訓練后的結果結合機器學習的方法來改進Bert與NER任務的精確度。首先對Bert的結果提取其中的每個詞的特征向量。首次迭代時,首先通過Canopy算法確定往后計算的聚類的簇個數K與迭代的初始點,避免了認為確定簇個數與隨機選擇迭代初始點時對程序運行效率與運行結果的人為因素。通過不斷迭代運算,最終確定K個簇中的個個節點集,將節點集返回結果與Bert結果中的[CLS]結合,真正做到TopicBert的作用,并在運用訓練后的參數進行NER或其他任務中提高效果。
技術領域
本發明屬于人工智能技術領域,涉及人工智能NLP方向,具體涉及一種基于聚類與預訓練模型結合的命名實體識別方法,提高對知識圖譜構建時數據收集的效率。
背景技術
隨著信息科技的發展,互聯網信息總量指數式翻增,傳統信息量大而雜的現象已經難以處理,深度學習的重要領域自然語言處理可以為傳統信息智能化提供好的思路。
網絡化信息來源廣泛,內容錯綜復雜,很難獲取每個信息節點之間的關系,知識圖譜的構建很大的解決的信息之間的關聯性問題,通過圖數據庫展示每個信息節點之間的關系,讓來源不同的信息不在孤立節點而是以二元組的形式體現出來。目前知識圖譜在構建的構建分為知識抽取,知識融合,知識儲存,知識推理。而對于知識抽取的過程中,命名實體識別為主要任務,命名實體識別的精度越高效率越好,對于后期的處理工作就更容易進行,并且還能簡化清洗數據的過程,不但能讓知識抽取效果更好,還能提高圖譜的構建準確度。目前命名實體識別主要的模型就是BiLSTM-CRF和BERT-BiLSTM-CRF。但是這兩種模型都不能自動的生成一個數據集對應的分類Topic,使其在對數據處理時無法有效的抓住更多的數據信息。本發明基于BERT結合Canopy-Kmeans并行聚類來提升BERT訓練效果,從而更提高NER的精度。
發明內容
本發明旨在提供一種基于聚類與預訓練模型結合的命名實體識別方法。采用topic機制的方式解決了現有技術中存在的BERT模型在訓練的精度較低,在執行NER任務時準確性不高的問題。
本發明所采用的技術方案是,將機器學習的Canopy-Kmeans聚類算法與深度學習BERT的訓練結果結合,通過Topic標簽的方式來提高BERT在NER任務中的準確性。
一種基于聚類與預訓練模型結合的命名實體識別方法,首先對Bert的結果提取其中的每個詞的特征向量;在進行對特征向量的首次迭代時,通過Canopy算法確定往后計算的聚類的簇個數K與迭代的初始點,避免了人為確定簇個數與隨機選擇迭代初始點時對程序運行效率與運行結果產生的影響;通過不斷迭代運算,最終確定K個簇中的個個節點集,將節點集返回結果與Bert結果中的[CLS]結合,從而得到一個結合了Topic類別標記的Bert訓練模型,并在運用訓練后的參數進行NER時中提高識別效率和準確性。
具體操作步驟如下:
步驟1,模型的預訓練語義段落來源于中文Wikipedia數據庫,先從中文Wikipedia數據庫中爬取數據;
步驟2,對步驟1中的數據進行數據清洗,制作成訓練可用的數據集保存在數據庫中;
步驟3,配置Bert的模型參數包括初始學習率,隱藏層個數,自注意力頭數,Encoder-Decoder層數,全連接層維度;
步驟4,調用步驟3中完成基本參數配置后的Bert模型,同時將步驟2中存儲在數據庫中的預訓練數據集作為Bert模型的輸入,運行Bert模型并在成功產生輸出結果后保存Bert的結果中的高維特征向量的結果并將高維特征向量結果放在數據庫中;
步驟5,利用Canopy粗聚類算法與步驟4中詞性的高維數據向量確定初始聚類簇數目K與中心節點集合Canopy;
步驟6,將步驟5中,中心節點集合Canopy為聚類的K個初始點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110602241.3/2.html,轉載請聲明來源鉆瓜專利網。





