[發明專利]一種基于聚類與預訓練模型結合的命名實體識別方法在審
| 申請號: | 202110602241.3 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113283242A | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 朱磊;吳江浩;黑新宏;王一川;姬文江 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/211;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 韓玙 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 模型 結合 命名 實體 識別 方法 | ||
1.一種基于聚類與預訓練模型結合的命名實體識別方法,其特征在于,首先對Bert的結果提取其中的每個詞的特征向量;在進行對特征向量的首次迭代時,通過Canopy算法確定往后計算的聚類的簇個數K與迭代的初始點,避免了人為確定簇個數與隨機選擇迭代初始點時對程序運行效率與運行結果產生的影響;通過不斷迭代運算,最終確定K個簇中的個個節點集,將節點集返回結果與Bert結果中的[CLS]結合,從而得到一個結合了Topic類別標記的Bert訓練模型,并在運用訓練后的參數進行NER時中提高識別效率和準確性。
2.具體操作步驟如下:
步驟1,模型的預訓練語義段落來源于中文Wikipedia數據庫,先從中文Wikipedia數據庫中爬取數據;
步驟2,對步驟1中的數據進行數據清洗,制作成訓練可用的數據集保存在數據庫中;
步驟3,配置Bert的模型參數包括初始學習率,隱藏層個數,自注意力頭數,Encoder-Decoder層數,全連接層維度;
步驟4,調用步驟3中完成基本參數配置后的Bert模型,同時將步驟2中存儲在數據庫中的預訓練數據集作為Bert模型的輸入,運行Bert模型并在成功產生輸出結果后保存Bert的結果中的高維特征向量的結果并將高維特征向量結果放在數據庫中;
步驟5,利用Canopy粗聚類算法與步驟4中詞性的高維數據向量確定初始聚類簇數目K與中心節點集合Canopy;
步驟6,將步驟5中,中心節點集合Canopy為聚類的K個初始點;
步驟7,計算每個在步驟4中得出的的高維特征向量到K個中心點的歐氏距離;
步驟8,對步驟7中的歐式距離結果按照距離中心點最小距離原則對所有高維特征向量進行分簇;
步驟9,采用誤差平方和目標函數對一個簇內所有節點求平均值C,C就為下次迭代時中心節點;
步驟10,重復步驟7,步驟8,步驟9直到中心節點位置收斂即可;
步驟11,依據聚類的K個類別將數據進行劃分并標記Topic;
步驟12,將步驟11的劃分結果與Bert模型的輸出中FinalLayer的句子開始標簽[CLS]的向量進行組合并重新回送到輸出序列中;
步驟13,對完成步驟12后的新的TopicBert進行NER任務的測試與運行,通過改進的TopicBert模型在處理NER任務上比原先的Bert模型的效率和準確性有明顯的提升。
3.根據權利要求2所述的一種基于機器學習與Bert模型結合的命名實體識別方法,其特征在于所述步驟4中,Bert模型的輸出是一個與上下文相關的一個字向量矩陣,其中[CLS]為句子的開始表示符,用于對句子的進行分類與運行。
4.根據權利要求2所述的一種基于機器學習與Bert模型結合的命名實體識別方法,其特征在于所述步驟5中,采取先進行粗聚類算法以確定一個聚類簇數K,并且初始節點的選取合理性決定了后面運算的效率,我們用Canopy來確定初始的中心節點;Canopy的兩個閾值T1,T2。T1用于確定兩個中心點之間距離,T2用于確認每個簇中的節點個數,兩個閾值就能確定數據集中大概的分類個數與合理的起始點,便于提高效率。
5.根據權利要求2所述的一種基于機器學習與Bert模型結合的命名實體識別方法,其特征在于所述步驟7中,計算歐式距離得到了兩個特征向量之間的相似度。
6.根據權利要求2所述的一種基于機器學習與Bert模型結合的命名實體識別方法,其特征在于所述步驟8中,距離中心最小原則的目的就是得到和中心節點相關程度高的一系列節點,對其進行分類,形成一個Topic來代表這個簇中元素。
7.根據權利要求2所述的一種基于機器學習與Bert模型結合的命名實體識別方法,其特征在于所述步驟9中,所述目標函數具體為將尋找中心節點的問題化為一個多元線性規劃問題,目的函數明確并且對SSE求偏導后發現中心節點就是一個簇中每個節點之和的平均值C就為下次迭代時中心點。直到中心節點在迭代時收斂就能認為聚類已經結束。
8.根據權利要求2所述的一種基于機器學習與Bert模型結合的命名實體識別方法,其特征在于,所述步驟12中,由于[CLS]在每個句子的唯一性存在,將聚類產生的topic與Bert模型相結合可以大幅提高命名實體識別過程中的識別效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110602241.3/1.html,轉載請聲明來源鉆瓜專利網。





