[發明專利]基于BERT預訓練模型的新詞識別方法和裝置在審
| 申請號: | 202110165682.1 | 申請日: | 2021-02-06 |
| 公開(公告)號: | CN112883721A | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 邵德奇;石聰;關培培;朱經南;趙詩陽;馮超;李騰飛;段治平 | 申請(專利權)人: | 科技日報社 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/289;G06K9/62;G06N3/04 |
| 代理公司: | 北京瀛和律師事務所 11744 | 代理人: | 邵曉玉 |
| 地址: | 100089*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 訓練 模型 新詞 識別 方法 裝置 | ||
1.一種基于BERT預訓練模型的新詞識別方法,其特征在于,包括:
獲取語料信息,通過N-Gram切詞算法對所述語料信息進行分詞處理得到多個新詞詞語;
將所述新詞詞語輸入BERT預訓練模型的淺層網絡,輸出淺層稠密向量,其中,所述BERT預訓練模型中引入有雙向自注意力網絡,所述淺層稠密向量包括所述新詞詞語的句法特征向量以及詞法特征向量,所述淺層稠密向量用于識別所述新詞詞語的邊界信息;
提取所述新詞詞語的離散特征;
將所述淺層稠密向量與所述離散特征輸入DNN二分類模型,識別出正確的新詞詞語。
2.根據權利要求1所述的基于BERT預訓練模型的新詞識別方法,其特征在于,將所述淺層稠密向量與所述離散特征輸入DNN二分類模型,識別出正確的新詞詞語的步驟,包括:
將所述淺層稠密向量與所述離散特征輸入DNN二分類模型;
根據輸出結果判斷所述新詞詞語是否為正確的真詞,其中,所述輸出結果包括所述新詞詞語為正確的真詞的概率;
若所述新詞詞語為正確的真詞的概率大于預設概率值,則將所述新詞詞語為正確的真詞。
3.根據權利要求2所述的基于BERT預訓練模型的新詞識別方法,其特征在于,所述方法還包括:
若所述新詞詞語為正確的真詞,則通過所述新詞詞語反饋調節所述DNN二分類模型和所述BERT預訓練模型。
4.根據權利要求1所述的基于BERT預訓練模型的新詞識別方法,其特征在于,所述方法還包括:
對識別新詞詞語后的語料信息進行語義識別。
5.根據權利要求1所述的基于BERT預訓練模型的新詞識別方法,其特征在于,通過N-Gram切詞算法對所述語料信息進行分詞處理得到多個新詞詞語的步驟,包括:
通過N-Gram切詞算法,將所述語料信息進行切分過濾,生成多個新詞詞語,所述新詞詞語為多種預設字節長度的字節片段。
6.根據權利要求1所述的基于BERT預訓練模型的新詞識別方法,其特征在于,所述淺層網絡包括所述BERT預訓練模型的第2層和第3層。
7.根據權利要求1所述的基于BERT預訓練模型的新詞識別方法,其特征在于,所述離散特征包括左右信息熵,互信息和統計數值tf-idf。
8.一種基于BERT預訓練模型的新詞識別裝置,其特征在于,包括:
獲取模塊,獲取語料信息,通過N-Gram切詞算法對所述語料信息進行分詞處理得到多個新詞詞語;
輸出模塊,將所述新詞詞語輸入BERT預訓練模型的淺層網絡,輸出淺層稠密向量,其中,所述BERT預訓練模型中引入有雙向自注意力網絡,所述淺層稠密向量包括所述新詞詞語的句法特征向量以及詞法特征向量,所述淺層稠密向量用于識別所述新詞詞語的邊界信息;
提取模塊,提取所述新詞詞語的離散特征;
識別模塊,將所述淺層稠密向量與所述離散特征輸入DNN二分類模型,識別出正確的新詞詞語。
9.一種電子設備,其特征在于,包括存儲器、處理器及存儲在所述存儲器上并且能夠在所述處理器上運行的程序,所述處理器執行所述程序時實現如權利要求1至7中任一項所述的方法。
10.一種計算機可讀存儲介質,其特征在于,所述可讀存儲介質中存儲有計算機程序,所述計算機程序被執行時實現權利要求1-7中任意一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科技日報社,未經科技日報社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110165682.1/1.html,轉載請聲明來源鉆瓜專利網。





