[發明專利]一種融合命名實體識別的高技術文本分類方法及系統有效
| 申請號: | 202011013637.6 | 申請日: | 2020-09-24 |
| 公開(公告)號: | CN112163089B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 王浩伊;楊軍;錢寶生;鐘晨;涂鑫 | 申請(專利權)人: | 中國電子科技集團公司第十五研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295;G06N3/0442 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 崔玥 |
| 地址: | 100083 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 命名 實體 識別 高技術 文本 分類 方法 系統 | ||
1.一種融合命名實體識別的高技術文本分類方法,其特征在于,所述分類方法包括:
步驟1:確定文本向量;
步驟2:將所述文本向量輸入至BiLSTM網絡結構中,得到文本序列的隱向量;
步驟3:獲取原始文本分類模型;
步驟4:基于所述文本序列的隱向量對所述原始文本分類模型進行訓練;
步驟5:基于訓練后的文本分類模型結合softmax函數計算當前文本在各個類別中所占比例;
步驟7:獲取命名實體識別的訓練數據;
步驟8:執行步驟1-步驟2,得到命名實體識別的訓練數據的隱向量;
步驟9:獲取原始命名實體識別模型;
步驟10:基于所述命名實體識別的訓練數據的隱向量對所述原始命名實體識別模型進行訓練,得到訓練后的命名實體識別模型;
步驟11:基于訓練好后的命名實體識別模型抽取步驟5中分類后的文本中的專業術語,得到術語列表L;
步驟12:遍歷L中的每個元素,確定L中的每個元素在各類別詞典中分別出現的頻率和,記為fr=(fr1,fr2,…,frn),并轉換為占比
步驟13:基于所述步驟5中當前文本在各個類別中所占比例融合文本中出現的專業術語在詞典中的占比通過權重進行分類。
2.根據權利要求1所述的融合命名實體識別的高技術文本分類方法,其特征在于,所述確定文本向量具體包括:
確定文本分類模型訓練數據T=(T1,T2,…,Tlen(n));
對于每個訓練數據Ti,基于WordPiece的方法進行分字,如果len(Ti)>maxLen-2,則在位置Len-2處截斷;
對于分字后的結果,在首部添加符號“[CLS]”,在尾部添加符號“[SEP]”,并查詢詞匯表將每一個字轉換為其對應的索引值記為input_ids;
如果len(input_ids)<maxLen,則在結果后添加0進行補齊操作,使len(input_ids)等于maxLen;
對字索引值、句子分割編碼以及位置信息編碼分布送入Token?Embeddings層、SegmentEmbeddings層以及Position?Embeddings層,三個結果向量值相加生成詞向量記為InputEmbeddings;
將Input?Embeddings輸入到Transformer模型中獲得文本序列中字的最終的文本向量,記為S。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第十五研究所,未經中國電子科技集團公司第十五研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011013637.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中小型電機C型環收口工具裝置
- 下一篇:一種MIMO天線及移動通信設備





