[發(fā)明專利]一種基于融合特征的海事海商長文本分類方法、裝置及介質在審
| 申請?zhí)枺?/td> | 202111518907.3 | 申請日: | 2021-12-13 |
| 公開(公告)號: | CN114564943A | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設計)人: | 鮑闖;李鵬;馮姣;王文超 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京縱橫知識產(chǎn)權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 224002 江蘇省鹽城*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 融合 特征 海事 海商 文本 分類 方法 裝置 介質 | ||
1.一種基于融合特征的海事海商長文本分類方法,其特征在于,包括以下步驟:
獲取待分類的海事海商長文本;
對待分類的海事海商長文本進行分割,獲得劃分好的小段文本;
將劃分好的小段文本分別送入BERT預訓練模型,獲取局部文本的詞向量和BERT句向量;
將詞向量送入卷積神經(jīng)網(wǎng)絡,生成局部文本的特征向量,融合局部文本的特征向量和BERT句向量作為局部文本的最終句向量;
將各局部文本的最終句向量輸入到雙向長短期記憶網(wǎng)絡,提取文本的全局信息;
通過引入注意力機制關注重點,采用softmax函數(shù)得到長文本最終概率表達,即海事海商長文本的分類結果。
2.根據(jù)權利要求1所述的基于融合特征的海事海商長文本分類方法,其特征在于,對待分類的海事海商長文本進行分割,獲得劃分好的小段文本的方法包括:
按照長文本的分層結構進行文本劃分,將長文本劃分為多個短句子,保留文本全局信息。
3.根據(jù)權利要求1所述的基于融合特征的海事海商長文本分類方法,其特征在于,將劃分好的小段文本分別送入BERT預訓練模型,獲取局部文本的詞向量和BERT句向量的方法包括:
對劃分好的小段文本的兩端加入BERT特殊的標記;
對劃分好的小段文本經(jīng)過詞嵌入、句子嵌入、位置嵌入三者的相加融合得到BERT編碼器的輸入信息;
將BERT編碼器的輸入信息通過多個雙向Transformer編碼器編碼后得到局部文本的詞向量和BERT句向量。
4.根據(jù)權利要求1所述的基于融合特征的海事海商長文本分類方法,其特征在于,所述卷積神經(jīng)網(wǎng)絡包括輸入層、卷積層、池化層、融合層;
所述輸入層為局部文本的詞向量組成的n×k矩陣,其中n為局部文本的詞數(shù)量,k表示詞向量的維度;
所述輸入層的每一行都是一個單詞對應的k維詞向量;
所述卷積層通過運用多組不同大小的卷積核進行特征提取;
所述池化層用于對卷積層的結果維度進行降維,采用最大池化對卷積層提取的特征池化成一個特征值;
所述融合層用于對池化層得到的特征值進行拼接融合,構成局部文本的特征向量。
5.根據(jù)權利要求1所述的基于融合特征的海事海商長文本分類方法,其特征在于,融合局部文本的特征向量和BERT句向量作為局部文本的最終句向量的方法包括:
將局部文本的特征向量和BERT句向量兩個一維向量,通過向量首尾拼接重塑為一維的局部文本的最終句向量。
6.根據(jù)權利要求1所述的基于融合特征的海事海商長文本分類方法,其特征在于,所述雙向長短期記憶網(wǎng)絡,提取文本的全局信息由三個門控制細胞狀態(tài),分別為遺忘門、輸入門、輸出門;
所述雙向長短期記憶網(wǎng)絡按照時間順序接收局部文本的最終句向量,將多組局部文本的最終句向量分別對應輸入到雙向長短期記憶網(wǎng)絡的多個隱層中;所述雙向長短期網(wǎng)絡關聯(lián)整組文本的多組局部信息,提取文本的全局信息;
所述遺忘門用于決定上一時刻的單元狀態(tài)有多少保留到當前時刻;
所述輸入門用于決定當前時刻網(wǎng)絡的輸入有多少保存到單元狀態(tài);
所述輸出門用于控制單元狀態(tài)有多少輸出到長短期記憶網(wǎng)絡的當前輸出值。
7.根據(jù)權利要求1所述的基于融合特征的海事海商長文本分類方法,其特征在于,通過引入注意力機制關注重點,采用softmax函數(shù)得到長文本最終概率表達的方法包括:
對每一時刻的雙向長短期記憶網(wǎng)絡的隱層輸出進行注意力權重的計算和權重的歸一化,權重值越大表明該局部信息對分類的準確率影響越大;
對各個時刻的輸出特征進行加權求和,得到最終的文本向量;
通過softmax函數(shù)計算其概率最大值的類別作為海事海商長文本的分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經(jīng)南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111518907.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





