[發(fā)明專利]一種基于融合特征的海事海商長(zhǎng)文本分類方法、裝置及介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202111518907.3 | 申請(qǐng)日: | 2021-12-13 |
| 公開(kāi)(公告)號(hào): | CN114564943A | 公開(kāi)(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 鮑闖;李鵬;馮姣;王文超 | 申請(qǐng)(專利權(quán))人: | 南京信息工程大學(xué) |
| 主分類號(hào): | G06F40/211 | 分類號(hào): | G06F40/211;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 224002 江蘇省鹽城*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 融合 特征 海事 海商 文本 分類 方法 裝置 介質(zhì) | ||
本發(fā)明提供了一種基于融合特征的海事海商長(zhǎng)文本分類方法、裝置及介質(zhì),所述方法包括:首先對(duì)預(yù)處理的長(zhǎng)文本進(jìn)行分割,將劃分好的小段文本分別送入BERT預(yù)訓(xùn)練模型,獲取包含局部文本的詞向量和句向量。其次,將詞向量送入卷積神經(jīng)網(wǎng)絡(luò)生成局部文本的特征向量,融合局部文本的特征向量和BERT句向量作為局部文本的最終句向量。然后,將長(zhǎng)文劃分后的n組文本融合的句向量輸入到雙向長(zhǎng)短期記憶網(wǎng)提取文本的全局信息。最后,通過(guò)引入注意力機(jī)制關(guān)注重點(diǎn),采用softmax得到長(zhǎng)文本最終概率表達(dá),提高模型分類效率和準(zhǔn)確度。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于融合特征的海事海商長(zhǎng)文本分類方法、裝置及介質(zhì),屬于自然語(yǔ)言處理技術(shù)領(lǐng)域。
背景技術(shù)
隨著我國(guó)司法體系的不斷深化改革,大量的裁判文書被各大法院通過(guò)互聯(lián)網(wǎng)的形式進(jìn)行公開(kāi),而文書類別標(biāo)簽的缺失導(dǎo)致法律相關(guān)人員面對(duì)海量的裁判文本信息資源檢索困難。如何快速、高效地對(duì)裁決文書自動(dòng)化分類是一個(gè)亟待解決的問(wèn)題。
裁判文書分類屬于文本分類范疇。文本分類作為自然語(yǔ)言處理領(lǐng)域(NaturalLanguage Procesing, NLP)中最經(jīng)典、最基本的任務(wù)之一,被廣泛應(yīng)用于主題分類、情感分析和問(wèn)答匹配等領(lǐng)域。按照預(yù)先設(shè)定好的類別標(biāo)簽,通過(guò)提取文本的高級(jí)特征,給文本自動(dòng)分類。文本分類大致可以分為兩類方法:淺層學(xué)習(xí)的機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法。淺層學(xué)習(xí)的文本分類方法通過(guò)提取詞頻或者詞袋的特征,然后將文本特征送入樸素貝葉斯(Naive Bayes,NB)、支持向量機(jī)(Support Vector Machine, SVM)等分類模型中預(yù)測(cè)類別標(biāo)簽。由于傳統(tǒng)的機(jī)器學(xué)習(xí)算法是淺層的特征提取,存在高維的稀疏性、無(wú)序性和無(wú)法聯(lián)系文本的上下文的劣勢(shì),限制了傳統(tǒng)文本分類模型的分類效果。
Kim針對(duì)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的輸入層做了一些變形,提出了文本分類模型TextCNN。TextCNN模型包含一個(gè)卷積層和最大池化層,該模型參數(shù)量少、訓(xùn)練速度快,但其卷積核的視野受卷積核控制,固定大小的卷積核只能提取局部的特征,無(wú)法關(guān)注更長(zhǎng)視野的特征。Liu等人使用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-TermMemory, LSTM)對(duì)語(yǔ)句的序列信息進(jìn)行建模,并將網(wǎng)絡(luò)的最后一個(gè)狀態(tài)作為文本表示。對(duì)于短文本來(lái)說(shuō),循環(huán)神經(jīng)網(wǎng)絡(luò)具有較好的表現(xiàn)。隨著文本的長(zhǎng)度變長(zhǎng),序列數(shù)據(jù)之間的間隔就會(huì)加大,這會(huì)使得長(zhǎng)短期記憶網(wǎng)絡(luò)的記憶性減弱。對(duì)于長(zhǎng)文本來(lái)說(shuō),直接將文檔作為長(zhǎng)序列輸入模型,不僅會(huì)給模型的性能帶來(lái)挑戰(zhàn),而且會(huì)忽略掉文檔的層次結(jié)構(gòu)信息。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提供一種基于融合特征的海事海商長(zhǎng)文本分類方法、裝置及介質(zhì),可較準(zhǔn)確的對(duì)海事海商長(zhǎng)文本進(jìn)行分類。
為達(dá)到上述目的,本發(fā)明是采用下述技術(shù)方案實(shí)現(xiàn)的:
第一方面,本發(fā)明提供了一種基于融合特征的海事海商長(zhǎng)文本分類方法,包括以下步驟:
獲取待分類的海事海商長(zhǎng)文本;
對(duì)待分類的海事海商長(zhǎng)文本進(jìn)行分割,獲得劃分好的小段文本;
將劃分好的小段文本分別送入BERT預(yù)訓(xùn)練模型,獲取局部文本的詞向量和BERT句向量;
將詞向量送入卷積神經(jīng)網(wǎng)絡(luò),生成局部文本的特征向量,融合局部文本的特征向量和BERT句向量作為局部文本的最終句向量;
將各局部文本的最終句向量輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò),提取文本的全局信息;
通過(guò)引入注意力機(jī)制關(guān)注重點(diǎn),采用softmax函數(shù)得到長(zhǎng)文本最終概率表達(dá),即海事海商長(zhǎng)文本的分類結(jié)果。
進(jìn)一步的,對(duì)待分類的海事海商長(zhǎng)文本進(jìn)行分割,獲得劃分好的小段文本的方法包括:
按照長(zhǎng)文本的分層結(jié)構(gòu)進(jìn)行文本劃分,將長(zhǎng)文本劃分為多個(gè)短句子,保留文本全局信息。
進(jìn)一步的,將劃分好的小段文本分別送入BERT預(yù)訓(xùn)練模型,獲取局部文本的詞向量和BERT句向量的方法包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京信息工程大學(xué),未經(jīng)南京信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111518907.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于海事衛(wèi)星的衛(wèi)星通信系統(tǒng)
- 一種基于海事衛(wèi)星的衛(wèi)星通信系統(tǒng)
- 一種海事信息處理方法及系統(tǒng)
- 一種海事服務(wù)B2B數(shù)據(jù)處理系統(tǒng)及方法
- 警示槍觸發(fā)式計(jì)算機(jī)操作平臺(tái)
- 一種基于云計(jì)算的海事信息處理模型
- 海事行政處罰數(shù)據(jù)處理系統(tǒng)、方法、裝置和設(shè)備
- 一種微型海事衛(wèi)星通訊終端裝置
- 海事證據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 海事行政處罰裁量模板的處理方法、裝置和設(shè)備





