[發明專利]諷刺類型的文本識別方法、裝置、設備及計算機可讀介質在審
| 申請號: | 202010549951.X | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111859980A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 李秋丹;劉春陽;彭鑫;張麗;曾大軍;張旭;劉賀靜;王鵬;王林子;陳志鵬;賈玉改;張翔宇;解崢 | 申請(專利權)人: | 中國科學院自動化研究所;國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/9536;G06N3/04;G06N3/08 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 曾軍;李雪 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 諷刺 類型 文本 識別 方法 裝置 設備 計算機 可讀 介質 | ||
1.一種諷刺類型的文本識別方法,其特征在于,包括:
獲取待處理文本,其中,所述待處理文本來自于社交媒體網絡平臺;
采用多種方式提取所述待處理文本的目標特征信息,其中,所述目標特征信息為從特征集合中選擇出來的多個特征信息的加權和表示;
根據第一神經網絡模型對所述目標特征信息的識別結果確定所述待處理文本的文本類型,其中,所述第一神經網絡模型是采用具有標記信息的訓練數據對第二神經網絡模型進行訓練后得到的,所述標記信息用于標記所述訓練數據是否為目標類型,所述識別結果用于指示所述待處理文本是否為所述目標類型,所述目標類型為諷刺類型。
2.根據權利要求1所述的方法,其特征在于,采用多種方式提取所述待處理文本的目標特征信息包括:
將所述待處理文本轉換為詞向量;
采用多種方式確定相鄰詞向量之間的多個第一情緒對立參數;
融合所述多個第一情緒對立參數,得到所述相鄰詞向量之間的第二情緒對立參數;
在得到所有所述相鄰詞向量之間的所述第二情緒對立參數的情況下,利用所有所述第二情緒對立參數組成的矩陣確定所述待處理文本中各個詞向量的注意力向量;
獲取所述各個詞向量與對應所述注意力向量的乘積的和,得到詞語沖突性特征,其中,所述目標特征信息包括所述詞語沖突性特征。
3.根據權利要求2所述的方法,其特征在于,
采用多種方式確定相鄰詞向量之間的多個第一情緒對立參數包括:
采用獲取所述相鄰詞向量之間的均值、哈達瑪乘積、L1距離及L2距離的方式確定所述多個第一情緒對立參數;
融合所述多個第一情緒對立參數,得到所述相鄰詞向量之間的第二情緒對立參數包括:
獲取所述第一神經網絡模型學習到的第一權重參數,其中,所述第一權重參數是在采用所述訓練數據訓練得到所述第一神經網絡模型的過程中針對所述多種方式訓練達到的局部最優值;
將所述多個第一情緒對立參數與對應所述第一權重參數的乘積的和作為所述第二情緒對立參數;
利用所有所述第二情緒對立參數組成的矩陣確定所述待處理文本中各個詞向量的注意力向量包括:
通過對所述矩陣進行最大池化運算確定所述注意力向量。
4.根據權利要求2所述的方法,其特征在于,采用多種方式提取所述待處理文本的目標特征信息還包括:
采用長短期記憶神經網絡提取所述待處理文本的文本結構化特征,其中,所述目標特征信息包括所述文本結構化特征。
5.根據權利要求4所述的方法,其特征在于,根據第一神經網絡模型對所述目標特征信息的識別結果確定所述待處理文本的文本類型包括:
將所述詞語沖突性特征和/或所述文本結構化特征作為所述第一神經網絡模型的輸入;
獲取所述第一神經網絡模型輸出的識別結果,其中,所述識別結果為指示所述待處理文本的所述文本類型的預測值;
在所述預測值大于預設閾值的情況下將所述待處理文本的所述文本類型確定為所述目標類型。
6.根據權利要求1至5中任意一項所述的方法,其特征在于,根據第一神經網絡模型對所述目標特征信息的識別結果確定所述待處理文本的文本類型之前,所述方法還包括:
通過所述訓練數據對所述第二神經網絡模型內各網絡層中的參數進行初始化,得到第三神經網絡模型,其中,所述第二神經網絡模型為全連接前饋神經網絡模型;
在所述第三神經網絡模型對測試數據的識別準確度達到目標閾值的情況下,將所述第三神經網絡模型作為所述第一神經網絡模型;
在所述第三神經網絡模型對所述測試數據的識別準確度未達到所述目標閾值的情況下,繼續使用所述訓練數據對所述第三神經網絡模型進行訓練,以調整所述第三神經網絡模型內各網絡層中的參數的數值,直至所述第三神經網絡模型對所述測試數據的識別準確度達到所述目標閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所;國家計算機網絡與信息安全管理中心,未經中國科學院自動化研究所;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010549951.X/1.html,轉載請聲明來源鉆瓜專利網。





