[發明專利]諷刺文本協同識別方法、裝置、設備及計算機可讀介質在審
| 申請號: | 202010549940.1 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111859979A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 劉春陽;李秋丹;張麗;彭鑫;張旭;曾大軍;王鵬;劉賀靜;陳志鵬;王林子;張翔宇;賈玉改;解崢 | 申請(專利權)人: | 中國科學院自動化研究所;國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/953;G06N3/04 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 曾軍;李雪 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 諷刺 文本 協同 識別 方法 裝置 設備 計算機 可讀 介質 | ||
本申請涉及一種諷刺文本協同識別方法、裝置、設備及計算機可讀介質。該方法包括:獲取待處理文本,待處理文本來自于社交媒體網絡平臺;提取待處理文本的語義特征信息和主題特征信息,語義特征信息用于表征待處理文本與諷刺類型的關聯關系,主題特征信息用于表征待處理文本體現的諷刺主題;根據第一神經網絡模型對語義特征信息和主題特征信息的識別結果確定待處理文本的文本類型,并確定待處理文本的主題標簽。本申請利用表征語義情感的特征和表征諷刺主題的特征對待處理文本進行協同識別,既確定是否帶有諷刺含義,在具備諷刺含義的情況下還同時識別出體現諷刺的主題,實現有主題區分度的文本語義表示,有效提高了諷刺識別的準確率和解釋性。
技術領域
本申請涉及文本識別技術領域,尤其涉及一種諷刺文本協同識別方法、裝置、設備及計算機可讀介質。
背景技術
隨著互聯網的普及化、大眾化,不僅網民活躍于互聯網上的社交媒體平臺,各大企業、政府機關等也紛紛入駐互聯網平臺,通過互聯網社交平臺在線發布有關企業、政府機關的各種信息、政策等?;ヂ摼W用戶可以針對這些信息進行討論,企業、政府機關則需要及時跟蹤用戶對政策的反饋信息以便于管理部門跟蹤政策的實施情況,更好地進行決策。其中,針對用戶采用與字面意義相反的諷刺性語句表達深層次的情感及觀點的情況,企業和政府也需要準確識別,才能更準確、合理地收集用戶反饋的信息。
目前,相關技術中,對于諷刺檢測常常采用三類方法:基于規則的方法(例如:Veale T,Hao Y.Detecting ironic intent in creative comparisons[C]//ECAI.2010,215:765-770.),基于傳統機器學習的方法(例如:Reyes A,Rosso P.Making objectivedecisions from subjective data:Detecting irony in customer reviews[J].Decision support systems,2012,53(4):754-760.)以及基于深度學習的方法(例如:Ghosh A,Veale T.Fracking sarcasm using neural network[C]//Proceedings of the7th workshop on computational approaches to subjectivity,sentiment and socialmedia analysis.2016:161-169.)。
目前的相關技術中,都是集中在研究待識別文本中是否包含諷刺含義,即確定是或否的問題,而對于哪些詞語體現出諷刺含義,通過什么諷刺主題體現出諷刺含義卻鮮有研究,導致諷刺識別的解釋性不強,諷刺識別不準確,諷刺識別的效果達不到要求。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本申請提供了一種諷刺文本協同識別方法、裝置、設備及計算機可讀介質,以解決上述“諷刺識別準確率低、解釋性不強”的技術問題。
第一方面,本申請提供了一種諷刺文本協同識別方法,包括:獲取待處理文本,待處理文本來自于社交媒體網絡平臺;提取待處理文本的語義特征信息和主題特征信息,語義特征信息用于表征待處理文本與諷刺類型的關聯關系,主題特征信息用于表征待處理文本體現的諷刺主題;根據第一神經網絡模型對語義特征信息和主題特征信息的識別結果確定待處理文本的文本類型,并確定待處理文本的主題標簽,第一神經網絡模型是采用具有標記信息的訓練數據對第二神經網絡模型進行訓練后得到的,標記信息用于標記訓練數據是否為諷刺類型,并在訓練數據是諷刺類型的情況下標記訓練數據的諷刺主題,識別結果用于指示待處理文本是否為諷刺類型及待處理文本體現的諷刺主題,語義特征信息和主題特征信息用于對待處理文本進行協同識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所;國家計算機網絡與信息安全管理中心,未經中國科學院自動化研究所;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010549940.1/2.html,轉載請聲明來源鉆瓜專利網。





