[發(fā)明專利]諷刺文本協(xié)同識別方法、裝置、設(shè)備及計算機可讀介質(zhì)在審
| 申請?zhí)枺?/td> | 202010549940.1 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111859979A | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設(shè)計)人: | 劉春陽;李秋丹;張麗;彭鑫;張旭;曾大軍;王鵬;劉賀靜;陳志鵬;王林子;張翔宇;賈玉改;解崢 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所;國家計算機網(wǎng)絡(luò)與信息安全管理中心 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/953;G06N3/04 |
| 代理公司: | 北京華夏泰和知識產(chǎn)權(quán)代理有限公司 11662 | 代理人: | 曾軍;李雪 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 諷刺 文本 協(xié)同 識別 方法 裝置 設(shè)備 計算機 可讀 介質(zhì) | ||
1.一種諷刺文本協(xié)同識別方法,其特征在于,包括:
獲取待處理文本,其中,所述待處理文本來自于社交媒體網(wǎng)絡(luò)平臺;
提取所述待處理文本的語義特征信息和主題特征信息,其中,所述語義特征信息用于表征所述待處理文本與諷刺類型的關(guān)聯(lián)關(guān)系,所述主題特征信息用于表征所述待處理文本體現(xiàn)的諷刺主題;
根據(jù)第一神經(jīng)網(wǎng)絡(luò)模型對所述語義特征信息和所述主題特征信息的識別結(jié)果確定所述待處理文本的文本類型,并確定所述待處理文本的主題標簽,其中,所述第一神經(jīng)網(wǎng)絡(luò)模型是采用具有標記信息的訓(xùn)練數(shù)據(jù)對第二神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練后得到的,所述標記信息用于標記所述訓(xùn)練數(shù)據(jù)是否為諷刺類型,并在所述訓(xùn)練數(shù)據(jù)是諷刺類型的情況下標記所述訓(xùn)練數(shù)據(jù)的諷刺主題,所述識別結(jié)果用于指示所述待處理文本是否為所述諷刺類型及所述待處理文本體現(xiàn)的所述諷刺主題,所述語義特征信息和所述主題特征信息用于對所述待處理文本進行協(xié)同識別。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,提取所述待處理文本的語義特征信息和主題特征信息包括:
將待處理文本轉(zhuǎn)換為詞向量;
利用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)對所述詞向量進行編碼,得到表示所述待處理文本語義的語義詞向量;
通過確定所述語義詞向量的語義權(quán)重得到所述語義特征信息,并通過確定所述語義詞向量的主題權(quán)重得到所述主題特征信息。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,通過確定所述語義詞向量的語義權(quán)重得到所述語義特征信息包括:
確定所述語義詞向量的所述語義權(quán)重;
利用與每個語義詞向量匹配的所述語義權(quán)重獲取所有語義詞向量的第一加權(quán)和;
將所述第一加權(quán)和作為所述語義特征信息。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,通過確定所述語義詞向量的主題權(quán)重得到所述主題特征信息包括:
獲取預(yù)設(shè)的多個主題的關(guān)鍵詞的向量均值;
獲取所述待處理文本的所述語義詞向量與各個向量均值的余弦距離;
確定所述余弦距離中最大值對應(yīng)的目標主題,并將所述最大值作為所述語義詞向量與所述目標主題的相關(guān)度;
利用各個語義詞向量的相關(guān)度確定所述各個語義詞向量的所述主題權(quán)重;
利用與每個語義詞向量匹配的所述主題權(quán)重獲取所有語義詞向量的第二加權(quán)和;
將所述第二加權(quán)和作為所述主題特征信息。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,獲取預(yù)設(shè)的多個主題的關(guān)鍵詞的向量均值之前,還包括按照如下方式構(gòu)建所述多個主題和所述向量均值:
獲取第一詞語集合,其中,所述第一詞語集合為第二詞語集合中出現(xiàn)次數(shù)大于次數(shù)閾值的詞語的集合;
將所述第一詞語集合中的詞語作為種子詞;
將所述種子詞轉(zhuǎn)換為第一詞向量;
獲取所述第一詞向量與所述第二詞語集合中的第二詞向量的余弦距離;
將所述余弦距離大于預(yù)設(shè)閾值的所述第二詞向量作為所述種子詞的拓展詞;
將一個種子詞和與之對應(yīng)的所有拓展詞作為一個主題的所述關(guān)鍵詞;
獲取所述多個主題的所述關(guān)鍵詞的均值,得到所述多個主題的所述向量均值,并利用所有向量均值組成主題矩陣,用于存儲不同主題的所述向量均值。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)第一神經(jīng)網(wǎng)絡(luò)模型對所述語義特征信息和所述主題特征信息的識別結(jié)果確定所述待處理文本的文本類型,并確定所述待處理文本的主題標簽包括:
將所述語義特征信息和所述主題特征信息作為所述第一神經(jīng)網(wǎng)絡(luò)模型的輸入;
獲取所述第一神經(jīng)網(wǎng)絡(luò)模型輸出的識別結(jié)果,其中,所述識別結(jié)果為全連接層的輸出結(jié)果,包括指示所述待處理文本的所述文本類型的第一預(yù)測值和指示所述待處理文本的所述諷刺主題的第二預(yù)測值;
在所述第一預(yù)測值大于目標閾值的情況下將所述待處理文本的所述文本類型確定為諷刺類型;
在所述第二預(yù)測值中的所述目標主題占比最大的情況下將所述目標主題確定為所述待處理文本的主題標簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所;國家計算機網(wǎng)絡(luò)與信息安全管理中心,未經(jīng)中國科學(xué)院自動化研究所;國家計算機網(wǎng)絡(luò)與信息安全管理中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010549940.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 移動通信終端的協(xié)同方法及其界面系統(tǒng)
- 業(yè)務(wù)協(xié)同流程配置、業(yè)務(wù)協(xié)同方法及裝置
- 一種基于健康檔案共享平臺的跨醫(yī)院協(xié)同檢查信息系統(tǒng)
- 一種協(xié)同控制方法、協(xié)同控制系統(tǒng)及變頻器
- 基于協(xié)同網(wǎng)關(guān)的跨域協(xié)同交互方法
- 一種生產(chǎn)協(xié)同管理方法及系統(tǒng)
- 云邊協(xié)同方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種智能辦公協(xié)同操作方法及系統(tǒng)
- 一種用于無人裝備的時間協(xié)同航跡規(guī)劃方法
- 基于大數(shù)據(jù)的智慧辦公協(xié)同方法及系統(tǒng)





