[發(fā)明專利]一種中文事件的檢測(cè)方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201911366648.X | 申請(qǐng)日: | 2019-12-26 |
| 公開(kāi)(公告)號(hào): | CN111222330B | 公開(kāi)(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計(jì))人: | 談元鵬;宋磊;李思;徐會(huì)芳;彭國(guó)政;張銳;劉劍青;王凱;王明軒;朱明陽(yáng);藍(lán)海波;李晶;陸樹(shù)棟;王新迎;喬驥;張玉天;趙紫璇;王芳 | 申請(qǐng)(專利權(quán))人: | 中國(guó)電力科學(xué)研究院有限公司;國(guó)網(wǎng)冀北電力有限公司;北京郵電大學(xué);國(guó)家電網(wǎng)有限公司 |
| 主分類(lèi)號(hào): | G06F40/289 | 分類(lèi)號(hào): | G06F40/289;G06N3/04 |
| 代理公司: | 北京安博達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11271 | 代理人: | 徐國(guó)文 |
| 地址: | 100192 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 事件 檢測(cè) 方法 系統(tǒng) | ||
本發(fā)明提供了一種中文事件的檢測(cè)方法,包括:將待檢測(cè)文本轉(zhuǎn)換成字符向量序列和詞向量序列;將字符向量序列和詞向量序列輸入預(yù)先建立的中文事件檢測(cè)模型,得到待檢測(cè)文本的觸發(fā)詞以及對(duì)應(yīng)的事件類(lèi)型;其中,中文事件檢測(cè)模型考慮了事件類(lèi)型間共現(xiàn)關(guān)系。本發(fā)明對(duì)于原基礎(chǔ)模型檢測(cè)輸出的不確定結(jié)果,利用事件類(lèi)型間的共現(xiàn)關(guān)系,可以在文本中尋找其它事件的分類(lèi),對(duì)部分錯(cuò)誤的輸出結(jié)果進(jìn)行更正,提高中文事件檢測(cè)的性能。
技術(shù)領(lǐng)域
本發(fā)明自然語(yǔ)言處理技術(shù)領(lǐng)域,具體涉及一種中文事件的檢測(cè)方法和系統(tǒng)。
背景技術(shù)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算機(jī)的計(jì)算能力得到巨大的提升,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的研究取得一系列重要成果,自然語(yǔ)言處理逐漸得到廣泛應(yīng)用,例如通過(guò)情感分析技術(shù)挖掘商品評(píng)論中的用戶喜好,通過(guò)機(jī)器翻譯技術(shù)自動(dòng)為用戶翻譯外文內(nèi)容等。同時(shí),隨著互聯(lián)網(wǎng)的普及特別是社交媒體的快速發(fā)展,由此產(chǎn)生的文本數(shù)據(jù)呈現(xiàn)爆炸試增長(zhǎng),對(duì)大量信息進(jìn)行自動(dòng)處理及分析具有重要的意義和價(jià)值。因此,自然語(yǔ)言處理技術(shù)憑借其高效的文本處理及分析能力,獲得了社會(huì)的廣泛關(guān)注。對(duì)于國(guó)內(nèi)而言,對(duì)中文的處理和分析與人們的生活工作息息相關(guān)。中文事件檢測(cè),作為中文信息提取的基本任務(wù),以中文分詞、中文詞性標(biāo)注、命名實(shí)體識(shí)別等任務(wù)為基礎(chǔ),在自動(dòng)文摘、自動(dòng)問(wèn)答、信息檢索、事件推理等領(lǐng)域有著廣泛的應(yīng)用。
用于事件檢測(cè)的傳統(tǒng)方法包括模式匹配、結(jié)構(gòu)化感知機(jī)、最大熵模型等。近年來(lái)發(fā)展的深度學(xué)習(xí)中的前饋神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶模型、卷積神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等都被用在事件檢測(cè)任務(wù)上并在公開(kāi)數(shù)據(jù)集上取得了不錯(cuò)的效果,而自然語(yǔ)言處理需要在大量文本信息中,極速完成海量文本的分類(lèi)和文本標(biāo)簽提取,就需要高效率的檢測(cè)性能,因此,如何提高中文事件檢測(cè)的性能是本領(lǐng)域技術(shù)人員需要解決的問(wèn)題。
發(fā)明內(nèi)容
為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種中文事件的檢測(cè)方法包括:
將待檢測(cè)文本轉(zhuǎn)換成字符向量序列和詞向量序列;
將所述字符向量序列和詞向量序列輸入預(yù)先建立的中文事件檢測(cè)模型,得到所述待檢測(cè)文本的觸發(fā)詞以及對(duì)應(yīng)的事件類(lèi)型;
所述中文事件檢測(cè)模型考慮了事件類(lèi)型間共現(xiàn)關(guān)系。
優(yōu)選的,將待檢測(cè)文本轉(zhuǎn)換成字符向量序列和詞向量序列,包括:
采用中文分詞工具將待檢測(cè)文本轉(zhuǎn)換成字符序列和詞序列;
基于字符向量表和詞向量表,將所述字符序列和詞序列轉(zhuǎn)化成字符向量序列和詞向量序列。
優(yōu)選的,中文事件檢測(cè)模型的建立,包括:
基于具有確定觸發(fā)詞和事件類(lèi)型的文本構(gòu)建訓(xùn)練集;
構(gòu)建基礎(chǔ)模型,采用訓(xùn)練集對(duì)所述基礎(chǔ)模型進(jìn)行訓(xùn)練,得到訓(xùn)練集文本中的觸發(fā)詞和各字符對(duì)應(yīng)的初步事件類(lèi)型特征和初步事件類(lèi)型概率分布;
在基礎(chǔ)模型上構(gòu)建用于建模事件類(lèi)型間共現(xiàn)關(guān)系的共現(xiàn)關(guān)系層,將所述基礎(chǔ)模型中得到的各個(gè)字符對(duì)應(yīng)的初步事件類(lèi)型特征和初步事件類(lèi)型概率分布作為所述共現(xiàn)關(guān)系層的輸入,計(jì)算各個(gè)字符對(duì)應(yīng)的考慮事件類(lèi)型間共現(xiàn)關(guān)系的事件類(lèi)型特征;
在共現(xiàn)關(guān)系層上構(gòu)建分類(lèi)層,將所述共現(xiàn)關(guān)系層得到的各個(gè)字符對(duì)應(yīng)的考慮事件類(lèi)型間共現(xiàn)關(guān)系的事件類(lèi)型特征作為的輸入,計(jì)算各個(gè)字符對(duì)應(yīng)的考慮事件類(lèi)型間共現(xiàn)關(guān)系的事件類(lèi)型概率分布,事件類(lèi)型結(jié)果取概率最高的事件類(lèi)型。
優(yōu)選的,中文事件檢測(cè)模型的建立,還包括:
基于分類(lèi)層預(yù)測(cè)的事件類(lèi)型概率分布與真實(shí)的事件類(lèi)型概率分布得到模型訓(xùn)練的交叉熵?fù)p失函數(shù);
求解交叉熵?fù)p失函數(shù)的反向梯度,根據(jù)學(xué)習(xí)率對(duì)共現(xiàn)關(guān)系層及分類(lèi)層中的參數(shù)進(jìn)行更新。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)電力科學(xué)研究院有限公司;國(guó)網(wǎng)冀北電力有限公司;北京郵電大學(xué);國(guó)家電網(wǎng)有限公司,未經(jīng)中國(guó)電力科學(xué)研究院有限公司;國(guó)網(wǎng)冀北電力有限公司;北京郵電大學(xué);國(guó)家電網(wǎng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911366648.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種事件通訊裝置及方法
- 動(dòng)態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測(cè)裝置和攻擊檢測(cè)方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種樹(shù)狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲(chǔ)介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





