[發(fā)明專利]口語化要素識別方法及裝置、警情分析系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010937545.0 | 申請日: | 2020-09-08 |
| 公開(公告)號: | CN112016313A | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計)人: | 杜渂;邱祥平;雷霆;王聚全;彭明喜;周趙云;索濤;劉冉東;楊博;劉亮亮;宋平超;林永生;何共暉 | 申請(專利權(quán))人: | 迪愛斯信息技術(shù)股份有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 上海碩力知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31251 | 代理人: | 郭桂峰 |
| 地址: | 200233 上海*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 口語化 要素 識別 方法 裝置 情分 系統(tǒng) | ||
本發(fā)明提供了一種口語化要素識別方法及裝置、警情分析系統(tǒng),其中,口語化要素識別方法中包括:獲取待識別文本,并將文本中的字符進行映射得到字符向量;使用預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)對待識別文本進行特征抽取獲取字符向量的上下文編碼信息,生成語義編碼向量;對字符向量和語義編碼向量進行融合編碼;使用條件隨機場對融合后的向量進行類別判斷并輸出,實現(xiàn)對待識別文本中的要素進行識別。相比傳統(tǒng)的CNN、RNN等網(wǎng)絡(luò)結(jié)構(gòu),該模型具有更強的上下文雙向特征抽取能力,模型的總體命名實體識別準確度達90.84%。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機與網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤指一種口語化要素識別方法及裝置、警情分析系統(tǒng)。
背景技術(shù)
針對數(shù)據(jù)分析的需求,有些時候需要從一些文本中抽取一些要素,比如搭建智慧警情系統(tǒng)時就需要從接處警文本中抽取要素。然而,接處警文本中通常會包含大量的口語化要素,包括時間、地點、作案手段等,其中,針對一時間“2020年1月1日8時”就可能會出現(xiàn)“2020年1月1日上午8點”、“2020年1 月1號8點左右”、“2020年元旦那天”等多種表達方式,作案手段可能會出現(xiàn)如“強買強賣”、“必須搭售保險”、“不交押金就不讓走”等不同的說法。由于口語化要素缺少較為明顯的表述規(guī)則,是以很難通過簡單的關(guān)鍵字匹配方式來檢索。
近年來,學(xué)者們先后提出了許多基于神經(jīng)網(wǎng)絡(luò)的命名實體識別方法,主要思路是使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeural Network,RNN)等結(jié)構(gòu)提取序列隱含特征,之后利用條件隨機場(ConditionalRandom Field,CRF)求解最優(yōu)序列。
雖然相比基于統(tǒng)計學(xué)的方法,如隱馬爾可夫模型(Hidden Markov Model, MM)、最大熵模型(Maximum Entropy Model,MEM)等來說,基于神經(jīng)網(wǎng)絡(luò)的命名實體識別算法,可以通過大量文本學(xué)習(xí)相關(guān)的語言特征,自動化地構(gòu)建實體信息抽取框架,從而提取出特定的要素,但是仍然存在特征抽取能力不足、識別率不夠的問題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種口語化要素識別方法及裝置、警情分析系統(tǒng),有效解決現(xiàn)有技術(shù)對口語化要素識別率不高的技術(shù)問題。
本發(fā)明提供的技術(shù)方案如下:
一種口語化要素識別方法,包括:
獲取待識別文本,并將文本中的字符進行映射得到字符向量;
使用預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)對所述待識別文本進行特征抽取獲取字符向量的上下文編碼信息,生成語義編碼向量;
對所述字符向量和語義編碼向量進行融合編碼;
使用條件隨機場對融合后的向量進行類別判斷并輸出,實現(xiàn)對待識別文本中的要素進行識別。
進一步優(yōu)選地,在所述將文本中的字符進行映射得到字符向量中:采用跳詞模型對滿足預(yù)設(shè)規(guī)則的字符進行字向量編碼;所述預(yù)設(shè)規(guī)則包括:字符于待識別文本中出現(xiàn)的頻率大于預(yù)設(shè)頻率。
進一步優(yōu)選地,在所述使用預(yù)訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)對所述待識別文本進行特征抽取獲取字符向量的上下文編碼信息,生成語義編碼向量中:使用預(yù)訓(xùn)練的BiLSTM模型對所述待識別文本進行特征抽取獲取字符向量的上下文編碼信息,生成語義編碼向量。
進一步優(yōu)選地,在所述將文本中的字符進行映射得到字符向量中,包括:針對所述待識別文本中各漢字的潛在語義,得到每個漢字對應(yīng)的多個字符向量;
在對所述字符向量和語義編碼向量進行融合編碼中,包括:從每個漢字對應(yīng)的多個字符向量中選定一字符向量實現(xiàn)字符向量和語義編碼向量的融合編碼。
進一步優(yōu)選地,在對所述字符向量和語義編碼向量進行融合編碼中,將待識別文本上下文中詞語的表征為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于迪愛斯信息技術(shù)股份有限公司,未經(jīng)迪愛斯信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010937545.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種紡織紗線的上蠟裝置
- 下一篇:一種毛筆彈性測試方法





