[發(fā)明專利]一種基于seq2seq+attention的中文文本糾錯方法在審
| 申請?zhí)枺?/td> | 201811441697.0 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109614612A | 公開(公告)日: | 2019-04-12 |
| 發(fā)明(設計)人: | 李石君;鄧永康;楊濟海;余偉;余放;李宇軒 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/22;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產(chǎn)權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 糾錯 神經(jīng)網(wǎng)絡模型 中文文本 模型訓練 重新設計 構建 通信設備 檢修 文本 記錄 應用 優(yōu)化 研究 | ||
本發(fā)明涉及一種基于seq2seq+attention的中文文本糾錯方法,屬于數(shù)據(jù)質(zhì)量的研究范疇,涉及RNN,雙向RNN,LSTM,seq2seq,attention機制等技術領域,主要針對通信設備檢修記錄,構建seq2seq+attention神經(jīng)網(wǎng)絡模型,采用Adam優(yōu)化方法進行模型訓練,利用已經(jīng)訓練好的模型進行糾錯任務。本方法中所用到的神經(jīng)網(wǎng)絡模型可廣泛應用于其他領域的文本糾錯,在一定程度上避免了模型的重新設計。
技術領域
本發(fā)明屬于中文文本糾錯的技術領域,特別涉及到電力通信管理系統(tǒng)中產(chǎn)生的通信設備檢修記錄的糾錯領域。
背景技術
該領域涉及到的主要研究對象,關鍵技術和實際應用價值主要包括:
電力通信管理系統(tǒng):是作為智能電網(wǎng)重要支撐的電力專用通信網(wǎng)絡系統(tǒng),是總部和省公司“兩級部署”,總部、分部、省公司、市縣公司“四級應用”的通信管理系統(tǒng)“SG—TMS”。通過標準化規(guī)范化的項目建設以及對系統(tǒng)實用化的大力推進,“SG—TMS”已經(jīng)深度融入數(shù)萬電力通信專業(yè)人員的日常工作中,并且全面采集了數(shù)萬臺設備幾年來的建設、運行、管理數(shù)據(jù),積累下來的海量電力通信數(shù)據(jù)和眾多外部系統(tǒng)數(shù)據(jù)、公共數(shù)據(jù)一同形成了開展大數(shù)據(jù)分析的基礎。
設備檢修記錄:智能電網(wǎng)通信的信息化管理系統(tǒng)中已經(jīng)積累了大量檢修數(shù)據(jù)、方式數(shù)據(jù)、運行記錄數(shù)據(jù),其中既有規(guī)范的結構化數(shù)據(jù)如檢修類型、執(zhí)行日期等,也有很多類似運行記錄一類的半結構化數(shù)據(jù),還有很多類似路由方式描述、“三措一案”文檔、圖片等非結構化數(shù)據(jù)。通過對這些過程和結論數(shù)據(jù)的深入分析與挖掘,可以總結出管理規(guī)律,對現(xiàn)有的制度和管理方式進行優(yōu)化和合理安排。還可以通過大數(shù)據(jù)手段實現(xiàn)對運行方式、“三措一案”等流程化工作的機器自動初審、對工作記錄的自動輔助糾錯補缺等智能化功能,降低管理人員勞動強度,提升方式、檢修審批效率和記錄規(guī)范性。
基于字粒度:主要有兩個原因:第一,由于設備檢修記錄中包含錯別字或者存在缺失情況,導致分詞結果不準確,所以糾錯任務不適合在詞粒度上進行;第二,在給定固定的詞匯表的情況下,基于詞語的糾錯任務無法處理OOV(out ofvocabulary)的詞語。
RNN:RNN是一種序列連接模型,通過網(wǎng)絡節(jié)點中的循環(huán)來捕獲動態(tài)序列。與標準前饋神經(jīng)網(wǎng)絡不同,RNN可以保留任意長度的上下文窗口的狀態(tài)信息。雖然RNN很難訓練,并且通常包含數(shù)百萬個參數(shù),但網(wǎng)絡架構,優(yōu)化技術和并行計算方面的最新進展使得它們能夠成功地進行大規(guī)模學習。
雙向RNN:在經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡中,狀態(tài)是從前往后單向傳輸?shù)摹H欢谟行﹩栴}中,當前時刻的輸出不僅和之前的狀態(tài)有關系,也和之后的狀態(tài)相關。這時就需要雙向RNN來解決這類問題。例如,在本發(fā)明的文本糾錯任務中,預測一個語句中缺失的詞語不僅需要根據(jù)前文來判斷,也需要結合后面的內(nèi)容,這時雙向RNN就可以發(fā)揮它的作用。
LSTM:Long Short-Term Memory,是長短期記憶網(wǎng)絡。RNN在處理長期依賴(時間序列上距離較遠的節(jié)點)時會遇到巨大的困難,因為計算距離較遠的節(jié)點之間的聯(lián)系時會涉及雅可比矩陣的多次相乘,這會帶來梯度消失或者梯度爆炸的問題。為了解決此問題,SeppHochreiter等人[3]提出了LSTM模型,通過增加輸入門限,遺忘門限和輸出門限,使得自循環(huán)的權重是變化的,這樣一來在模型參數(shù)固定的情況下,不同時刻的積分尺度可以動態(tài)改變,從而避免了梯度消失或者梯度膨脹的問題。
Seq2seq:seq2seq是一個Encoder–Decoder結構的網(wǎng)絡,它的輸入是一個序列,輸出也是一個序列,Encoder中將一個可變長度的信號序列變?yōu)楣潭ㄩL度的向量表達,Decoder將這個固定長度的向量變成可變長度的目標的信號序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經(jīng)武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811441697.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 一種對神經(jīng)網(wǎng)絡模型進行訓練的方法、裝置及電子設備
- 一種神經(jīng)網(wǎng)絡模型壓縮方法以及裝置
- 姿態(tài)檢測方法、裝置、設備及存儲介質(zhì)
- 基于無標簽數(shù)據(jù)的神經(jīng)網(wǎng)絡模型量化方法及裝置
- 神經(jīng)網(wǎng)絡模型更新方法、圖像處理方法及裝置
- 含有聚類拓撲耦合的神經(jīng)網(wǎng)絡脈沖同步方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡模型的部署方法、設備及介質(zhì)
- 神經(jīng)網(wǎng)絡模型的優(yōu)化方法、裝置、設備及存儲介質(zhì)
- 基于框架搜索的深度神經(jīng)網(wǎng)絡的加速與壓縮方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡模型生成方法及裝置





