[發(fā)明專利]一種基于細粒度詞表示模型的序列標注模型及方法有效
| 申請?zhí)枺?/td> | 201810120922.4 | 申請日: | 2018-01-30 |
| 公開(公告)號: | CN108460013B | 公開(公告)日: | 2021-08-20 |
| 發(fā)明(設計)人: | 張紹武;林廣和;楊亮;林鴻飛 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 細粒度 詞表 模型 序列 標注 方法 | ||
本發(fā)明提供了一種基于細粒度詞表示模型的序列標注模型,用于進行序列標注任務,屬于計算機應用及自然語言處理領域。本發(fā)明的模型結構主要由特征表示層、BiLSTM和CRF層3部分構成。利用該模型進行序列標注任務時,首先提出一種基于注意力機制的字符級詞表示模型Finger來融合形態(tài)學信息和單詞的字符信息,然后由Finger與BiLSTM?CRF模型共同完成序列標注任務,最終該方法以端到端、無任何特征工程形式在CoNLL 2003數據集上取得了F1為91.09%的結果。實驗表明本發(fā)明設計的Finger模型顯著提升序列標注系統的召回率,從而使得模型的識別能力顯著提升。
技術領域
本發(fā)明屬于計算機應用及自然語言處理領域,涉及一種基于注意力機制的字符級模型及其在序列標注任務的應用。本發(fā)明提出了一種基于細粒度詞表示模型的序列標注模型。主要創(chuàng)新在于設計了一種基于注意力機制的細粒度詞表示模型來更精準、全局、動態(tài)地刻畫單詞的形態(tài)學信息,進而提出了基于該詞表示模型的序列標注模型。該序列標注模型不僅具有較高的序列標注能力,而且無需特征工程,同時具有很強的可解釋性。
背景技術
詞性標注(Part-of-Speech Tagging)、命名實體識別(Named EntityRecognition,NER)等序列標注任務是自然語言處理領域的基礎工作。以NER為例,其主要任務是識別文本中的人名、地名、組織機構名等專有名詞和有意義的時間、日期等短語。序列標注任務作為信息抽取中重要的組成部分,其識別效果對于后續(xù)的機器翻譯等任務有很大影響。
目前序列標注任務主要模型分為傳統的統計機器學習模型和神經網絡模型兩類。常見的統計模型主要有隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機場(Conditional Random Field,CRF)等淺層模型,其中CRF模型廣泛應用于各種序列標注任務中,并取得了不錯的效果。近年來,深度學習在自然語言處理領域中取得了重大的突破。與傳統機器學習方法相比,神經網絡模型在序列標注任務中取得了更好的結果。神經網絡方法在使用大規(guī)模的未標注語料進行詞向量訓練,通過將預訓練詞向量輸入到卷積神經網絡(Convolutional Neural Network,CNN)、循環(huán)神經網絡(Recurrent Neural Network,RNN)等模型,實現了端到端的訓練。在基于神經網絡方法的NER任務中,Collobert等人采用CNN進行特征抽取,同時提出了一種句級對數似然函數(Sentence-level log-likelihood),通過融合其它特征取得了不錯的結果。Huang等人提出了BiLSTM-CRF模型,同時還融合了其他語言學特征以提升模型性能。在上述方法中,淺層模型采用了特征工程,但在其他領域和語言中泛化能力不佳;大部分神經網絡模型盡管采用了語義豐富的詞向量,自動學習任務相關的特征表示,但是沒有考慮單詞的結構信息,導致形態(tài)學信息缺失的問題。如何使模型能根據當前的任務自動學習形態(tài)學上的信息,從而提升實體識別性能成為近期研究的熱點。
在目前的序列標注任務中,研究自動學習詞形信息的工作主要有Lample等人的雙向長短時記憶網絡(Bi-directional Long Short-Term Memory network,BiLSTM)和Chiu等人的CNN。Lample等人采用兩個BiLSTM分別自動學習詞級和字符級表示,在命名實體識別任務中取得了與先進水平可比的結果。Chiu等人提出采用CNN自動學習字符級表示,在一定程度上緩解了模型對于特征工程的依賴,同時還融合了由兩個公開的外部資源構造的詞典特征,在CoNLL 2003英文NER語料上取得了F1為91.62%的目前最先進結果。盡管上述字符級表示模型在命名實體識別任務中取得了較好的進展,但是兩者在理論上均無法全局、動態(tài)地定量表示單詞內各字符在字符級詞向量中的貢獻。如何能全局、動態(tài)地定量刻畫詞內各字符的貢獻以期產生一種更好的字符級表達方式是本發(fā)明的核心內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810120922.4/2.html,轉載請聲明來源鉆瓜專利網。





