[發(fā)明專利]一種漢語國際教育領(lǐng)域命名實體識別方法在審

申請?zhí)枺?/td>	201810632981.X	申請日：	2018-06-20
公開（公告）號：	CN108829678A	公開（公告）日：	2018-11-16
發(fā)明（設(shè)計）人：	呂晨;姬東鴻;任亞峰;陳波	申請（專利權(quán)）人：	廣東外語外貿(mào)大學(xué)
主分類號：	G06F17/27	分類號：	G06F17/27;G06N3/02
代理公司：	暫無信息	代理人：	暫無信息
地址：	510000 ***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	命名實體領(lǐng)域命名實體國際教育漢語向量嵌入人工設(shè)計標(biāo)注規(guī)則模板記憶網(wǎng)絡(luò) 領(lǐng)域文本自動特征數(shù)據(jù)集詞性標(biāo)簽文本測試機場學(xué)習(xí)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種漢語國際教育領(lǐng)域命名實體識別方法，該漢語國際教育領(lǐng)域命名實體識別方法具體步驟如下：S1：設(shè)計命名實體標(biāo)簽，用于識別文本中的命名實體，S2：通過已標(biāo)注的漢語國際領(lǐng)域命名實體數(shù)據(jù)集，訓(xùn)練命名實體識別模型，S3：對未標(biāo)注的漢語國際教育領(lǐng)域文本進行命名實體識別測試，利用已經(jīng)訓(xùn)練好的模型，跟基于規(guī)則的方法相比，本發(fā)明避免了領(lǐng)域?qū)＜掖罅咳斯ぴO(shè)計規(guī)則模板的問題。本發(fā)明采用基于雙向長短時記憶網(wǎng)絡(luò)和條件隨機場的深度學(xué)習(xí)方法，來進行命名實體識別。該方法不需針對該任務(wù)人工設(shè)計特征，僅僅采用詞嵌入向量、字嵌入向量和詞性嵌入向量這些自動特征，能夠達到很好的效果。

技術(shù)領(lǐng)域

本發(fā)明涉及漢語國際教育技術(shù)領(lǐng)域，具體為一種漢語國際教育領(lǐng)域命名實體識別方法。

背景技術(shù)

漢語國際教育的目標(biāo)是教外國人學(xué)習(xí)漢語，是中國文化軟實力的核心之一，是發(fā)揚和傳播中華文化的重要載體。近年來，對漢語國際教育而言，利用大數(shù)據(jù)進行教學(xué)和研究是一個比較新的嘗試。對漢語國際教育領(lǐng)域文本，包括互聯(lián)網(wǎng)媒體數(shù)據(jù)、學(xué)術(shù)文章、標(biāo)注資源和教學(xué)素材等進行信息抽取，將非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)數(shù)據(jù)，有助于對外漢語教師對該領(lǐng)域知識的理解，輔助漢語教學(xué)。

命名實體識別是信息抽取領(lǐng)域的一個關(guān)鍵步驟，目標(biāo)是從文本中識別重要的實體。對漢語國際教育領(lǐng)域文本，其目標(biāo)是識別出語音、語法、漢字等用戶關(guān)心的實體。命名實體識別主要采用基于規(guī)則的方法和基于統(tǒng)計的方法。

基于規(guī)則的方法主要是通過專家對文本的分析，總結(jié)命名實體的內(nèi)部特征及上下文特征，然后人工設(shè)計規(guī)則模板，主要以正則表達式匹配的方法來進行命名實體識別。但是這些規(guī)則往往依賴于具體語言、文本領(lǐng)域及類型，編寫規(guī)則耗時且難以涵蓋所有的語言現(xiàn)象，需要對規(guī)則進行頻繁更新才能夠保持優(yōu)秀性能。

目前在命名實體領(lǐng)域，基于統(tǒng)計統(tǒng)計機器學(xué)習(xí)的方法是當(dāng)前最廣泛使用的方法。各種機器學(xué)習(xí)方法，包括支持向量機和條件隨機場模型，在該領(lǐng)域展現(xiàn)出了優(yōu)越的性能，但是當(dāng)前優(yōu)秀系統(tǒng)的成功依賴于大量人工設(shè)計的特征模板。最近深度學(xué)習(xí)方法在自然語言處理領(lǐng)域取得了顯著的進展，在一些任務(wù)上獲得了優(yōu)秀的性能，并且能夠緩解領(lǐng)域?qū)＜胰斯ぴO(shè)計特征的問題。

發(fā)明內(nèi)容

本發(fā)明的目的在于提供一種漢語國際教育領(lǐng)域命名實體識別方法，其特征在于：該漢語國際教育領(lǐng)域命名實體識別方法具體步驟如下：

S1：設(shè)計命名實體標(biāo)簽，用于識別文本中的命名實體，對漢語國際教育領(lǐng)域文本識別一下幾種類別的實體：

語音(Voice)：包括元音、輔音、聲母、韻母、聲調(diào)等，

語法(Grammar)：包括句子成分、句子結(jié)構(gòu)、固定短語等，

漢字(Character)：包括結(jié)構(gòu)、筆畫、筆順等，

文化(Culture)：包括基本文化、交際文化、對比文化等，

語言技能(Skill)：包括聽力、口語、商務(wù)漢語、新聞聽讀等，

教學(xué)法(Teach)：教學(xué)原則、類型、目標(biāo)等，

命名實體識別就被形式化為一個序列標(biāo)注問題，采用BIESO標(biāo)簽來表示命名實體邊界，其中，S表示僅包含一個詞的實體；當(dāng)實體包含大于一個詞時，B表示實體的開始詞，E表示實體的結(jié)束詞，I表示實體的內(nèi)部詞；O表示不屬于任何實體的詞；

S2：通過已標(biāo)注的漢語國際領(lǐng)域命名實體數(shù)據(jù)集，訓(xùn)練命名實體識別模型，

首先，給定一個輸入句子，輸入層用于計算每個輸入詞的向量表示，該向量表示包括三部分：詞嵌入向量、詞性嵌入向量和字級別表示，將這三部分聯(lián)接起來，得到句子中每個詞的向量表示，并將其作為輸入層輸入到LSTM層，在LSTM輸出的基礎(chǔ)上，采用CRF對整個句子的標(biāo)簽序列進行聯(lián)合解碼，

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東外語外貿(mào)大學(xué)，未經(jīng)廣東外語外貿(mào)大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810632981.X/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于多模態(tài)注意力的圖像標(biāo)題自動生成方法
下一篇：語料標(biāo)注方法及裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】