[發(fā)明專利]一種漢語國際教育領(lǐng)域命名實體識別方法在審
| 申請?zhí)枺?/td> | 201810632981.X | 申請日: | 2018-06-20 |
| 公開(公告)號: | CN108829678A | 公開(公告)日: | 2018-11-16 |
| 發(fā)明(設(shè)計)人: | 呂晨;姬東鴻;任亞峰;陳波 | 申請(專利權(quán))人: | 廣東外語外貿(mào)大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510000 *** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 命名實體 領(lǐng)域命名實體 國際教育 漢語 向量 嵌入 人工設(shè)計 標(biāo)注 規(guī)則模板 記憶網(wǎng)絡(luò) 領(lǐng)域文本 自動特征 數(shù)據(jù)集 詞性 標(biāo)簽 文本 測試 機場 學(xué)習(xí) | ||
本發(fā)明公開了一種漢語國際教育領(lǐng)域命名實體識別方法,該漢語國際教育領(lǐng)域命名實體識別方法具體步驟如下:S1:設(shè)計命名實體標(biāo)簽,用于識別文本中的命名實體,S2:通過已標(biāo)注的漢語國際領(lǐng)域命名實體數(shù)據(jù)集,訓(xùn)練命名實體識別模型,S3:對未標(biāo)注的漢語國際教育領(lǐng)域文本進行命名實體識別測試,利用已經(jīng)訓(xùn)練好的模型,跟基于規(guī)則的方法相比,本發(fā)明避免了領(lǐng)域?qū)<掖罅咳斯ぴO(shè)計規(guī)則模板的問題。本發(fā)明采用基于雙向長短時記憶網(wǎng)絡(luò)和條件隨機場的深度學(xué)習(xí)方法,來進行命名實體識別。該方法不需針對該任務(wù)人工設(shè)計特征,僅僅采用詞嵌入向量、字嵌入向量和詞性嵌入向量這些自動特征,能夠達到很好的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及漢語國際教育技術(shù)領(lǐng)域,具體為一種漢語國際教育領(lǐng)域命名實體識別方法。
背景技術(shù)
漢語國際教育的目標(biāo)是教外國人學(xué)習(xí)漢語,是中國文化軟實力的核心之一,是發(fā)揚和傳播中華文化的重要載體。近年來,對漢語國際教育而言,利用大數(shù)據(jù)進行教學(xué)和研究是一個比較新的嘗試。對漢語國際教育領(lǐng)域文本,包括互聯(lián)網(wǎng)媒體數(shù)據(jù)、學(xué)術(shù)文章、標(biāo)注資源和教學(xué)素材等進行信息抽取,將非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)數(shù)據(jù),有助于對外漢語教師對該領(lǐng)域知識的理解,輔助漢語教學(xué)。
命名實體識別是信息抽取領(lǐng)域的一個關(guān)鍵步驟,目標(biāo)是從文本中識別重要的實體。對漢語國際教育領(lǐng)域文本,其目標(biāo)是識別出語音、語法、漢字等用戶關(guān)心的實體。命名實體識別主要采用基于規(guī)則的方法和基于統(tǒng)計的方法。
基于規(guī)則的方法主要是通過專家對文本的分析,總結(jié)命名實體的內(nèi)部特征及上下文特征,然后人工設(shè)計規(guī)則模板,主要以正則表達式匹配的方法來進行命名實體識別。但是這些規(guī)則往往依賴于具體語言、文本領(lǐng)域及類型,編寫規(guī)則耗時且難以涵蓋所有的語言現(xiàn)象,需要對規(guī)則進行頻繁更新才能夠保持優(yōu)秀性能。
目前在命名實體領(lǐng)域,基于統(tǒng)計統(tǒng)計機器學(xué)習(xí)的方法是當(dāng)前最廣泛使用的方法。各種機器學(xué)習(xí)方法,包括支持向量機和條件隨機場模型,在該領(lǐng)域展現(xiàn)出了優(yōu)越的性能,但是當(dāng)前優(yōu)秀系統(tǒng)的成功依賴于大量人工設(shè)計的特征模板。最近深度學(xué)習(xí)方法在自然語言處理領(lǐng)域取得了顯著的進展,在一些任務(wù)上獲得了優(yōu)秀的性能,并且能夠緩解領(lǐng)域?qū)<胰斯ぴO(shè)計特征的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種漢語國際教育領(lǐng)域命名實體識別方法,其特征在于:該漢語國際教育領(lǐng)域命名實體識別方法具體步驟如下:
S1:設(shè)計命名實體標(biāo)簽,用于識別文本中的命名實體,對漢語國際教育領(lǐng)域文本識別一下幾種類別的實體:
語音(Voice):包括元音、輔音、聲母、韻母、聲調(diào)等,
語法(Grammar):包括句子成分、句子結(jié)構(gòu)、固定短語等,
漢字(Character):包括結(jié)構(gòu)、筆畫、筆順等,
文化(Culture):包括基本文化、交際文化、對比文化等,
語言技能(Skill):包括聽力、口語、商務(wù)漢語、新聞聽讀等,
教學(xué)法(Teach):教學(xué)原則、類型、目標(biāo)等,
命名實體識別就被形式化為一個序列標(biāo)注問題,采用BIESO標(biāo)簽來表示命名實體邊界,其中,S表示僅包含一個詞的實體;當(dāng)實體包含大于一個詞時,B表示實體的開始詞,E表示實體的結(jié)束詞,I表示實體的內(nèi)部詞;O表示不屬于任何實體的詞;
S2:通過已標(biāo)注的漢語國際領(lǐng)域命名實體數(shù)據(jù)集,訓(xùn)練命名實體識別模型,
首先,給定一個輸入句子,輸入層用于計算每個輸入詞的向量表示,該向量表示包括三部分:詞嵌入向量、詞性嵌入向量和字級別表示,將這三部分聯(lián)接起來,得到句子中每個詞的向量表示,并將其作為輸入層輸入到LSTM層,在LSTM輸出的基礎(chǔ)上,采用CRF對整個句子的標(biāo)簽序列進行聯(lián)合解碼,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東外語外貿(mào)大學(xué),未經(jīng)廣東外語外貿(mào)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810632981.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 識別領(lǐng)域命名實體的方法及裝置
- 基于工業(yè)領(lǐng)域構(gòu)建知識圖譜的方法、裝置及存儲介質(zhì)
- 一種自適應(yīng)的跨領(lǐng)域命名實體識別方法與系統(tǒng)
- 命名實體的識別方法和設(shè)備、以及計算機可讀存儲介質(zhì)
- 命名實體消歧方法、裝置、設(shè)備及存儲介質(zhì)
- 一種醫(yī)療領(lǐng)域命名實體識別方法及系統(tǒng)
- 命名實體識別模型建立方法及命名實體識別方法
- 醫(yī)學(xué)命名實體識別方法、裝置、電子設(shè)備和存儲介質(zhì)
- 一種融合神經(jīng)網(wǎng)絡(luò)和規(guī)則的命名實體識別方法及裝置
- 一種基于序列到序列架構(gòu)的命名實體識別方法





