[發(fā)明專利]一種漢語(yǔ)國(guó)際教育領(lǐng)域命名實(shí)體識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810632981.X | 申請(qǐng)日: | 2018-06-20 |
| 公開(kāi)(公告)號(hào): | CN108829678A | 公開(kāi)(公告)日: | 2018-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 呂晨;姬東鴻;任亞峰;陳波 | 申請(qǐng)(專利權(quán))人: | 廣東外語(yǔ)外貿(mào)大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27;G06N3/02 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 510000 *** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 命名實(shí)體 領(lǐng)域命名實(shí)體 國(guó)際教育 漢語(yǔ) 向量 嵌入 人工設(shè)計(jì) 標(biāo)注 規(guī)則模板 記憶網(wǎng)絡(luò) 領(lǐng)域文本 自動(dòng)特征 數(shù)據(jù)集 詞性 標(biāo)簽 文本 測(cè)試 機(jī)場(chǎng) 學(xué)習(xí) | ||
1.一種漢語(yǔ)國(guó)際教育領(lǐng)域命名實(shí)體識(shí)別方法,其特征在于:該漢語(yǔ)國(guó)際教育領(lǐng)域命名實(shí)體識(shí)別方法具體步驟如下:
S1:設(shè)計(jì)命名實(shí)體標(biāo)簽,用于識(shí)別文本中的命名實(shí)體,對(duì)漢語(yǔ)國(guó)際教育領(lǐng)域文本識(shí)別一下幾種類別的實(shí)體:
語(yǔ)音(Voice):包括元音、輔音、聲母、韻母、聲調(diào)等,
語(yǔ)法(Grammar):包括句子成分、句子結(jié)構(gòu)、固定短語(yǔ)等,
漢字(Character):包括結(jié)構(gòu)、筆畫、筆順等,
文化(Culture):包括基本文化、交際文化、對(duì)比文化等,
語(yǔ)言技能(Skill):包括聽(tīng)力、口語(yǔ)、商務(wù)漢語(yǔ)、新聞聽(tīng)讀等,
教學(xué)法(Teach):教學(xué)原則、類型、目標(biāo)等,
命名實(shí)體識(shí)別就被形式化為一個(gè)序列標(biāo)注問(wèn)題,采用BIESO標(biāo)簽來(lái)表示命名實(shí)體邊界,其中,S表示僅包含一個(gè)詞的實(shí)體;當(dāng)實(shí)體包含大于一個(gè)詞時(shí),B表示實(shí)體的開(kāi)始詞,E表示實(shí)體的結(jié)束詞,I表示實(shí)體的內(nèi)部詞;O表示不屬于任何實(shí)體的詞;
S2:通過(guò)已標(biāo)注的漢語(yǔ)國(guó)際領(lǐng)域命名實(shí)體數(shù)據(jù)集,訓(xùn)練命名實(shí)體識(shí)別模型,
首先,給定一個(gè)輸入句子,輸入層用于計(jì)算每個(gè)輸入詞的向量表示,該向量表示包括三部分:詞嵌入向量、詞性嵌入向量和字級(jí)別表示,將這三部分聯(lián)接起來(lái),得到句子中每個(gè)詞的向量表示,并將其作為輸入層輸入到LSTM層,在LSTM輸出的基礎(chǔ)上,采用CRF對(duì)整個(gè)句子的標(biāo)簽序列進(jìn)行聯(lián)合解碼,
對(duì)于輸入層,給定一個(gè)輸入句子s,可以看作包含m個(gè)詞的有序鏈表s={wi,…,wm},為了獲取詞的字級(jí)別表示,我們用{c1,…,cn}表示詞wi的字序列,其中cj是詞的第j個(gè)字,字嵌入查找表函數(shù)用于將每個(gè)字cj映射到它的字嵌入表示對(duì)詞wi,采用注意力模型來(lái)對(duì)詞本身包含的字信息進(jìn)行編碼,獲取詞的字級(jí)別表示,在該模型中,其中是wi的字信息表示,是對(duì)應(yīng)的權(quán)重,⊙是點(diǎn)積函數(shù)并且
每個(gè)的計(jì)算基于當(dāng)前詞wi的詞嵌入表示和當(dāng)前字的字嵌入表示具體計(jì)算公式如下:
其中是向量聯(lián)接函數(shù),Wc、Wt、Ut、bc和bt是模型參數(shù),
將字級(jí)別表示詞性嵌入向量和詞嵌入向量結(jié)合起來(lái)得到當(dāng)前位置的詞表示,然后,我們使用一個(gè)窗口函數(shù)來(lái)對(duì)當(dāng)前詞的上下文建模,將以當(dāng)前詞wi為中心的5個(gè)詞的詞表示聯(lián)接起來(lái)作為當(dāng)前詞最終的詞表示輸入到下一層,
下一步,將句子序列對(duì)應(yīng)的詞的向量表示序列,輸入到LSTM神經(jīng)網(wǎng)絡(luò)層,LSTM用于獲取一個(gè)詞的上下文信息,能夠進(jìn)行自動(dòng)的特征抽取,前向LSTM和后向LSTM能夠在該層結(jié)合起來(lái),LSTM神經(jīng)網(wǎng)絡(luò)層之后,是一個(gè)用于組成更豐富特征的非線性前饋神經(jīng)網(wǎng)絡(luò)層;
最后,神經(jīng)網(wǎng)絡(luò)的輸出向量傳輸?shù)紺RF層,我們通過(guò)CRF層對(duì)該句子的標(biāo)記序列進(jìn)行聯(lián)合解碼,能夠考慮到相鄰標(biāo)記間的相關(guān)性;
在模型訓(xùn)練方面,采用最大似然目標(biāo)來(lái)訓(xùn)練模型,并且采用AdaGrad算法來(lái)更新模型參數(shù);
模型的參數(shù)包含輸入層中的各種嵌入向量、每個(gè)神經(jīng)層的權(quán)重矩陣W和偏置向量b,以及CRF層的轉(zhuǎn)移分值矩陣;
在模型參數(shù)初始化方面,詞嵌入向量需要大規(guī)模無(wú)標(biāo)注語(yǔ)料預(yù)先訓(xùn)練得到,采用的訓(xùn)練語(yǔ)料來(lái)自于互聯(lián)網(wǎng)爬取的漢語(yǔ)國(guó)際教育相關(guān)語(yǔ)料,所選語(yǔ)料并不是通用語(yǔ)料,這樣訓(xùn)練出來(lái)的詞嵌入向量更適合于該領(lǐng)域任務(wù)。然后我們對(duì)該語(yǔ)料進(jìn)行分詞,使用當(dāng)前常用的詞嵌入向量學(xué)習(xí)方法word2vec來(lái)訓(xùn)練詞嵌入向量,對(duì)字嵌入向量和詞性嵌入向量,我們將其向量維度設(shè)置為30,并且采用[0,1]范圍之間的隨機(jī)初始化,
對(duì)神經(jīng)網(wǎng)絡(luò)模型中的每個(gè)神經(jīng)層,權(quán)重矩陣W和偏置向量b采用之間的隨機(jī)初始化,其中r和c分別是矩陣W和行數(shù)和列數(shù);
S3:對(duì)未標(biāo)注的漢語(yǔ)國(guó)際教育領(lǐng)域文本進(jìn)行命名實(shí)體識(shí)別測(cè)試,利用已經(jīng)訓(xùn)練好的模型,對(duì)整個(gè)句子進(jìn)行解碼,得到每個(gè)句子的實(shí)體標(biāo)簽序列,進(jìn)而得到命名實(shí)體識(shí)別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東外語(yǔ)外貿(mào)大學(xué),未經(jīng)廣東外語(yǔ)外貿(mào)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810632981.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 命名實(shí)體識(shí)別方法及裝置
- 醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法及裝置
- 命名實(shí)體的識(shí)別方法、識(shí)別系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于外部知識(shí)的命名實(shí)體識(shí)別方法、系統(tǒng)及電子設(shè)備
- 數(shù)據(jù)處理方法、裝置及計(jì)算機(jī)終端
- 命名實(shí)體消歧方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 命名實(shí)體識(shí)別方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 命名實(shí)體歸一化處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于網(wǎng)絡(luò)分類的命名實(shí)體識(shí)別方法
- 一種基于序列到序列架構(gòu)的命名實(shí)體識(shí)別方法
- 識(shí)別領(lǐng)域命名實(shí)體的方法及裝置
- 基于工業(yè)領(lǐng)域構(gòu)建知識(shí)圖譜的方法、裝置及存儲(chǔ)介質(zhì)
- 一種自適應(yīng)的跨領(lǐng)域命名實(shí)體識(shí)別方法與系統(tǒng)
- 命名實(shí)體的識(shí)別方法和設(shè)備、以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 命名實(shí)體消歧方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種醫(yī)療領(lǐng)域命名實(shí)體識(shí)別方法及系統(tǒng)
- 命名實(shí)體識(shí)別模型建立方法及命名實(shí)體識(shí)別方法
- 醫(yī)學(xué)命名實(shí)體識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種融合神經(jīng)網(wǎng)絡(luò)和規(guī)則的命名實(shí)體識(shí)別方法及裝置
- 一種基于序列到序列架構(gòu)的命名實(shí)體識(shí)別方法
- 一種漢語(yǔ)國(guó)際教育領(lǐng)域命名實(shí)體識(shí)別方法
- 一種面向漢語(yǔ)國(guó)際教育的智能導(dǎo)學(xué)方法
- 一種漢語(yǔ)國(guó)際教育用示教裝置
- 一種新型漢語(yǔ)國(guó)際教育對(duì)照講解板
- 一種漢語(yǔ)國(guó)際教育用書法練習(xí)裝置
- 一種用于漢語(yǔ)國(guó)際教育的書寫姿勢(shì)輔助調(diào)整裝置
- 一種新型漢語(yǔ)國(guó)際教育對(duì)照講解板
- 一種國(guó)際教育文化交流用便攜式記錄裝置
- 一種新型漢語(yǔ)國(guó)際教育對(duì)照講解板
- 翻譯筆(漢語(yǔ)國(guó)際教育)
- 現(xiàn)代漢語(yǔ)信息全息拉丁化漢語(yǔ)語(yǔ)音碼表示法
- 漢字漢語(yǔ)拼音與漢語(yǔ)語(yǔ)音碼雙向可逆轉(zhuǎn)換方法
- 漢語(yǔ)語(yǔ)音碼漢語(yǔ)語(yǔ)音識(shí)別方法
- 一種計(jì)算機(jī)輸入中文的方法
- 漢語(yǔ)語(yǔ)音碼全拼和簡(jiǎn)拼漢語(yǔ)全息信息處理方法
- 一種基于DIVA神經(jīng)網(wǎng)絡(luò)模型的漢語(yǔ)元音發(fā)音方法
- 一種非漢語(yǔ)語(yǔ)音識(shí)別方法、系統(tǒng)及其構(gòu)造方法
- 一種古漢語(yǔ)語(yǔ)義分析方法及其系統(tǒng)
- 漢語(yǔ)定向接龍的查詢方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 漢語(yǔ)友聲聲數(shù)系統(tǒng)的技術(shù)方法





