[發(fā)明專利]一種中文分詞方法在審
| 申請?zhí)枺?/td> | 201710439335.7 | 申請日: | 2017-06-12 |
| 公開(公告)號: | CN107168957A | 公開(公告)日: | 2017-09-15 |
| 發(fā)明(設(shè)計(jì))人: | 金宸;李維華;王順芳;郭延哺;鄧春云 | 申請(專利權(quán))人: | 云南大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04 |
| 代理公司: | 云南派特律師事務(wù)所53110 | 代理人: | 董建國 |
| 地址: | 650091*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 分詞 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理和深度學(xué)習(xí)技術(shù)領(lǐng)域,具體為一種基于注意力機(jī)制的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場的中文分詞方法。
背景技術(shù)
中文分詞是指將連續(xù)的中文字符串按照一定的規(guī)范分割成詞序列的過程。中文不同于英文,其自身特點(diǎn)在于中文是以字為基本的書寫單位,句子和段落之間通過分界符來劃界,但詞間并沒有形式上的分界符,而在自然語言處理中,詞是最小的能夠獨(dú)立活動的有意義的語言成分,所以分詞的質(zhì)量的好壞直接影響之后的自然語言處理任務(wù)。中文分詞問題作為終于自然語言處理領(lǐng)域的重要基礎(chǔ)研究,從20世紀(jì)80年代提出到現(xiàn)在,常用的研究方法可以分為以下四類:(1)基于字典的字符串匹配的方法;(2)基于語言規(guī)則的方法;(3)基于傳統(tǒng)概率統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的方法;(4)基于深度神經(jīng)網(wǎng)絡(luò)模型的方法。基于詞典的字符串匹配方法速度塊,實(shí)現(xiàn)簡單,但對歧義和詞典未收錄詞處理不好。基于語法規(guī)則的方法具有針對性和暫時較高的準(zhǔn)確率,但由于句法構(gòu)造的領(lǐng)域相關(guān)性,適應(yīng)性較差,詞典與歧義消解處理難維護(hù)。基于傳統(tǒng)概率統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型的方法有隱馬爾可夫模型(Hidden Markov Model,HMM)方法、最大熵模型(Maximum Entropy Model)方法和條件隨機(jī)場(conditional random fields,CRF)方法等。這些方法能平等地看待詞典詞和未登錄詞的識別,但是模型的訓(xùn)練是基于提取出的人為設(shè)定的特征,而且性能受限于特征的選擇和提取。基于深度神經(jīng)網(wǎng)絡(luò)模型,如長短期記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò),可以盡可能避免特征工程的影響并克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)缺失長期依賴關(guān)系的問題,逐漸應(yīng)用到中文分詞等自然語言處理任務(wù)中。然而,LSTM神經(jīng)網(wǎng)絡(luò)只能記住過去的上文信息。由于中文句子的結(jié)構(gòu)較為復(fù)雜,有時需要聯(lián)系下文的信息才能做出判斷。為了實(shí)現(xiàn)更加準(zhǔn)確的分詞,本發(fā)明把雙向長短期記憶神經(jīng)網(wǎng)絡(luò)強(qiáng)大的建模能力與CRF在概率模型方面基于局部最優(yōu)推測標(biāo)簽的能力相結(jié)合,并且在模型中加入了注意力機(jī)制,提出了一種基于注意力機(jī)制的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場的中文分詞方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種注意力機(jī)制的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場的中文分詞方法。說明了如何通過輸入的句子生成對應(yīng)的分詞標(biāo)記序列。
為了實(shí)現(xiàn)以上目的,本發(fā)明采用的技術(shù)方案,包括以下步驟:
步驟1:將不超過指定長度的中文文本輸入到系統(tǒng)中作為輸入序列A。
步驟2:將將步驟1中所述的輸入序列A傳遞給詞向量查找層,把輸入的字符轉(zhuǎn)化為詞向量,得到輸出序列B。
步驟3:將步驟2中所述的序列B作為輸入序列傳遞給基于注意力機(jī)制的雙向長短期記憶神經(jīng)網(wǎng)絡(luò),并隨后通過一層隱藏層,得到輸出序列C。
步驟4:將步驟3中所述的序列C作為輸入序列傳遞到線性鏈?zhǔn)綏l件隨機(jī)場解碼層,生成分詞標(biāo)記標(biāo)簽序列D。
步驟5:將步驟4得到的分詞標(biāo)記標(biāo)簽序列D轉(zhuǎn)化為用空格隔開的文本序列E。
上述的中文文本是由一個或多個句末帶有終結(jié)符號的句子構(gòu)成的文本,并且文本符合中文語法規(guī)則,其中終結(jié)符包括句號、問號、感嘆號、逗號和分號。上述的詞向量查找層,指的是通過現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型(Word2Vec)預(yù)先訓(xùn)練出的字符與向量對應(yīng)表。上述的隱藏層的初始化輸入包括雙向長短期記憶神經(jīng)網(wǎng)絡(luò)隱藏層由前向后的初始化狀態(tài)及由后向前的初始化狀態(tài),及三層長短期記憶神經(jīng)網(wǎng)絡(luò)每層的初始化狀態(tài),都采用所述句子的句向量。上述的基于注意力機(jī)制的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)所用單元是基于注意力機(jī)制的長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTMN)單元,其特點(diǎn)是其記憶單元使用注意力機(jī)制減少記憶壓縮。上述的分詞標(biāo)記標(biāo)簽是指{BMES}標(biāo)簽系統(tǒng),其中B指Begin表示詞首,M指Middle表示詞中,E指End表示詞尾,s指Single表示單個詞。本方法中使用小批量隨機(jī)梯度下降訓(xùn)練神經(jīng)網(wǎng)絡(luò)層。
在以下附圖和說明中描述了本說明書中所述主題的一些實(shí)施例的細(xì)節(jié)。依據(jù)說明、附圖和權(quán)利要求書,使用基于注意力機(jī)制的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場的中文分詞的方法的其他特征、方面和優(yōu)點(diǎn)會是顯而易見。
附圖說明
圖1是基于注意力機(jī)制的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場的中文分詞方法流程圖;
圖2是基于注意力機(jī)制的長短期記憶神經(jīng)網(wǎng)絡(luò)單元。
具體實(shí)施方式
結(jié)合附圖1和圖2,對依據(jù)本發(fā)明提供的具體實(shí)施方式,詳細(xì)說明如此下。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云南大學(xué),未經(jīng)云南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710439335.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





