[發(fā)明專利]一種基于新詞發(fā)現(xiàn)和Flat-lattice的糧情命名實(shí)體識(shí)別方法在審
| 申請?zhí)枺?/td> | 202111076986.7 | 申請日: | 2021-09-14 |
| 公開(公告)號(hào): | CN113743122A | 公開(公告)日: | 2021-12-03 |
| 發(fā)明(設(shè)計(jì))人: | 肖樂;李家馨;葛亮;吳濤;段夢詩;岳思雯;陳嘯林;單昕 | 申請(專利權(quán))人: | 河南工業(yè)大學(xué) |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/242;G06F40/117;G06F16/33;G06F16/951;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450001 河南省鄭州市高新技*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 新詞 發(fā)現(xiàn) flat lattice 命名 實(shí)體 識(shí)別 方法 | ||
本發(fā)明提出了一種基于新詞發(fā)現(xiàn)和Flat?lattice的糧情命名實(shí)體識(shí)別方法。該方法包括:首先,利用python爬蟲技術(shù)從知網(wǎng)和糧食大辭典中爬取糧情相關(guān)數(shù)據(jù)形成文本語料庫,并對語料進(jìn)行預(yù)處理;之后,使用N?grams算法從糧情文本語料庫中獲取新詞,幫助分詞算法進(jìn)行分詞,根據(jù)分詞后結(jié)果使用Word2vec構(gòu)建糧情詞典;然后,將詞典劃分為15個(gè)實(shí)體類別標(biāo)簽,并根據(jù)這些標(biāo)簽對糧情語料進(jìn)行BIOES標(biāo)注;接著,采用Flat?lattice模型將輸入字符以及所有能在詞典中匹配的單詞一起編碼輸入模型進(jìn)行訓(xùn)練;最后,使用訓(xùn)練好的深度學(xué)習(xí)模型進(jìn)行預(yù)測;本文提出了一種基于新詞發(fā)現(xiàn)和Flat?lattice的糧情命名實(shí)體識(shí)別方法,能有效的從多源異構(gòu)數(shù)據(jù)中抽取出糧情實(shí)體,為構(gòu)建糧情知識(shí)圖譜等下游任務(wù)提供基礎(chǔ)。
技術(shù)領(lǐng)域
本發(fā)明為自然語言處理領(lǐng)域,具體涉及一種基于新詞發(fā)現(xiàn)和Flat-lattice的糧情命名實(shí)體識(shí)別方法。
背景技術(shù)
隨著糧食行業(yè)信息技術(shù)的高速發(fā)展,“信息爆炸”與“知識(shí)缺乏”矛盾愈發(fā)嚴(yán)重。海量的糧情記錄文本數(shù)據(jù)、糧情學(xué)術(shù)論文和專利等不斷積累,高效準(zhǔn)確地從這些數(shù)據(jù)中挖掘出糧情實(shí)體,可為后續(xù)研究,如糧情決策系統(tǒng)和糧情知識(shí)圖譜的構(gòu)建,帶來較大的便利。在從多源異構(gòu)數(shù)據(jù)中抽取出特定的實(shí)體過程中,命名實(shí)體識(shí)別(Named Entity Recognition,簡稱NER)是一項(xiàng)不可或缺的技術(shù)。通過命名實(shí)體識(shí)別技術(shù),可以從糧情數(shù)據(jù)中提取出諸如害蟲名稱、危害糧種和通風(fēng)規(guī)則等信息,為后續(xù)的研究提供結(jié)構(gòu)化數(shù)據(jù)。當(dāng)前命名實(shí)體識(shí)別主要方法有三種,分別是基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法與基于深度學(xué)習(xí)的方法。
基于規(guī)則的命名實(shí)體識(shí)別是由專家根據(jù)數(shù)據(jù)集的性質(zhì)手工構(gòu)建規(guī)則模板和特定的詞典,之后通過文本匹配的方法來進(jìn)行實(shí)體抽取。但是構(gòu)建規(guī)則耗費(fèi)大量人力,嚴(yán)重依賴詞典庫與規(guī)則的嚴(yán)格匹配,難以適應(yīng)數(shù)據(jù)的變化。基于機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別是先訓(xùn)練原始語料,之后通過訓(xùn)練好的模型去識(shí)別實(shí)體。傳統(tǒng)的機(jī)器學(xué)習(xí)方法有:馬爾可夫模型、最大熵模型、條件隨機(jī)場模型等以及將上述方法結(jié)合和改進(jìn)的方法。Fang提出了C-CRF層疊條件隨機(jī)場模型抽取農(nóng)業(yè)實(shí)體,充分利用了農(nóng)作物特征詞典,獲得了較好的識(shí)別效果。基于機(jī)器學(xué)習(xí)的方法對選取的特征要求較高,對語料庫的依賴比較大。目前,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別逐漸成為主流,相較于傳統(tǒng)的基于規(guī)則的方法或機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)模型能學(xué)習(xí)到更多的文本特征,從而較大的提升命名實(shí)體識(shí)別準(zhǔn)確性。Guo等人提出了一種聯(lián)合多尺度局部上下文特征和注意力機(jī)制的中文命名實(shí)體識(shí)別模型抽取糧食害蟲實(shí)體,通過CNN提取多尺度局部特征,并采用注意力機(jī)制捕捉長距離依賴關(guān)系。
目前基于深度學(xué)習(xí)的實(shí)體抽取方法主要面向公共領(lǐng)域,缺少與糧情相關(guān)的數(shù)據(jù)集。與通用領(lǐng)域不同,糧情數(shù)據(jù)存在資源散亂、穩(wěn)定性低、各個(gè)地方存儲(chǔ)格式不同和存在大量領(lǐng)域內(nèi)專有名詞等特點(diǎn),若直接對多源異構(gòu)數(shù)據(jù)分詞并進(jìn)行模型訓(xùn)練,會(huì)導(dǎo)致一些糧情專有名詞無法被抽取。因此我們提出使用N-grams算法發(fā)現(xiàn)領(lǐng)域內(nèi)專有名詞。此外,基于深度學(xué)習(xí)的方法會(huì)受分詞錯(cuò)誤傳播的影響。而flat結(jié)構(gòu)被證明具有避免分詞的錯(cuò)誤傳播,有效利用詞信息和完全建模遠(yuǎn)程依賴關(guān)系等優(yōu)點(diǎn),能較大的提高深度學(xué)習(xí)的實(shí)體抽取效果。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于新詞發(fā)現(xiàn)和Flat-lattice的糧情命名實(shí)體識(shí)別方法,以用于解決糧情領(lǐng)域內(nèi)專有名詞識(shí)別率低、錯(cuò)誤分詞影響實(shí)體識(shí)別效果和當(dāng)前缺少用于后續(xù)研究的結(jié)構(gòu)化糧情數(shù)據(jù)集等問題。
我們方法的具體流程如下:
步驟(A)建立糧情命名實(shí)體識(shí)別文本語料庫;
步驟(B)N-grams算法構(gòu)建糧情字典;
步驟(C)BIOES標(biāo)注方式對數(shù)據(jù)集進(jìn)行標(biāo)注;
步驟(D)糧情詞典輔助構(gòu)建flat結(jié)構(gòu);
步驟(E)基于Flat-lattice算法的模型學(xué)習(xí);
步驟(F)對模型訓(xùn)練結(jié)果進(jìn)行評價(jià);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河南工業(yè)大學(xué),未經(jīng)河南工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111076986.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 知識(shí)發(fā)現(xiàn)裝置、知識(shí)發(fā)現(xiàn)程序和知識(shí)發(fā)現(xiàn)方法
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 發(fā)現(xiàn)協(xié)議
- 對等發(fā)現(xiàn)
- 小區(qū)發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及漏洞發(fā)現(xiàn)程序
- 使用發(fā)現(xiàn)節(jié)點(diǎn)的設(shè)備發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及存儲(chǔ)介質(zhì)
- 用于提供虛擬場景的裝置及方法
- 接入語音服務(wù)的方法、裝置和數(shù)據(jù)載體





