[發(fā)明專利]一種基于主動(dòng)學(xué)習(xí)的中文正式文本分詞方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810316873.1 | 申請(qǐng)日: | 2018-04-10 |
| 公開(kāi)(公告)號(hào): | CN108519978A | 公開(kāi)(公告)日: | 2018-09-11 |
| 發(fā)明(設(shè)計(jì))人: | 王亞強(qiáng);何夢(mèng)秋;何思佑;唐聃;舒紅平 | 申請(qǐng)(專利權(quán))人: | 成都信息工程大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 北京眾合誠(chéng)成知識(shí)產(chǎn)權(quán)代理有限公司 11246 | 代理人: | 夏艷 |
| 地址: | 610225 四川省成都*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 主動(dòng)學(xué)習(xí) 標(biāo)注 抽取數(shù)據(jù) 數(shù)據(jù)集 樸素貝葉斯分類器 文本分詞 迭代 抽樣 方法選擇 滿足條件 人工標(biāo)注 隨機(jī)抽取 有效減少 分詞器 中文 度量 申請(qǐng) 信息量 | ||
本申請(qǐng)?zhí)峁┮环N基于主動(dòng)學(xué)習(xí)的中文正式文本分詞方法,包括:使用當(dāng)前的標(biāo)注數(shù)據(jù)集L訓(xùn)練一個(gè)樸素貝葉斯分類器;使用當(dāng)前的樸素貝葉斯分類器標(biāo)注未標(biāo)注數(shù)據(jù)集U;使用抽樣方法選擇最有信息量的片段給專家標(biāo)注;將新抽樣的標(biāo)注好的片段添加到標(biāo)注數(shù)據(jù)集L中;不斷迭代直到預(yù)先設(shè)定的滿足條件停止。本申請(qǐng)的方法能夠有效減少人工標(biāo)注數(shù)據(jù)的同時(shí)得到一個(gè)性能較好的分詞器。采用主動(dòng)學(xué)習(xí)的方法抽取數(shù)據(jù)訓(xùn)練得到的模型比隨機(jī)抽取的方法抽取數(shù)據(jù)訓(xùn)練得到的模型性能(采用F值度量)提升5個(gè)百分點(diǎn)左右。主動(dòng)學(xué)習(xí)結(jié)合EM迭代后抽取數(shù)據(jù)訓(xùn)練得到的模型比單獨(dú)采用主動(dòng)學(xué)習(xí)方法抽取數(shù)據(jù)訓(xùn)練得到的模型,每次性能均提升1.5個(gè)百分點(diǎn)左右。
技術(shù)領(lǐng)域
本發(fā)明涉及分詞技術(shù)領(lǐng)域,尤其涉及一種基于主動(dòng)學(xué)習(xí)和期望最大化算法的基于主動(dòng)學(xué)習(xí)的中文正式文本分詞方法。
背景技術(shù)
分詞是自然語(yǔ)言處理的關(guān)鍵的基礎(chǔ)性步驟,是諸多應(yīng)用系統(tǒng),如:信息檢索、命名實(shí)體識(shí)別、機(jī)器翻譯、句法分析等的不可或缺的關(guān)鍵性環(huán)節(jié),其分詞效果直接影響這些應(yīng)用的最終使用效果。可是相對(duì)于英語(yǔ)這樣的屈折語(yǔ)文本,中文等黏著語(yǔ)文本詞與詞之間沒(méi)有明顯的類似于空格這樣的明顯的分隔符。讓計(jì)算機(jī)自動(dòng)識(shí)別中文字串詞與詞之間的邊界就是中文分詞。現(xiàn)如今,已經(jīng)有大量的關(guān)于中文分詞的研究,其問(wèn)題歸納起來(lái)主要有三個(gè)方面:邊界歧義、未登錄詞和分詞規(guī)范。
傳統(tǒng)的基于詞典的中文分詞方法能夠高效地分割文本,但是這些方法需要大量的手工標(biāo)注的語(yǔ)料庫(kù),大規(guī)模的數(shù)據(jù)標(biāo)注需要花費(fèi)大量的時(shí)間以及金錢。同時(shí),傳統(tǒng)的監(jiān)督方法不能解決中文分詞的兩大難點(diǎn)——邊界歧義和未登錄詞。所以越來(lái)越多的基于字序列標(biāo)注的中文分詞方法被提了出來(lái),每個(gè)詞都可以通過(guò)上下文特征進(jìn)行表示,然后通過(guò)統(tǒng)計(jì)模型判斷出當(dāng)前字在構(gòu)詞中的作用——詞頭、詞中、詞尾或者單字詞,通過(guò)大量實(shí)驗(yàn)證明,基于字序列標(biāo)注的中文分詞方法明顯優(yōu)于基于字典的中文分詞方法。然而,基于字序列標(biāo)注的中文分詞方法,還是沒(méi)有解決需要大量手工標(biāo)注數(shù)據(jù)的問(wèn)題。
一種有效的解決方法就是主動(dòng)學(xué)習(xí),主動(dòng)學(xué)習(xí)能夠通過(guò)數(shù)據(jù)本身的一些參數(shù)來(lái)篩選最有價(jià)值的標(biāo)注數(shù)據(jù),從而極大地降低手工標(biāo)注的數(shù)據(jù)的數(shù)量,只需要標(biāo)注少量數(shù)據(jù)就能得到相對(duì)高準(zhǔn)確率的分詞效果。主動(dòng)學(xué)習(xí)已經(jīng)運(yùn)用到很多文本研究任務(wù)中,例如,命名實(shí)體識(shí)別、詞義消歧。但是主動(dòng)學(xué)習(xí)運(yùn)用的中文分詞的研究還很少。
我們將中文分詞轉(zhuǎn)換成一個(gè)三分類問(wèn)題,不同于字序列標(biāo)注的中文分詞放法,我們將中文字串中字與字之間的位置看作是一個(gè)待分對(duì)象,之所以這么做,是根據(jù)人們?cè)趹?yīng)用中對(duì)中文分詞的使用習(xí)慣來(lái)的,人們?cè)陂喿x文本的時(shí)候,習(xí)慣的是判斷從哪些位置分開(kāi),而不是去畫橫線來(lái)判斷那幾個(gè)字成詞。同時(shí)字與字之間的位置的上下文本構(gòu)成該位置的特征。看似字與字之間的位置只有分與不分兩種類別,但是只做二分類存在很嚴(yán)重的問(wèn)題,如“對(duì)象識(shí)別”,文本中存在大量的“對(duì)”的單字詞,那么只做二分類問(wèn)題處理,很容易劃分成“對(duì)象識(shí)別”,如果我們先判斷“對(duì)”與“象”之間的位置的上文“對(duì)”是否是詞尾,再根據(jù)該位置下文“象”是否為詞頭去驗(yàn)證上文的判斷結(jié)果,能夠發(fā)現(xiàn)上文“對(duì)”是一個(gè)詞尾,而下文“象”是一個(gè)詞中,并且下文作為詞中的概率比上文作為詞尾的概率更大,那么我們就能得到正確劃分結(jié)果“對(duì)象識(shí)別”。
傳統(tǒng)的中文分詞方法主要是依據(jù)詞典匹配,然后通過(guò)貪心算法劃分出可能的最大長(zhǎng)度的詞。傳統(tǒng)的貪心算法有正向最大匹配、逆向最大匹配、雙向匹配這種方法需要大量的人工標(biāo)注數(shù)據(jù),同時(shí)不能解決中文分詞的兩大難題,詞義分歧和未登錄詞。1986年,梁南元等將最大匹配方法運(yùn)用到中文分詞中,最大匹配方法就是一種典型的基于詞典的中文分詞方法,其缺點(diǎn)是不能解決邊界歧義和未登錄詞問(wèn)題。所以越來(lái)越多的學(xué)者提出了基于字序列標(biāo)注的中文分詞方法,2002年,Nianwen Xue等首次提出了該方法,該方法對(duì)中文字符串的每一個(gè)字進(jìn)行標(biāo)注,如{B,I,E,S},分別代表詞頭、詞中、詞尾和單字詞,然后用序列標(biāo)注模型(如SVM、CRF)訓(xùn)練人工標(biāo)注的數(shù)據(jù)得到一個(gè)分詞器進(jìn)行分詞。然而按字標(biāo)注的不符合人的使用習(xí)慣,我們對(duì)一句話進(jìn)行分詞時(shí),傾向于去判斷字與字之間的位置是否劃分,而不是某幾個(gè)字能夠成詞,所以需要對(duì)字與字之間的位置進(jìn)行分類。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都信息工程大學(xué),未經(jīng)成都信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810316873.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 主動(dòng)彈跳式學(xué)習(xí)系統(tǒng)與方法
- 基于DDAG的SVM多類分類主動(dòng)學(xué)習(xí)算法
- 英語(yǔ)詞匯學(xué)習(xí)裝置
- 便于公共場(chǎng)所使用的英語(yǔ)學(xué)習(xí)機(jī)
- 一種動(dòng)態(tài)選擇策略的主動(dòng)樣本挖掘的物體檢測(cè)系統(tǒng)及方法
- 一種基于信息性和代表性主動(dòng)學(xué)習(xí)的微表情識(shí)別方法
- 一種基于批量模式主動(dòng)學(xué)習(xí)的微表情識(shí)別方法
- 一種通過(guò)協(xié)同主動(dòng)學(xué)習(xí)模型的乳腺癌數(shù)據(jù)標(biāo)注方法
- 一種主動(dòng)免疫的深度學(xué)習(xí)可信計(jì)算方法
- 一種基于多層采樣的主動(dòng)學(xué)習(xí)溯源攻擊方法
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語(yǔ)料庫(kù)數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)抽取的方法及裝置
- 數(shù)據(jù)抽取裝置和方法
- 數(shù)據(jù)抽取方法及裝置
- 數(shù)據(jù)抽取方法和數(shù)據(jù)抽取系統(tǒng)
- 數(shù)據(jù)抽取系統(tǒng)和數(shù)據(jù)抽取方法
- 數(shù)據(jù)抽取方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)抽取方法及裝置
- 可定制化的多源數(shù)據(jù)庫(kù)的數(shù)據(jù)抽取方法、裝置及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種多種數(shù)據(jù)抽取調(diào)度方法及系統(tǒng)
- 數(shù)據(jù)集及數(shù)據(jù)集“異或”的DMA傳送
- 數(shù)據(jù)處理的方法和系統(tǒng)
- 鏈接數(shù)據(jù)集
- 數(shù)據(jù)處理方法及其設(shè)備
- VR視頻轉(zhuǎn)碼方法及裝置
- 數(shù)據(jù)匹配方法以及裝置
- 一種非平衡數(shù)據(jù)集的分類方法
- 處理數(shù)據(jù)的方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 基于數(shù)據(jù)傾斜的關(guān)聯(lián)查詢方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體識(shí)別模型的建立方法、系統(tǒng)、電子設(shè)備及介質(zhì)





