日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于主動(dòng)學(xué)習(xí)的中文正式文本分詞方法在審

專利信息
申請(qǐng)?zhí)枺?/td> 201810316873.1 申請(qǐng)日: 2018-04-10
公開(kāi)(公告)號(hào): CN108519978A 公開(kāi)(公告)日: 2018-09-11
發(fā)明(設(shè)計(jì))人: 王亞強(qiáng);何夢(mèng)秋;何思佑;唐聃;舒紅平 申請(qǐng)(專利權(quán))人: 成都信息工程大學(xué)
主分類號(hào): G06F17/27 分類號(hào): G06F17/27
代理公司: 北京眾合誠(chéng)成知識(shí)產(chǎn)權(quán)代理有限公司 11246 代理人: 夏艷
地址: 610225 四川省成都*** 國(guó)省代碼: 四川;51
權(quán)利要求書: 查看更多 說(shuō)明書: 查看更多
摘要:
搜索關(guān)鍵詞: 主動(dòng)學(xué)習(xí) 標(biāo)注 抽取數(shù)據(jù) 數(shù)據(jù)集 樸素貝葉斯分類器 文本分詞 迭代 抽樣 方法選擇 滿足條件 人工標(biāo)注 隨機(jī)抽取 有效減少 分詞器 中文 度量 申請(qǐng) 信息量
【說(shuō)明書】:

本申請(qǐng)?zhí)峁┮环N基于主動(dòng)學(xué)習(xí)的中文正式文本分詞方法,包括:使用當(dāng)前的標(biāo)注數(shù)據(jù)集L訓(xùn)練一個(gè)樸素貝葉斯分類器;使用當(dāng)前的樸素貝葉斯分類器標(biāo)注未標(biāo)注數(shù)據(jù)集U;使用抽樣方法選擇最有信息量的片段給專家標(biāo)注;將新抽樣的標(biāo)注好的片段添加到標(biāo)注數(shù)據(jù)集L中;不斷迭代直到預(yù)先設(shè)定的滿足條件停止。本申請(qǐng)的方法能夠有效減少人工標(biāo)注數(shù)據(jù)的同時(shí)得到一個(gè)性能較好的分詞器。采用主動(dòng)學(xué)習(xí)的方法抽取數(shù)據(jù)訓(xùn)練得到的模型比隨機(jī)抽取的方法抽取數(shù)據(jù)訓(xùn)練得到的模型性能(采用F值度量)提升5個(gè)百分點(diǎn)左右。主動(dòng)學(xué)習(xí)結(jié)合EM迭代后抽取數(shù)據(jù)訓(xùn)練得到的模型比單獨(dú)采用主動(dòng)學(xué)習(xí)方法抽取數(shù)據(jù)訓(xùn)練得到的模型,每次性能均提升1.5個(gè)百分點(diǎn)左右。

技術(shù)領(lǐng)域

發(fā)明涉及分詞技術(shù)領(lǐng)域,尤其涉及一種基于主動(dòng)學(xué)習(xí)和期望最大化算法的基于主動(dòng)學(xué)習(xí)的中文正式文本分詞方法。

背景技術(shù)

分詞是自然語(yǔ)言處理的關(guān)鍵的基礎(chǔ)性步驟,是諸多應(yīng)用系統(tǒng),如:信息檢索、命名實(shí)體識(shí)別、機(jī)器翻譯、句法分析等的不可或缺的關(guān)鍵性環(huán)節(jié),其分詞效果直接影響這些應(yīng)用的最終使用效果。可是相對(duì)于英語(yǔ)這樣的屈折語(yǔ)文本,中文等黏著語(yǔ)文本詞與詞之間沒(méi)有明顯的類似于空格這樣的明顯的分隔符。讓計(jì)算機(jī)自動(dòng)識(shí)別中文字串詞與詞之間的邊界就是中文分詞。現(xiàn)如今,已經(jīng)有大量的關(guān)于中文分詞的研究,其問(wèn)題歸納起來(lái)主要有三個(gè)方面:邊界歧義、未登錄詞和分詞規(guī)范。

傳統(tǒng)的基于詞典的中文分詞方法能夠高效地分割文本,但是這些方法需要大量的手工標(biāo)注的語(yǔ)料庫(kù),大規(guī)模的數(shù)據(jù)標(biāo)注需要花費(fèi)大量的時(shí)間以及金錢。同時(shí),傳統(tǒng)的監(jiān)督方法不能解決中文分詞的兩大難點(diǎn)——邊界歧義和未登錄詞。所以越來(lái)越多的基于字序列標(biāo)注的中文分詞方法被提了出來(lái),每個(gè)詞都可以通過(guò)上下文特征進(jìn)行表示,然后通過(guò)統(tǒng)計(jì)模型判斷出當(dāng)前字在構(gòu)詞中的作用——詞頭、詞中、詞尾或者單字詞,通過(guò)大量實(shí)驗(yàn)證明,基于字序列標(biāo)注的中文分詞方法明顯優(yōu)于基于字典的中文分詞方法。然而,基于字序列標(biāo)注的中文分詞方法,還是沒(méi)有解決需要大量手工標(biāo)注數(shù)據(jù)的問(wèn)題。

一種有效的解決方法就是主動(dòng)學(xué)習(xí),主動(dòng)學(xué)習(xí)能夠通過(guò)數(shù)據(jù)本身的一些參數(shù)來(lái)篩選最有價(jià)值的標(biāo)注數(shù)據(jù),從而極大地降低手工標(biāo)注的數(shù)據(jù)的數(shù)量,只需要標(biāo)注少量數(shù)據(jù)就能得到相對(duì)高準(zhǔn)確率的分詞效果。主動(dòng)學(xué)習(xí)已經(jīng)運(yùn)用到很多文本研究任務(wù)中,例如,命名實(shí)體識(shí)別、詞義消歧。但是主動(dòng)學(xué)習(xí)運(yùn)用的中文分詞的研究還很少。

我們將中文分詞轉(zhuǎn)換成一個(gè)三分類問(wèn)題,不同于字序列標(biāo)注的中文分詞放法,我們將中文字串中字與字之間的位置看作是一個(gè)待分對(duì)象,之所以這么做,是根據(jù)人們?cè)趹?yīng)用中對(duì)中文分詞的使用習(xí)慣來(lái)的,人們?cè)陂喿x文本的時(shí)候,習(xí)慣的是判斷從哪些位置分開(kāi),而不是去畫橫線來(lái)判斷那幾個(gè)字成詞。同時(shí)字與字之間的位置的上下文本構(gòu)成該位置的特征。看似字與字之間的位置只有分與不分兩種類別,但是只做二分類存在很嚴(yán)重的問(wèn)題,如“對(duì)象識(shí)別”,文本中存在大量的“對(duì)”的單字詞,那么只做二分類問(wèn)題處理,很容易劃分成“對(duì)象識(shí)別”,如果我們先判斷“對(duì)”與“象”之間的位置的上文“對(duì)”是否是詞尾,再根據(jù)該位置下文“象”是否為詞頭去驗(yàn)證上文的判斷結(jié)果,能夠發(fā)現(xiàn)上文“對(duì)”是一個(gè)詞尾,而下文“象”是一個(gè)詞中,并且下文作為詞中的概率比上文作為詞尾的概率更大,那么我們就能得到正確劃分結(jié)果“對(duì)象識(shí)別”。

傳統(tǒng)的中文分詞方法主要是依據(jù)詞典匹配,然后通過(guò)貪心算法劃分出可能的最大長(zhǎng)度的詞。傳統(tǒng)的貪心算法有正向最大匹配、逆向最大匹配、雙向匹配這種方法需要大量的人工標(biāo)注數(shù)據(jù),同時(shí)不能解決中文分詞的兩大難題,詞義分歧和未登錄詞。1986年,梁南元等將最大匹配方法運(yùn)用到中文分詞中,最大匹配方法就是一種典型的基于詞典的中文分詞方法,其缺點(diǎn)是不能解決邊界歧義和未登錄詞問(wèn)題。所以越來(lái)越多的學(xué)者提出了基于字序列標(biāo)注的中文分詞方法,2002年,Nianwen Xue等首次提出了該方法,該方法對(duì)中文字符串的每一個(gè)字進(jìn)行標(biāo)注,如{B,I,E,S},分別代表詞頭、詞中、詞尾和單字詞,然后用序列標(biāo)注模型(如SVM、CRF)訓(xùn)練人工標(biāo)注的數(shù)據(jù)得到一個(gè)分詞器進(jìn)行分詞。然而按字標(biāo)注的不符合人的使用習(xí)慣,我們對(duì)一句話進(jìn)行分詞時(shí),傾向于去判斷字與字之間的位置是否劃分,而不是某幾個(gè)字能夠成詞,所以需要對(duì)字與字之間的位置進(jìn)行分類。

發(fā)明內(nèi)容

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都信息工程大學(xué),未經(jīng)成都信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201810316873.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說(shuō)明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 国产精品美女久久久免费| 欧美hdxxxx| 国产理论片午午午伦夜理片2021 | 一区二区欧美视频| 国产麻豆91欧美一区二区| 亚洲国产精品91| 国产日本一区二区三区| 精品福利一区二区| 久久国产精品视频一区| 国产一区二区91| 国产精品一区二区人人爽| 羞羞免费视频网站| 中文字幕1区2区3区| 国产视频精品一区二区三区| 久久精品欧美一区二区| 日本一区二区在线观看视频| 亚洲乱码一区二区三区三上悠亚 | 国产欧美一区二区三区四区| 91一区二区三区在线| 国产第一区在线观看| 色综合欧美亚洲国产| 亚洲欧美中日精品高清一区二区| 国产理论一区| 国产伦高清一区二区三区| 91午夜精品一区二区三区| 香港日本韩国三级少妇在线观看 | 99久久精品一区二区| 狠狠色噜噜狠狠狠狠88| 午夜电影一区| 亚洲精品乱码久久久久久麻豆不卡| 国产黄色网址大全| 日本一区二区免费电影| 欧美二区在线视频| 亚洲无人区码一码二码三码| 午夜电影一区二区三区| 免费久久99精品国产婷婷六月| 99视频国产在线| 国产九九影院| 日本丰满岳妇伦3在线观看| 狠狠色噜噜综合社区| 亚洲精品国产一区| 美女张开腿黄网站免费| 美国三级日本三级久久99| 亚欧精品在线观看| 亚洲精品卡一| 999亚洲国产精| 4399午夜理伦免费播放大全| 一区二区三区国产精品视频| 久久中文一区| www.成| 91精品久久久久久综合五月天| 午夜影院啊啊啊| 国产日韩精品一区二区三区| 精品久久9999| 国内精品久久久久影院日本| 国产精品二区在线| 欧美色综合天天久久| 欧美精品二区三区| 91精品综合在线观看| 国产人成看黄久久久久久久久| 国产精品一区二区不卡| 狠狠插狠狠爱| 国产日本欧美一区二区三区| 99国产精品久久久久| 国产精品久久久久久久龚玥菲| 日本白嫩的18sex少妇hd| 国产91久| 日韩精品少妇一区二区在线看| 欧美激情在线免费| 国产精品国产三级国产专区53| 少妇厨房与子伦在线观看| 精品日韩久久久| 午夜影皖精品av在线播放| 91福利试看| 日韩午夜电影院| 亚洲麻豆一区| 国产精品欧美一区二区三区奶水| 国产在线干| 国产精品亚洲一区二区三区| 久久精品一二三四| 娇妻被又大又粗又长又硬好爽| 一区二区精品在线| 国产一区二区三区大片| 日本边做饭边被躁bd在线看 | 免费在线观看国产精品| 中文字幕在线播放一区| 国产一区免费在线观看| 日本看片一区二区三区高清| 亚洲少妇中文字幕| 97国产婷婷综合在线视频,| 国产偷国产偷亚洲清高| 狠狠色噜噜狠狠狠四色米奇| 国产在线一区观看| 欧美亚洲国产日韩| 久久夜色精品国产亚洲| 久久国产精品免费视频| 国内视频一区二区三区| 午夜av男人的天堂| 亚洲精品国产精品国产| 991本久久精品久久久久| 国产1区在线观看| 精品国产一区二区三区忘忧草| 91麻豆产精品久久久| 欧美日韩亚洲另类| 91看黄网站| 日本高清h色视频在线观看| 国产黄色一区二区三区| 久久99国产视频| 国产精品禁18久久久久久| 国产精品影音先锋| 亚洲精品一区在线| 欧美一区二区伦理片| 91热国产| 夜夜躁狠狠躁日日躁2024| 国产的欧美一区二区三区| 92久久精品| 国产区精品| 日韩精品一区在线观看| 久久久精品视频在线| 国产电影一区二区三区下载| 久久国产欧美视频| 亚洲精品国产91| 国产综合亚洲精品| 午夜影院伦理片| 欧洲另类类一二三四区| 国产综合亚洲精品| 久久综合国产精品| 最新日韩一区| 日韩一区国产| 一区二区欧美精品| 亚洲码在线| 精品videossexfreeohdbbw| 欧美精品国产一区二区| 欧美高清性xxxxhdvideos| 亚洲欧美一区二区三区不卡| 国产精品视频1区| 欧美日韩国产欧美| 国产理论一区二区三区| 四虎精品寂寞少妇在线观看 | 中文字幕一区一区三区| 一区二区三区在线观看国产| 国产白嫩美女在线观看| 国产欧美一二三区| 国产97久久| 国产亚洲精品久久久456| 欧美高清性xxxxhd| 国产盗摄91精品一区二区三区| 午夜一二区| 精品国产一区二区在线| 国产特级淫片免费看| 国产一区免费播放| 日韩一区二区三区福利视频| 99精品国产免费久久| 亚洲美女在线一区| 一本一道久久a久久精品综合蜜臀 国产三级在线视频一区二区三区 日韩欧美中文字幕一区 | 国产在线不卡一| 91一区二区三区在线| 久久精品国产久精国产| 日韩中文字幕一区二区在线视频 | 国产二区免费| 久久精品国产99| 亚洲精品suv精品一区二区| 国产91一区| 肥大bbwbbwbbw高潮| 国产精品对白刺激久久久| 小萝莉av| 午夜精品一区二区三区aa毛片| 精品综合久久久久| 亚洲精品久久久久中文字幕欢迎你| 久久国产精久久精产国| 久久夜色精品国产噜噜麻豆| 精品国产仑片一区二区三区| 一区二区午夜| 91福利视频免费观看| 日本一区二区三区免费在线| 日韩精品一区二区三区四区在线观看| 91精品免费观看| 国产一区激情| 午夜三级电影院| 性少妇freesexvideos高清bbw| 亚洲精品久久久久久久久久久久久久| 国产剧情在线观看一区二区| 国产精品一区二区麻豆| 少妇自拍一区| 久久亚洲精品国产一区最新章节| 亚洲精品456在线播放| 亚洲精品久久久久999中文字幕| 91片在线观看| 91麻豆精品国产91久久久久| 国产全肉乱妇杂乱视频在线观看| 精品久久综合1区2区3区激情| 国内少妇偷人精品视频免费| 亚洲精品www久久久| 日韩av在线高清| 香港日本韩国三级少妇在线观看| 国产日韩麻豆| 欧美一区二区三区久久精品| 日韩欧美激情| 国产亚洲精品久久久456| 久久精品入口九色| 日本一区午夜艳熟免费| 日韩精品久久一区二区三区| 精品国产仑片一区二区三区| 久久九九亚洲| 国产在线一卡| 国产视频一区二区视频| 中文字幕在线视频一区二区| 国产大片黄在线观看私人影院 | 私人影院av| 亚洲欧美国产日韩色伦| 国产精品高潮在线| 午夜影院一级片| 日韩av电影手机在线观看| 玖玖玖国产精品| 九一国产精品| 亚洲午夜精品一区二区三区| 热久久国产| 鲁一鲁一鲁一鲁一鲁一av| 日韩欧美高清一区二区| 99久久免费毛片基地| 国产精品自拍不卡| 国产精品综合在线| 国产一二区在线| 日韩av中文字幕第一页| 国产欧美日韩一级大片| 91精品一区在线观看| 9999国产精品| 久久精视频| 精品久久香蕉国产线看观看gif| 欧美高清xxxxx| 狠狠搞av| 日韩午夜电影院| 日本二区在线观看| 日韩精品一区二区三区在线| 中文字幕一区二区三区四| 久久精品国产亚| 一本久久精品一区二区| 欧美一区二区免费视频| 日韩av在线高清| 欧洲国产一区| 国产欧美一区二区精品久久久| 精品国产一二区| 国产99久久九九精品| xxxxhdvideosex| 久久久久久久亚洲视频| 一区二区国产精品|