日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]利用基于詞上下文的字嵌入與神經網絡的中文分詞方法有效

專利信息
申請號: 201710368867.6 申請日: 2017-05-23
公開(公告)號: CN107168955B 公開(公告)日: 2019-06-04
發明(設計)人: 戴新宇;郁振庭;陳家駿;黃書劍;張建兵 申請(專利權)人: 南京大學
主分類號: G06F17/27 分類號: G06F17/27;G06N3/02
代理公司: 江蘇圣典律師事務所 32237 代理人: 胡建華
地址: 210023 江蘇*** 國省代碼: 江蘇;32
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 利用 基于 上下文 嵌入 神經網絡 中文 分詞 方法
【說明書】:

發明提出了一種利用基于詞上下文的字嵌入與神經網絡的中文分詞方法,在大規模的自動切分數據上學習字嵌入,將學習得到的字嵌入作為神經網絡分詞模型的輸入,可以有效幫助模型學習。具體步驟如下:根據字上下文以及詞位標記在大規模自動切分數據上學習字嵌入,將字嵌入作為神經網絡分詞模型的輸入,有效地提高了分詞的性能。對比其它基于神經網絡的中文分詞技術,該方法采用了基于詞上下文的字嵌入,有效地將詞信息融合進了分詞模型,成功的提高了分詞任務的準確性。

技術領域

本發明涉及一種利用計算機進行中文分詞的方法,特別是一種利用基于詞上下文的字嵌入與神經網絡相結合的方式進行自動中文分詞的方法。

背景技術

中文分詞是自然語言處理的一項基本任務,其廣泛的應用需求吸引了大量相關研究從而促進了其相關技術的快速發展。中文這樣的黏著語與西方語言不同,中文句子的詞與詞之間并沒有明顯的間隔。而一般自然語言處理任務的最小單元是“詞”,所以對于中文來說,首要的問題是先識別詞串。目前處理中文分詞的手段大體可以分為兩類,基于規則的方法與基于統計方法。基于詞典的規則方法需要構建一個大規模的詞典。切詞時會根據預先設計好的匹配規則來匹配詞典中的詞,從而完成對文本的切分。在計算資源相對受限和緊缺的時期,機器學習方法需要占用大量的計算資源和耗費很大內存開銷,并不具有實用性,所以規則方法在相當長的一段時期內成為了處理中文分詞問題的主流方法。而隨著計算資源的不斷增長,基于機器學習的方法慢慢成為了解決中文分詞的主要手段。

在SIGHAN2003舉行的首屆中文分詞評測中,基于字標注的方法首次被提出,該方法的性能雖然不是最高的,但是其未登錄詞的識別率位居榜首。對于中文分詞任務來說,主要有兩大難點,歧義切分和未登錄詞的識別,實驗證明這兩類問題并不是平等的,未登錄詞的影響要遠遠大于歧義切分。基于字的序列化標注的方法慢慢的被大家接受,成為了處理分詞問題的主流方法。

在建模分詞任務的方式,將其看成序列化標注任務是一種常見的手段。其工作過程是:針對待分詞的句子,以字為單位,從左至右對每個字進行標注(即打標簽),一般采用的標注體系是包括B、M、E、S四個標記的四詞位標注集,其中B代表當前字占據一個多字詞的詞首,M代表當前字占據一個多字詞的詞中E代表當前字占據一個多字詞的詞尾,S代表當前字是一個單字詞。得到標注序列之后,可以轉換成分詞的結果。本發明在建模中文分詞任務是也將其看成序列化標注任務并采用了上述的標注集。

神經網絡是一種常用的機器學習方法,它具有從一些基本原子特征自動學習特征組合方式的能力,這區別于需要使用者根據語言學相關等先驗知識來設計大量任務相關的模板的傳統方法。神經網絡的使用,可以省去人工定制大量組合特征模板的工作,同時可以借助神經網絡強大的表達能力來自動地學習特征之間的組合。在本發明使用了雙向長短記憶神經網絡來對句子的字序列進行計算,從而更多地捕獲遠距離特征。

對于基于神經網絡的模型方法而言,一個重要的問題就是如何使用詞嵌入。如果擁有足夠多的訓練數據,那么可以首先隨機初始化詞嵌入,然后把詞嵌入的學習融合到模型的訓練中來,從而得到高質量的詞嵌入。但是對于分詞這樣的任務,標注數據集的規模非常有限,一般在幾萬條左右。首先很難訓練好字嵌入,其次由于數據規模有限,遇到測試數據時,經常會遇到未登錄詞這樣的問題。一種方法是利用無監督數據學習字嵌入,典型的方法有Word2vec、GloVe,這些的方法的基本依據是根據分布式假設,相似的詞會出現在相似的上下文中。相似的詞之間會具有相似或相近的詞嵌入。但“相似”這一特性又依賴于具體的任務,對于不同的任務,“相似”這一概念是不同的。

發明內容

發明目的:本發明針對目前中文分詞技術中現有基于字標注的模型不能充分利用詞信息的缺點,提出了了一種基于詞上下文的字嵌入學習方法來間接的融合詞級別的信息,從而提升中文分詞任務的準確度。

為了解決上述技術問題,本發明公開了一種利用基于詞上下文的字嵌入與神經網絡的中文分詞方法以及關于分析過程中所使用模型參數訓練方法的附加說明。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710368867.6/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产日韩欧美一区二区在线观看| 免费看大黄毛片全集免费| www.午夜av| 91麻豆精品国产91久久久久| 91精品啪在线观看国产手机 | 久久久久国产亚洲| 电影91久久久| 午夜影院你懂的| 激情aⅴ欧美一区二区三区| 国产日韩欧美亚洲| 丰满少妇在线播放bd日韩电影| 在线观看欧美日韩国产| 福利片午夜| 欧美日韩三区| 91国偷自产中文字幕婷婷| 日韩亚洲国产精品| 九一国产精品| 久久夜色精品久久噜噜亚| 久久精品国语| 狠狠色噜噜狠狠狠狠777| 日韩av在线播| 国产精品高潮呻吟88av| 精品国产二区三区| 狠狠色噜噜狠狠狠狠黑人| 欧美精品在线不卡| 黄色av免费| 免费观看黄色毛片| av国产精品毛片一区二区小说| 久久精品入口九色| 午夜av电影院| 日韩精品免费看| 欧美日韩国产色综合一二三四| 国产高清在线精品一区二区三区| 日韩精品一区二区三区免费观看视频| 99久久精品免费看国产交换| 91福利视频导航| 国产69精品久久久久久久久久| 公乱妇hd在线播放bd| 国产一卡二卡在线播放| 欧美精选一区二区三区| 免费精品一区二区三区视频日产| 久久精品麻豆| 国产视频一区二区在线播放| 99精品欧美一区二区| 中文字幕天天躁日日躁狠狠躁免费| 性国产videofree极品| 97精品久久人人爽人人爽| 国产一区二区麻豆| 亚洲国产精品日韩av不卡在线| 狠狠色噜噜狠狠狠狠2018| 在线国产精品一区二区| 欧美日韩中文字幕一区| 国产欧美一区二区三区视频| 精品三级一区二区| 亚洲精品久久久久玩吗| 亚洲精品无吗| 国产精品第157页| 99er热精品视频国产| 香蕉免费一区二区三区在线观看| 久久国产视屏| 欧美一级久久精品| 午夜欧美a级理论片915影院| 精品国产乱码久久久久久虫虫| 久久免费视频99| 97人人添人人爽一区二区三区| 蜜臀久久99精品久久久| 久久97国产| 精品一区二区三区视频?| 99精品一级欧美片免费播放| 午夜亚洲影院| 中文字幕日韩精品在线| 日本一码二码三码视频| 97视频久久久| 欧美一区二区激情三区| 久久人做人爽一区二区三区小说| 久久国产精品久久久久久电车| 免费看欧美中韩毛片影院| 国产91在| 亚洲区在线| 欧美日韩国产一区在线| 91精品国产高清一二三四区| 国产一区二区二|