日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]中文單字串模式和詞綴模式的新詞自動識別技術及系統無效

專利信息
申請號: 201110236723.8 申請日: 2011-08-18
公開(公告)號: CN102955771A 公開(公告)日: 2013-03-06
發明(設計)人: 呂釗;蔣鑫;曹艷嬌 申請(專利權)人: 華東師范大學
主分類號: G06F17/27 分類號: G06F17/27
代理公司: 隆天國際知識產權代理有限公司 72003 代理人: 吳世華;馮志云
地址: 200241 *** 國省代碼: 上海;31
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 中文 字串 模式 詞綴 新詞 自動識別 技術 系統
【說明書】:

技術領域

發明涉及自然語言處理領域,具體地涉及對中文新詞進行自動識別、提取的控制方法以及相應的控制系統。??

背景技術

中文自動分詞是處理中文自然語言的基礎,但是由于信息的飛速發展,中文語言在很大范圍的各個領域上都產生了巨大的變化,越來越多的新詞不斷地出現在網絡中,這給中文分詞工具的詞典創建帶來了很大的挑戰,也必然導致分詞正確率的降低。因此新詞識別成為中文信息處理領域上的一個瓶頸。新詞自動識別技術在提高中文分詞技術的正確率上具有很大的幫助,另外新詞語自動發現可以應用于輸入法細胞詞庫更新,如搜狗輸入法、QQ輸入法、谷歌輸入法都帶有自動在線更新詞庫功能。除了上面介紹的兩個領域之外,新詞自動發現技術對機器翻譯、語言學應用和信息檢索等領域也都有較為重要的意義。

目前主要的研究方法大致分為3種:一是基于規則的方法,利用構詞原理,結合語義信息和詞性來建立模式庫和規則庫,再通過模式匹配的方式來識別新詞;二是基于統計的方法,通過對語料庫中的詞條組成或特征信息進行統計來識別新詞;三是基于統計和規則相結合的方法。

基于規則的方法優點是準確率高,針對性比較強,但是建立規則和維護規則會出現很大的困難。而且規則一般都是與某些領域相關的,因此移植性和適應性都比較差。而基于統計的方法優點是靈活,適應能力強,可移植性比較好,但是需要大規模的語料庫進行訓練。并且由于可統計的特征比較少,一般都會存在數據稀疏,提取準確率比較低的缺點。本發明主要是結合基于規則和統計的方法來進行新詞的識別。

本發明是基于規則和統計相結合的方法提取網絡新詞,主要是將新詞的形成模式與統計其詞頻相結合,對不同的模式采用不同的提取方法,不同的垃圾串新詞過濾方法,最后結合詞頻信息,提取不同模式的新詞。

發明內容

針對現有技術的不足,本發明的目的是提出一種基于詞的形成模式的網絡新詞自動識別技術,具體地是一種在新詞形成模式的基礎上,基于大規模短文本語料庫的網絡新詞自動識別技術。

根據本發明的一個方面,提一種中文單字串模式和詞綴模式的新詞自動識別技術,通過分析短文本中出現新詞的規律,基于大規模短文本語料庫,自動識別短文本中的新詞,其包括如下步驟:a.?對大規模短文本進行中文分詞,并將每一條短文本的分詞碎片相適應地存儲;b.?對于每一條短文本的分詞碎片進行分析,查找碎片中的單字串潛在新詞以及詞綴模式潛在新詞;c.?對于單字串潛在新詞,首先提取單字串潛在新詞對應的最長潛在新詞,統計每個最長潛在新詞出現的頻次,存入單字串潛在新詞集;然后根據最長潛在新詞及其頻次,提取最長潛在新詞的每個子串,統計每個子串的頻次,存入單字串潛在新詞集;d.?對于詞綴模式的潛在新詞,提取每個詞綴模式潛在新詞,統計每個詞綴模式的頻次,存入詞綴模式潛新詞集中;e.?對于所述的單字串潛在新詞集和詞綴模式潛在新詞集中的對象分別進行過濾操作;f.?對于每個潛在新詞,若其頻次大于第一閥值,則將該潛在新詞作為所述中文新詞。

優選地,本技術主要是針對單字串模式和詞綴模式兩種,分別采用不同的方法實現。對于單字串新詞來說,每個單字串新詞(New?Word)是由單個的漢字組成的,本發明主要討論NW11(1+1形式,由單個漢字與單個漢字組成的新詞),NW111(1+1+1形式,由三個連續的單個漢字組成的新詞),或NW1111(1+1+1+1形式,由四個連續的單字組成的新詞);對于詞綴模式的新詞來說,它是由單個漢字和前/后綴詞語組成,本發明主要討論NW12(1+2形式,由一個單字緊跟著一個二元詞語組成),NW13(1+3形式,由一個單字緊跟著一個三元詞語組成)或NW21(2+1形式,由一個二元詞緊跟著一個單字組成),NW31(3+1形式,由一個三元詞緊跟著一個單字組成)。本發明采用網絡上的新聞標題作為新詞識別的語料庫,采用統計和規則相結合的方法進行新詞識別。對新詞的以上兩種形成模式,即單字串新詞和詞綴新詞,分別對這兩類新詞進行識別。

通過本發明,大大提高了中文分詞技術的正確率,使中文分詞工具的詞典的創建變得相對容易實現,從而能夠應對中文語言在各個領域不斷涌現的新詞。本發明在一定程度上突破了中文信息處理領域上的瓶頸,同時對于輸入法細胞詞庫更新,機器翻譯,語言學應用和信息檢索等領域都有較為重要的意義。

附圖說明

通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:

圖1示出根據本發明的一個具體實施方式的,中文新詞自動識別的流程圖;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201110236723.8/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 午夜看片网| 99精品久久久久久久婷婷| 69久久夜色精品国产7777| 婷婷午夜影院| 国产天堂一区二区三区| 农村妇女精品一二区| 日韩精品一区二区三区四区在线观看| 色综合久久网| 国产性猛交| 日韩精品乱码久久久久久| 欧美精品在线观看一区二区| 综合在线一区| 欧美精品五区| 国产日韩欧美精品一区| 91一区二区三区久久国产乱| 欧美日韩一区二区高清| 国产精品丝袜综合区另类 | 欧美大片一区二区三区| 午夜理伦影院| 日本精品一二三区| 大伊人av| 国产日韩欧美网站| 国产人澡人澡澡澡人碰视 | 国产精品免费一视频区二区三区| 久久不卡一区| 午夜三级大片| 国产二区三区视频| 中文字幕一区二区三区日韩精品| 国产精品网站一区| 国产88久久久国产精品免费二区| 亚洲少妇一区二区| 91精品福利在线| 97人人澡人人添人人爽超碰| 久久国产激情视频| 欧美日韩一级在线观看| 国产精品免费一区二区区| 色一情一交一乱一区二区三区| 夜夜夜夜夜猛噜噜噜噜噜gg| 日本亚洲国产精品| 久久人做人爽一区二区三区小说 | 久久69视频| 国产日韩一区在线| 国产精品电影免费观看| 欧美日韩中文不卡| 久久艹亚洲| 欧美在线视频一二三区| 国产精品v欧美精品v日韩| 丰满岳乱妇在线观看中字 | 日韩av不卡一区| 综合在线一区| 国产欧美一区二区精品婷| 国产理论片午午午伦夜理片2021| 性欧美激情日韩精品七区| 久久久久久久久久国产精品| 日本白嫩的18sex少妇hd| 99精品小视频| 国产一区网址| 日韩中文字幕区一区有砖一区| 日本高清二区| 亚洲欧美国产日韩色伦| 亚洲欧美自拍一区| 欧美日韩国产91| 性色av香蕉一区二区| 欧美色图视频一区| 91日韩一区二区三区| 国产亚洲精品久久久久久网站 | 国产精品中文字幕一区| 欧美日韩国产一二| 91精品久久久久久久久久| 曰韩av在线| 私人影院av| 999国产精品999久久久久久| 日本一二三四区视频| 国产精品一二三区免费| 国产亚洲另类久久久精品| 中文文精品字幕一区二区| 草逼视频网站| 中文字幕一区二区三区不卡| 国产精品久久99| 国模一区二区三区白浆| 国产精品一二三区视频出来一 | 国产色婷婷精品综合在线播放| 欧美激情在线观看一区| 韩国女主播一区二区| 国产99久久久精品视频| 亚洲精品乱码久久久久久蜜糖图片| 99re久久精品国产| 最新国产一区二区| 国产清纯白嫩初高生视频在线观看| 国产另类一区| 97人人澡人人添人人爽超碰| 久久影院国产精品| av午夜剧场| 国产69精品久久久久9999不卡免费 | 护士xxxx18一19| 国产电影一区二区三区下载| 浪潮av色| 国产91色综合| 粉嫩久久久久久久极品| 亚洲一区中文字幕| 99爱精品视频| 中文字幕a一二三在线| 肥大bbwbbwbbw高潮| 欧美日韩亚洲国产一区| 久久精品99国产精品亚洲最刺激| 国产极品一区二区三区| 日本aⅴ精品一区二区三区日| 亚洲欧美一区二| 亚洲欧洲另类精品久久综合| 国产第一区二区三区| 91偷自产一区二区三区精品 | 国产精品视频久久| 天干天干天啪啪夜爽爽99| 中文字幕欧美久久日高清| 91精品综合| 亚洲精品丝袜| 亚洲欧洲一二三区| 欧美高清xxxxx| 欧美日韩精品不卡一区二区三区 | 69精品久久| 午夜激情电影在线播放| 肉丝肉足丝袜一区二区三区| 欧美在线免费观看一区| 国产免费观看一区| 亚洲精品久久久久中文字幕欢迎你 | 欧美一区二区久久| 国产精品6699| 欧美精品一区二区久久| 粉嫩久久99精品久久久久久夜| 国产区精品| 美国三级日本三级久久99 | 欧美一区视频观看| 国产一区日韩在线| 911久久香蕉国产线看观看| 夜夜躁日日躁狠狠躁| 99精品一区| 国产欧美性| 97欧美精品| 国产高清在线精品一区二区三区| 久久99精品国产麻豆婷婷洗澡 | 午夜精品一区二区三区aa毛片| 欧美片一区二区| 久久免费视频一区| 日韩亚洲欧美一区| 国产91在| 99精品一区二区| 免费精品99久久国产综合精品应用| 色偷偷一区二区三区| 国产一级片子| 偷拍久久精品视频| 久久精品中文字幕一区| 欧美国产一区二区在线| 亚洲国产一二区| 欧美日韩国产免费观看| 欧美日韩亚洲另类| 在线国产精品一区二区| 一区精品二区国产| 日韩一区免费| 国产www亚洲а∨天堂| 欧美激情综合在线| av午夜剧场| 性精品18videosex欧美| 日本午夜一区二区| 一区不卡av| 国产精品国产三级国产专播精品人 | 欧美精品国产精品| 97香蕉久久国产超碰青草软件| 私人影院av| 在线观看v国产乱人精品一区二区| 在线观看国产91| 欧美日韩一区电影| 夜夜爱av| 国产日韩欧美亚洲| 日韩欧美国产精品一区| **毛片免费| 17c国产精品一区二区| 国产91丝袜在线熟| 日韩av视屏在线观看| 日韩av在线播放网址| 一本色道久久综合亚洲精品浪潮| 免费xxxx18美国| 91久久综合亚洲鲁鲁五月天| 91精彩刺激对白露脸偷拍| 午夜电影理伦片2023在线观看| 久久天天躁夜夜躁狠狠躁2022| 欧美在线视频精品| 欧美一区二区三区三州| 九色国产精品入口| 久久午夜鲁丝片| 欧美日韩一级在线观看| 国产91九色视频| 狠狠色噜噜综合社区| 日韩一区二区中文字幕| av午夜在线| 亚洲午夜精品一区二区三区电影院 | 97久久国产亚洲精品超碰热| 国产一区在线视频播放| 精品综合久久久久| 鲁丝一区二区三区免费| 日韩精品一区二区亚洲| 日韩av在线高清| 欧美精品八区| 国产性猛交96| 欧美一区二区三区久久久精品| 国产一区二区资源| 国产一区二区日韩| 国产高清在线精品一区二区三区 | 毛片免费看看| 国产精品一区二区av日韩在线| 国产福利一区在线观看| 亚洲精品久久久中文| 国产一级片自拍| 欧美精品在线观看视频| 波多野结衣女教师电影| 国产一区二区在线91| 欧美午夜看片在线观看字幕| 欧美在线观看视频一区二区三区 | 欧美一区二区免费视频| 久久99亚洲精品久久99果| 欧美国产一区二区三区激情无套 | 91夜夜夜| 国产精品久久久久久久久久久久久久久久久久 | 99久久www免费| 中文字幕av一区二区三区高| 国产在线观看免费麻豆| 精品久久综合1区2区3区激情| 国产伦精品一区二区三区四区| 久久精品国产一区二区三区不卡| 欧美日韩一区免费| 国产欧美日韩一级| 欧美777精品久久久久网| 中文天堂在线一区| 视频一区欧美| 亚洲精品老司机| 91精品一区| 欧美一区二三区| 中文字幕久久精品一区| 国产精品久久久视频| 91久久国语露脸精品国产高跟| 国产视频二区| 亚洲国产精品美女| 狠狠色综合久久婷婷色天使| 黄色香港三级三级三级| 亚洲精品乱码久久久久久高潮| 国产精品日韩一区二区三区| 国产99久久久久久免费看|