[發明專利]中文單字串模式和詞綴模式的新詞自動識別技術及系統無效
| 申請號: | 201110236723.8 | 申請日: | 2011-08-18 |
| 公開(公告)號: | CN102955771A | 公開(公告)日: | 2013-03-06 |
| 發明(設計)人: | 呂釗;蔣鑫;曹艷嬌 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 隆天國際知識產權代理有限公司 72003 | 代理人: | 吳世華;馮志云 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 字串 模式 詞綴 新詞 自動識別 技術 系統 | ||
技術領域
本發明涉及自然語言處理領域,具體地涉及對中文新詞進行自動識別、提取的控制方法以及相應的控制系統。??
背景技術
中文自動分詞是處理中文自然語言的基礎,但是由于信息的飛速發展,中文語言在很大范圍的各個領域上都產生了巨大的變化,越來越多的新詞不斷地出現在網絡中,這給中文分詞工具的詞典創建帶來了很大的挑戰,也必然導致分詞正確率的降低。因此新詞識別成為中文信息處理領域上的一個瓶頸。新詞自動識別技術在提高中文分詞技術的正確率上具有很大的幫助,另外新詞語自動發現可以應用于輸入法細胞詞庫更新,如搜狗輸入法、QQ輸入法、谷歌輸入法都帶有自動在線更新詞庫功能。除了上面介紹的兩個領域之外,新詞自動發現技術對機器翻譯、語言學應用和信息檢索等領域也都有較為重要的意義。
目前主要的研究方法大致分為3種:一是基于規則的方法,利用構詞原理,結合語義信息和詞性來建立模式庫和規則庫,再通過模式匹配的方式來識別新詞;二是基于統計的方法,通過對語料庫中的詞條組成或特征信息進行統計來識別新詞;三是基于統計和規則相結合的方法。
基于規則的方法優點是準確率高,針對性比較強,但是建立規則和維護規則會出現很大的困難。而且規則一般都是與某些領域相關的,因此移植性和適應性都比較差。而基于統計的方法優點是靈活,適應能力強,可移植性比較好,但是需要大規模的語料庫進行訓練。并且由于可統計的特征比較少,一般都會存在數據稀疏,提取準確率比較低的缺點。本發明主要是結合基于規則和統計的方法來進行新詞的識別。
本發明是基于規則和統計相結合的方法提取網絡新詞,主要是將新詞的形成模式與統計其詞頻相結合,對不同的模式采用不同的提取方法,不同的垃圾串新詞過濾方法,最后結合詞頻信息,提取不同模式的新詞。
發明內容
針對現有技術的不足,本發明的目的是提出一種基于詞的形成模式的網絡新詞自動識別技術,具體地是一種在新詞形成模式的基礎上,基于大規模短文本語料庫的網絡新詞自動識別技術。
根據本發明的一個方面,提一種中文單字串模式和詞綴模式的新詞自動識別技術,通過分析短文本中出現新詞的規律,基于大規模短文本語料庫,自動識別短文本中的新詞,其包括如下步驟:a.?對大規模短文本進行中文分詞,并將每一條短文本的分詞碎片相適應地存儲;b.?對于每一條短文本的分詞碎片進行分析,查找碎片中的單字串潛在新詞以及詞綴模式潛在新詞;c.?對于單字串潛在新詞,首先提取單字串潛在新詞對應的最長潛在新詞,統計每個最長潛在新詞出現的頻次,存入單字串潛在新詞集;然后根據最長潛在新詞及其頻次,提取最長潛在新詞的每個子串,統計每個子串的頻次,存入單字串潛在新詞集;d.?對于詞綴模式的潛在新詞,提取每個詞綴模式潛在新詞,統計每個詞綴模式的頻次,存入詞綴模式潛新詞集中;e.?對于所述的單字串潛在新詞集和詞綴模式潛在新詞集中的對象分別進行過濾操作;f.?對于每個潛在新詞,若其頻次大于第一閥值,則將該潛在新詞作為所述中文新詞。
優選地,本技術主要是針對單字串模式和詞綴模式兩種,分別采用不同的方法實現。對于單字串新詞來說,每個單字串新詞(New?Word)是由單個的漢字組成的,本發明主要討論NW11(1+1形式,由單個漢字與單個漢字組成的新詞),NW111(1+1+1形式,由三個連續的單個漢字組成的新詞),或NW1111(1+1+1+1形式,由四個連續的單字組成的新詞);對于詞綴模式的新詞來說,它是由單個漢字和前/后綴詞語組成,本發明主要討論NW12(1+2形式,由一個單字緊跟著一個二元詞語組成),NW13(1+3形式,由一個單字緊跟著一個三元詞語組成)或NW21(2+1形式,由一個二元詞緊跟著一個單字組成),NW31(3+1形式,由一個三元詞緊跟著一個單字組成)。本發明采用網絡上的新聞標題作為新詞識別的語料庫,采用統計和規則相結合的方法進行新詞識別。對新詞的以上兩種形成模式,即單字串新詞和詞綴新詞,分別對這兩類新詞進行識別。
通過本發明,大大提高了中文分詞技術的正確率,使中文分詞工具的詞典的創建變得相對容易實現,從而能夠應對中文語言在各個領域不斷涌現的新詞。本發明在一定程度上突破了中文信息處理領域上的瓶頸,同時對于輸入法細胞詞庫更新,機器翻譯,語言學應用和信息檢索等領域都有較為重要的意義。
附圖說明
通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
圖1示出根據本發明的一個具體實施方式的,中文新詞自動識別的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110236723.8/2.html,轉載請聲明來源鉆瓜專利網。





