[發(fā)明專利]基于規(guī)則和語料庫的漢語語病自動檢測方法及設(shè)備有效
| 申請?zhí)枺?/td> | 201811268613.8 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109460552B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計)人: | 朱麗莉;譚代龍 | 申請(專利權(quán))人: | 朱麗莉 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/289;G06F40/30 |
| 代理公司: | 成都九鼎天元知識產(chǎn)權(quán)代理有限公司 51214 | 代理人: | 錢成岑 |
| 地址: | 646100 四川省*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 規(guī)則 語料庫 漢語 語病 自動檢測 方法 設(shè)備 | ||
本發(fā)明公開了一種基于規(guī)則和語料庫的漢語語病自動檢測方法及設(shè)備,該方法包括:文本獲取、句子分層、自動分詞和語病檢測;所述自動分詞包括以下步驟:切分字符串步驟和自動分詞步驟;所述語病檢測為根據(jù)所述自動分詞的結(jié)果和預(yù)先構(gòu)建的語料庫進行語病檢測。語病檢測包括錯別字檢測、用詞不當(dāng)檢測、句法結(jié)構(gòu)檢測、語義表達檢測,語病檢測可以包括這四種檢測中的一種或幾種。語病檢測包括的幾種檢測可以并列執(zhí)行,也可以依次執(zhí)行,且這幾種檢測的前后順序可以根據(jù)情況進行選擇。本發(fā)明從詞法、句法、語義等角度進行設(shè)計,自動檢測文本中的各類語病問題。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種基于規(guī)則和語料庫的漢語語病自動檢測方法及設(shè)備。
背景技術(shù)
漢語語病自動檢測相對英文、日文等檢測研究來說,起步較晚,緣于技術(shù)和漢語自身的特點,中文文本自動檢測發(fā)展較慢。面對海量的待校對文本信息,漢語語病自動檢測是亟待有效解決的一大難題。
目前,已有文獻開始提出文本校對的思路和方法。從現(xiàn)有研究對象和進程看,中文字詞檢測已逐漸發(fā)展起來,錯別字自動檢測的理論研究和應(yīng)用研究都取得了一定成效,但針對漢語語病的檢測卻鮮有人提及。至今,校對研究常限于某一領(lǐng)域(如,基于形態(tài)學(xué)、基于相鄰詞性的連接規(guī)則、基于某一語法規(guī)則或某一語義規(guī)則)設(shè)計相應(yīng)方法,具體而言,目前比較成熟的校對方法主要有兩類:
基于特征的校對方法(包括詞法特征、句法特征)。其方法是對詞句進行分類,分析詞與詞或單一句法成分的搭配。該方法能解決一部分典型案例,但未能找到合適的切入點,未從整體角度分析漢語的特點,未綜合分析漢語內(nèi)部各要素之間的組合聚合搭配規(guī)則,進而依次成系統(tǒng)地進行檢測。
基于語義的校對方法(大多使用SUM算法、決策樹、Bayes算法)。該檢測方法結(jié)合了漢語的特征,符合漢語內(nèi)部組合規(guī)律。但設(shè)計方法時直接從語義搭配開始,在極有限的樣本分析基礎(chǔ)上設(shè)計算法,存在樣本信息有限、檢測類型單一、參數(shù)需要不斷調(diào)整、代表性不強等方面的不足。
從現(xiàn)有研究來看,我們面臨的主要問題有:如何深入漢語本體研究,進一步分析和探討漢語內(nèi)部各構(gòu)成要素之間的關(guān)系和規(guī)律;如何將漢語本體研究與信息處理技術(shù)充分結(jié)合,將不同學(xué)科不同領(lǐng)域的知識融會貫通;如何科學(xué)全面地設(shè)計符合漢語內(nèi)部規(guī)律的語病檢測方法等?;氐綕h語本體研究層面,我們結(jié)合語言學(xué)研究再做新的審核。索緒爾《普通語言學(xué)教程》(2009)中分析了漢語的運行特點和規(guī)律:漢語中的字詞是線性的,它們彼此結(jié)成以線條性為基礎(chǔ)的關(guān)系,單獨成為一個要素,這些要素又按照一定的規(guī)則一個挨著一個進行排列組合。陸儉明《現(xiàn)代漢語語法研究教程》(2005)認為漢語語法不僅是構(gòu)成關(guān)系,也是組合關(guān)系,它內(nèi)部的規(guī)則,就是指小的結(jié)合體組成大的結(jié)合體所依據(jù)的一系列規(guī)則。結(jié)合眾多語言學(xué)家的研究成果,漢語語病的自動檢測,還是得從組合構(gòu)成著手,以字詞組合為基礎(chǔ),檢測句子成分之間的搭配及相互關(guān)系,再上升到語義和語用分析。也就是說,漢語是成系統(tǒng)的,應(yīng)系統(tǒng)地分析字詞組合與搭配、句子結(jié)構(gòu)、內(nèi)部語義等,不能割裂它們之間的聯(lián)系。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是:針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供一種基于規(guī)則和語料庫的漢語語病自動檢測方法及設(shè)備,從詞法、句法、語義等角度進行檢測,自動檢測文本中的各類語病問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于朱麗莉,未經(jīng)朱麗莉許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811268613.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺
- 不規(guī)則圍棋





