[發(fā)明專利]一種中文文本糾錯(cuò)方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011021044.4 | 申請日: | 2020-09-25 |
| 公開(公告)號(hào): | CN112149406B | 公開(公告)日: | 2023-09-08 |
| 發(fā)明(設(shè)計(jì))人: | 錢寶生;楊軍;曾擂;王濱;干家東 | 申請(專利權(quán))人: | 中國電子科技集團(tuán)公司第十五研究所 |
| 主分類號(hào): | G06F40/232 | 分類號(hào): | G06F40/232;G06F40/205;G06F40/289;G06F17/18;G06N3/045;G06N3/0442;G06N3/084;G06N3/08 |
| 代理公司: | 北京高沃律師事務(wù)所 11569 | 代理人: | 崔玥 |
| 地址: | 100083 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 文本 糾錯(cuò) 方法 系統(tǒng) | ||
本發(fā)明涉及一種中文文本糾錯(cuò)方法及系統(tǒng)。該中文文本糾錯(cuò)方法包括:獲取待糾錯(cuò)文本;根據(jù)統(tǒng)計(jì)語言N?gram模型確定所述待糾錯(cuò)文本中的錯(cuò)誤詞語以及錯(cuò)誤詞語位置;基于所述錯(cuò)誤詞語以及所述錯(cuò)誤詞語位置,利用雙向長短期記憶LSTM模型確定第一候選語句集合;將所述待糾錯(cuò)文本轉(zhuǎn)換成拼音序列;基于所述拼音序列,利用所述N?gram模型確定第二候選語句;對比所述第一候選語句集合內(nèi)所有的第一候選語句的困惑度以及所述第二候選語句的困惑度,確定困惑度最低的語句為糾錯(cuò)后的文本。本發(fā)明能夠提高中文文本的查錯(cuò)和糾錯(cuò)率,降低硬件配置要求。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別是涉及一種中文文本糾錯(cuò)方法及系統(tǒng)。
背景技術(shù)
中文文本往往包含各種錯(cuò)誤,比如形近字錯(cuò)誤、同音字錯(cuò)誤、術(shù)語類錯(cuò)誤、語義錯(cuò)誤、成語或歇后語錯(cuò)誤等等。在一些比較重要的場合,有誤的文檔將造成重大損失,人工糾錯(cuò)效率低下、面對大量文本將會(huì)消耗大量時(shí)間。中文文本糾錯(cuò)的技術(shù)難點(diǎn):
(1)命名實(shí)體識(shí)別的準(zhǔn)確度:針對一些規(guī)則類錯(cuò)誤,需要構(gòu)建相應(yīng)領(lǐng)域的詞典,如領(lǐng)導(dǎo)人姓名校對,需要提供能實(shí)時(shí)更新的領(lǐng)導(dǎo)人姓名與職位對應(yīng)信息,但由于信息更新比較頻繁且職務(wù)變動(dòng)頻率較高的原因,存在因同步信息而導(dǎo)致的差異性報(bào)錯(cuò)。
(2)中文語法規(guī)則復(fù)雜:標(biāo)準(zhǔn)漢語語法中最大的特點(diǎn)是沒有嚴(yán)格意義的形態(tài)變化。名詞沒有格的變化,也沒有性和數(shù)的區(qū)別。動(dòng)詞不分人稱,也沒有時(shí)態(tài)。這一不同于歐洲語言的特點(diǎn),使得在歷史上很長一段時(shí)間內(nèi),漢語被很多語言學(xué)家認(rèn)為沒有語法也沒有詞類。正是由于中文的這種文無定法之論,反而導(dǎo)致中文糾錯(cuò)較大從而可能會(huì)出現(xiàn)誤報(bào)的情況。
(3)中文漢字一詞多義問題:中文漢字往往出現(xiàn)一詞多義現(xiàn)象,如“還字”,可做二聲huan,意為歸還、返還;同時(shí)可做二聲hai,意為仍然、堅(jiān)持。在不同的語境下,此類錯(cuò)誤成功校對的難度較大。
目前糾錯(cuò)方法主要包括基于規(guī)則的方法、基于N-gram統(tǒng)計(jì)模型的方法和基于深度神經(jīng)網(wǎng)絡(luò)的糾錯(cuò)方法。基于規(guī)則的方法執(zhí)行速度快但準(zhǔn)確率和適應(yīng)性較差;基于N-gram統(tǒng)計(jì)模型的方法只能處理鄰近詞語間的搭配錯(cuò)誤,不具備句法分析能力;基于深度神經(jīng)網(wǎng)絡(luò)的糾錯(cuò)方法對硬件配置要求較高。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種中文文本糾錯(cuò)方法及系統(tǒng),以解決現(xiàn)有中文文本糾錯(cuò)方法準(zhǔn)確率低、只能處理鄰近詞語間的搭配錯(cuò)誤,不具備句法分析能力以及硬件配置要求高的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種中文文本糾錯(cuò)方法,包括:
獲取待糾錯(cuò)文本;
根據(jù)統(tǒng)計(jì)語言N-gram模型確定所述待糾錯(cuò)文本中的錯(cuò)誤詞語以及錯(cuò)誤詞語位置;
基于所述錯(cuò)誤詞語以及所述錯(cuò)誤詞語位置,利用雙向長短期記憶LSTM模型確定第一候選語句集合;
將所述待糾錯(cuò)文本轉(zhuǎn)換成拼音序列;
基于所述拼音序列,利用所述N-gram模型確定第二候選語句;
對比所述第一候選語句集合內(nèi)所有的第一候選語句的困惑度以及所述第二候選語句的困惑度,確定困惑度最低的語句為糾錯(cuò)后的文本。
可選的,所述根據(jù)統(tǒng)計(jì)語言N-gram模型確定所述待糾錯(cuò)文本中的錯(cuò)誤詞語以及錯(cuò)誤詞語位置,之前還包括:
采集原始網(wǎng)頁,并對所述原始網(wǎng)頁進(jìn)行預(yù)處理,確定中文文本語料庫,形成語料庫詞典;
利用分詞器對所述語料庫詞典中的文本進(jìn)行分詞處理,確定多個(gè)分詞后的文本;
統(tǒng)計(jì)所有所述分詞后的文本的個(gè)數(shù)以及任意兩個(gè)詞的共現(xiàn)頻率;
根據(jù)所述共現(xiàn)頻率構(gòu)建N-gram模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電子科技集團(tuán)公司第十五研究所,未經(jīng)中國電子科技集團(tuán)公司第十五研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011021044.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





