[發(fā)明專利]一種適用于特定垂直領(lǐng)域的文本糾錯(cuò)方法及其糾錯(cuò)裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202110687769.5 | 申請(qǐng)日: | 2021-06-21 |
| 公開(公告)號(hào): | CN113449514A | 公開(公告)日: | 2021-09-28 |
| 發(fā)明(設(shè)計(jì))人: | 勵(lì)建科;陳再蝶;朱曉秋;周杰;樊偉東 | 申請(qǐng)(專利權(quán))人: | 浙江康旭科技有限公司 |
| 主分類號(hào): | G06F40/232 | 分類號(hào): | G06F40/232;G06F40/284;G06F40/30 |
| 代理公司: | 杭州山泰專利代理事務(wù)所(普通合伙) 33438 | 代理人: | 周玲 |
| 地址: | 310000 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 適用于 特定 垂直 領(lǐng)域 文本 糾錯(cuò) 方法 及其 裝置 | ||
本發(fā)明公開了一種適用于特定垂直領(lǐng)域的文本糾錯(cuò)方法及其糾錯(cuò)裝置,包括以下步驟:S1、將文本導(dǎo)入經(jīng)過預(yù)訓(xùn)練的Bert糾錯(cuò)模型中,進(jìn)行文本詞義糾錯(cuò);S2、將經(jīng)過Bert糾錯(cuò)模型糾錯(cuò)后的文本導(dǎo)入拼音糾錯(cuò)模型中,進(jìn)行二次糾錯(cuò);S3、將經(jīng)過拼音糾錯(cuò)模型進(jìn)行二次糾錯(cuò)后的文本導(dǎo)入熱詞替換規(guī)則模型中,進(jìn)行第三次糾錯(cuò)。本發(fā)明中,將用戶輸入的文本先倒入Bert糾錯(cuò)模型進(jìn)行文本糾錯(cuò),再將修正過一次的文本導(dǎo)入拼音糾錯(cuò)模型進(jìn)行二次糾錯(cuò),從而在對(duì)文本進(jìn)行語義修正后,針對(duì)垂直領(lǐng)域的專有名詞進(jìn)行修正以達(dá)到加強(qiáng)效果,提高了文本糾錯(cuò)的準(zhǔn)確率,之后再將二次糾錯(cuò)后的文本倒入熱詞替換規(guī)則模型進(jìn)行熱詞替換,將方言等口語化文本轉(zhuǎn)換為專有名詞,再次增強(qiáng)糾錯(cuò)效果。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種適用于特定垂直領(lǐng)域的文本糾錯(cuò)方法及其糾錯(cuò)裝置。
背景技術(shù)
自然語言處理(NLP)是一種專業(yè)分析人類語言的人工智能,現(xiàn)代NLP是一門融合了語言學(xué)、計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)的混合學(xué)科,為了讓NLP可以更準(zhǔn)確的對(duì)輸入的文本進(jìn)行回應(yīng),我們需要對(duì)文本進(jìn)行糾錯(cuò),從而減少噪音。目前的文本糾錯(cuò)主要著重于進(jìn)行語義分析,以尋找并替換錯(cuò)別字為主,市面上的文本糾錯(cuò)模型主要分為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩大類。
然而,首先,機(jī)器學(xué)習(xí)模型無法對(duì)數(shù)據(jù)進(jìn)行擬合,因此準(zhǔn)確率低下,而深度學(xué)習(xí)模型需要大量的準(zhǔn)確語料,同時(shí)需要大量的時(shí)間進(jìn)行訓(xùn)練,并且在垂直領(lǐng)域,因語料噪音問題,普通深度模型的準(zhǔn)確率仍需要提升;
其次,在垂直領(lǐng)域中有許多該場(chǎng)景下才會(huì)使用的專有名詞,僅依靠語義糾錯(cuò)難以檢測(cè)出專有名詞中的錯(cuò)別字,并且模型甚至有可能基于語料將正確的詞改成錯(cuò)誤的;
最后,因?yàn)榉窖曰騻€(gè)人習(xí)慣,對(duì)同一種事物可能會(huì)有多種稱呼方式,這些稱呼可能會(huì)導(dǎo)致噪音,使得NLP難以取得正確的信息,但是,這些用語嚴(yán)格來說并不是錯(cuò)誤的,一般的糾錯(cuò)難以對(duì)這些詞產(chǎn)生反應(yīng)。
發(fā)明內(nèi)容
為了解決上述背景技術(shù)中所提到的技術(shù)問題,而提出的一種適用于特定垂直領(lǐng)域的文本糾錯(cuò)方法及其糾錯(cuò)裝置。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
一種適用于特定垂直領(lǐng)域的文本糾錯(cuò)方法,包括以下步驟:
S1、將文本導(dǎo)入經(jīng)過預(yù)訓(xùn)練的Bert糾錯(cuò)模型中,進(jìn)行文本詞義糾錯(cuò);
S11、根據(jù)標(biāo)點(diǎn)符號(hào)將文本切分為短句;
S12、對(duì)短句中的第一個(gè)字進(jìn)行掩碼處理;
S13、并通過經(jīng)過預(yù)訓(xùn)練的Bert糾錯(cuò)模型對(duì)被掩碼處理的字進(jìn)行短句句以進(jìn)行預(yù)測(cè),并將所有的預(yù)測(cè)結(jié)果存儲(chǔ)在列表一中,列表一中的預(yù)測(cè)結(jié)果按照預(yù)測(cè)分?jǐn)?shù)從大到小的順序排列;
S131、若被掩碼的字在列表一中,則將被掩碼的字視為正確的;
S132、若被掩碼的字不在列表一中,則根據(jù)拼音獲取所有與被掩碼的字發(fā)音相同的常見字并存于列表二中;
S1321、若列表一和列表二中存在相同的字,則將被掩碼的字視為錯(cuò)別字,從列表一中選出預(yù)測(cè)分?jǐn)?shù)最高的字代替被掩碼的字以達(dá)到糾錯(cuò)目的;
S1322、若列表一和列表二中的字均不一致,則將被掩碼的字視為正確的;
S14、在判斷完短句的第一個(gè)字后,將短句中的下一個(gè)字進(jìn)行掩碼處理并重復(fù)步驟S13,直到檢測(cè)并糾正完文本中的所有漢字;
S2、將經(jīng)過Bert糾錯(cuò)模型糾錯(cuò)后的文本導(dǎo)入拼音糾錯(cuò)模型中,進(jìn)行二次糾錯(cuò);
S21、將經(jīng)過Bert糾錯(cuò)模型糾錯(cuò)后的所有文本轉(zhuǎn)換為拼音;
S22、將熱詞的拼音和文本的拼音按字?jǐn)?shù)由小到大依次對(duì)照;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江康旭科技有限公司,未經(jīng)浙江康旭科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110687769.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 特定部分姿勢(shì)推測(cè)裝置、特定部分姿勢(shì)推測(cè)方法及特定部分姿勢(shì)推測(cè)程序
- 特定設(shè)備管理系統(tǒng)、特定設(shè)備管理程序以及特定設(shè)備管理方法
- 針對(duì)特定用戶推送特定內(nèi)容的方法
- 在屏幕特定區(qū)域呈現(xiàn)特定數(shù)據(jù)的方法
- 特定機(jī)床夾具
- 特定機(jī)床夾具
- 特定核酸結(jié)合蛋白及其富集特定核酸的方法
- 杯蓋(特定功能)
- 位置特定系統(tǒng)、位置特定裝置、位置特定方法、位置特定程序、及電腦可讀取的記錄介質(zhì)、以及記錄的設(shè)備
- 特定載波和特定頻率能力限制的方法及用戶設(shè)備





