[發(fā)明專(zhuān)利]一種基于多模態(tài)模型的漢字易混淆集構(gòu)建方法有效

申請(qǐng)?zhí)枺?/td>	202110402126.1	申請(qǐng)日：	2021-04-14
公開(kāi)（公告）號(hào)：	CN112990353B	公開(kāi)（公告）日：	2021-07-30
發(fā)明（設(shè)計(jì)）人：	李芳芳;汪業(yè)成;林中堯;單悠然;毛星亮	申請(qǐng)（專(zhuān)利權(quán)）人：	中南大學(xué)
主分類(lèi)號(hào)：	G06K9/62	分類(lèi)號(hào)：	G06K9/62;G06K9/68;G06N3/08;G10L15/06;G10L15/08;G10L15/16;G10L15/183;G10L25/51
代理公司：	長(zhǎng)沙惟盛赟鼎知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 43228	代理人：	滕澧陽(yáng)
地址：	410000 湖南***	國(guó)省代碼：	湖南;43
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于多模態(tài) 模型漢字混淆構(gòu)建方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【說(shuō)明書(shū)】：

本發(fā)明涉及漢字易混淆集構(gòu)建領(lǐng)域，公開(kāi)了一種基于多模態(tài)模型的漢字易混淆集構(gòu)建方法。S1：得到字形編碼的相似度，S2：得到字音編碼的相似度，S3：構(gòu)建并訓(xùn)練出一個(gè)圖像分類(lèi)的神經(jīng)網(wǎng)絡(luò)模型，由圖像分類(lèi)的神經(jīng)網(wǎng)絡(luò)模型輸出一個(gè)M維的向量，S4：構(gòu)建并訓(xùn)練出一個(gè)音頻分類(lèi)的神經(jīng)網(wǎng)絡(luò)模型，由音頻分類(lèi)的神經(jīng)網(wǎng)絡(luò)模型輸出一個(gè)M維的向量，S5：將漢字字符C_i的字形編碼相似度向量、字音編碼相似度向量、字形視覺(jué)易混淆向量、字音聽(tīng)覺(jué)易混淆向量，加權(quán)組合為一個(gè)向量，作為音形易混淆向量，從而依據(jù)音形易混淆向量中每個(gè)維度上的相似度，選擇對(duì)應(yīng)的字典Dic中的漢字，構(gòu)成音形易混淆集。本發(fā)明能夠模擬人的視覺(jué)和聽(tīng)覺(jué)構(gòu)建易混淆集。

技術(shù)領(lǐng)域

本發(fā)明屬于漢字易混淆集構(gòu)建領(lǐng)域，尤其涉及一種基于多模態(tài)模型的漢字易混淆集構(gòu)建方法。

背景技術(shù)

中文文本糾錯(cuò)是中文自然語(yǔ)言處理中一項(xiàng)傳統(tǒng)而重要的預(yù)處理任務(wù)。對(duì)于一段含有拼寫(xiě)錯(cuò)誤的自然文本，如果沒(méi)有糾正就去做文本分類(lèi)和命名實(shí)體識(shí)別等自然語(yǔ)言任務(wù)，勢(shì)必會(huì)影響做這些任務(wù)的模型的學(xué)習(xí)效果和判斷能力。

人輸入的字句尤其是長(zhǎng)文本時(shí)，即使經(jīng)歷多次檢查，也會(huì)或多或少都出現(xiàn)語(yǔ)病、錯(cuò)別字、漏字多字等錯(cuò)誤，這是因?yàn)槿撕茈y長(zhǎng)時(shí)間保持專(zhuān)注。此外如果是自己檢查自己寫(xiě)的文字，那么思維的定勢(shì)也將會(huì)影響錯(cuò)誤的檢查。

而使用計(jì)算機(jī)算法實(shí)現(xiàn)的拼寫(xiě)檢查，可以幫助人們做拼寫(xiě)檢查，甚至糾錯(cuò)的工作。因此，拼寫(xiě)檢查對(duì)文字出版商，對(duì)學(xué)生論文的修改等應(yīng)用場(chǎng)景具有重要的意義。

易混淆集是現(xiàn)在大多數(shù)拼寫(xiě)檢查和拼寫(xiě)糾錯(cuò)任務(wù)都使用到的一個(gè)重要數(shù)據(jù)。如，我們?cè)谖谋局行枰褂玫健氨钡牡胤剑苋菀族e(cuò)誤會(huì)被替換成“暴”，“曝”等詞，造成一些拼寫(xiě)甚至語(yǔ)法上的錯(cuò)誤。這里“暴”，“曝”等字構(gòu)成的集合就是“爆”的易混淆集。

易混淆集一直在中文文本糾錯(cuò)中扮演著重要角色。

Linetal.2015用易混淆集和N-gram算法做中文文本糾錯(cuò);

Wangetal.2019用易混淆集和指針網(wǎng)絡(luò)做中文文本糾錯(cuò)；

Chengetal.2020分別用字音的易混淆集和字形的易混淆集構(gòu)建一個(gè)圖，然后用圖神經(jīng)網(wǎng)絡(luò)的方法把圖嵌入成向量。接著用該向量與Bert模型的輸出進(jìn)行對(duì)應(yīng)元素相乘，得出結(jié)果作為最后輸出的預(yù)測(cè)向量。

關(guān)于易混淆集的生成，有學(xué)者對(duì)4100個(gè)錯(cuò)誤的漢字的研究統(tǒng)計(jì)，發(fā)現(xiàn)76%的錯(cuò)誤與正確字符和錯(cuò)誤字符之間的語(yǔ)音相似性有關(guān)，46%是由于視覺(jué)相似性，29%涉及兩個(gè)因素。這表明漢字與該漢字對(duì)應(yīng)的易混淆集的易混淆性，往往與字音和字形的相似度有關(guān)。

近年來(lái)，已經(jīng)有很多學(xué)者基于這點(diǎn)，提出了生成易混淆集的一些方式，包括：

Liuetal.2011用倉(cāng)頡碼進(jìn)判斷漢字之間的視覺(jué)相似性,用經(jīng)驗(yàn)規(guī)則來(lái)確定漢語(yǔ)音素之間的相似度。接著混合字形和字音相似度，并取相似度達(dá)到閾值的項(xiàng)選為易混淆集。

Shietal.2014利用筆順相似度和字音的點(diǎn)陣相似度構(gòu)建初始易混淆集。然后在原有易混淆集的基礎(chǔ)上，根據(jù)易混淆關(guān)系構(gòu)建一張圖，在圖上設(shè)計(jì)了一些基于規(guī)則的自擴(kuò)展算法和開(kāi)源外部補(bǔ)充算法，來(lái)擴(kuò)展易混淆集。

Leeetal.2019使用Jaccard系數(shù)計(jì)算字形相似度；為韻母、音調(diào)分別制定規(guī)則，計(jì)算字音相似度，然后綜合音形相似度生成易混淆集。

目前為止，中文易混淆集的生成，基本都使用了字音形相似的思路。不過(guò)目前這些文章的思路都有一個(gè)明顯的共性，就是對(duì)官方給出的漢字的字音和字形的編碼來(lái)設(shè)定特定的規(guī)則求字音和字形的相似度；而不是從模擬人本身的視覺(jué)和聽(tīng)覺(jué)感官來(lái)評(píng)估字音和字形對(duì)于人的易混淆程度。這種直接的方式會(huì)帶來(lái)以下兩個(gè)問(wèn)題：

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中南大學(xué)，未經(jīng)中南大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110402126.1/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

同類(lèi)專(zhuān)利

專(zhuān)利分類(lèi)

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06K 數(shù)據(jù)識(shí)別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形，例如，指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個(gè)筆畫(huà)組成的，而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

滑坡模型實(shí)驗(yàn)?zāi)Ｐ图?/a>

專(zhuān)利文獻(xiàn)下載

說(shuō)明：

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū)；

2、支持發(fā)明專(zhuān)利、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利（升級(jí)中）；

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】