[發(fā)明專(zhuān)利]一種基于多模態(tài)模型的漢字易混淆集構(gòu)建方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110402126.1 | 申請(qǐng)日: | 2021-04-14 |
| 公開(kāi)(公告)號(hào): | CN112990353B | 公開(kāi)(公告)日: | 2021-07-30 |
| 發(fā)明(設(shè)計(jì))人: | 李芳芳;汪業(yè)成;林中堯;單悠然;毛星亮 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中南大學(xué) |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62;G06K9/68;G06N3/08;G10L15/06;G10L15/08;G10L15/16;G10L15/183;G10L25/51 |
| 代理公司: | 長(zhǎng)沙惟盛赟鼎知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 43228 | 代理人: | 滕澧陽(yáng) |
| 地址: | 410000 湖南*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多模態(tài) 模型 漢字 混淆 構(gòu)建 方法 | ||
本發(fā)明涉及漢字易混淆集構(gòu)建領(lǐng)域,公開(kāi)了一種基于多模態(tài)模型的漢字易混淆集構(gòu)建方法。S1:得到字形編碼的相似度,S2:得到字音編碼的相似度,S3:構(gòu)建并訓(xùn)練出一個(gè)圖像分類(lèi)的神經(jīng)網(wǎng)絡(luò)模型,由圖像分類(lèi)的神經(jīng)網(wǎng)絡(luò)模型輸出一個(gè)
技術(shù)領(lǐng)域
本發(fā)明屬于漢字易混淆集構(gòu)建領(lǐng)域,尤其涉及一種基于多模態(tài)模型的漢字易混淆集構(gòu)建方法。
背景技術(shù)
中文文本糾錯(cuò)是中文自然語(yǔ)言處理中一項(xiàng)傳統(tǒng)而重要的預(yù)處理任務(wù)。對(duì)于一段含有拼寫(xiě)錯(cuò)誤的自然文本,如果沒(méi)有糾正就去做文本分類(lèi)和命名實(shí)體識(shí)別等自然語(yǔ)言任務(wù),勢(shì)必會(huì)影響做這些任務(wù)的模型的學(xué)習(xí)效果和判斷能力。
人輸入的字句尤其是長(zhǎng)文本時(shí),即使經(jīng)歷多次檢查,也會(huì)或多或少都出現(xiàn)語(yǔ)病、錯(cuò)別字、漏字多字等錯(cuò)誤,這是因?yàn)槿撕茈y長(zhǎng)時(shí)間保持專(zhuān)注。此外如果是自己檢查自己寫(xiě)的文字,那么思維的定勢(shì)也將會(huì)影響錯(cuò)誤的檢查。
而使用計(jì)算機(jī)算法實(shí)現(xiàn)的拼寫(xiě)檢查,可以幫助人們做拼寫(xiě)檢查,甚至糾錯(cuò)的工作。因此,拼寫(xiě)檢查對(duì)文字出版商,對(duì)學(xué)生論文的修改等應(yīng)用場(chǎng)景具有重要的意義。
易混淆集是現(xiàn)在大多數(shù)拼寫(xiě)檢查和拼寫(xiě)糾錯(cuò)任務(wù)都使用到的一個(gè)重要數(shù)據(jù)。如,我們?cè)谖谋局行枰褂玫健氨钡牡胤剑苋菀族e(cuò)誤會(huì)被替換成“暴”,“曝”等詞,造成一些拼寫(xiě)甚至語(yǔ)法上的錯(cuò)誤。這里“暴”,“曝”等字構(gòu)成的集合就是“爆”的易混淆集。
易混淆集一直在中文文本糾錯(cuò)中扮演著重要角色。
Linetal.2015用易混淆集和N-gram算法做中文文本糾錯(cuò);
Wangetal.2019用易混淆集和指針網(wǎng)絡(luò)做中文文本糾錯(cuò);
Chengetal.2020分別用字音的易混淆集和字形的易混淆集構(gòu)建一個(gè)圖,然后用圖神經(jīng)網(wǎng)絡(luò)的方法把圖嵌入成向量。接著用該向量與Bert模型的輸出進(jìn)行對(duì)應(yīng)元素相乘,得出結(jié)果作為最后輸出的預(yù)測(cè)向量。
關(guān)于易混淆集的生成,有學(xué)者對(duì)4100個(gè)錯(cuò)誤的漢字的研究統(tǒng)計(jì),發(fā)現(xiàn)76%的錯(cuò)誤與正確字符和錯(cuò)誤字符之間的語(yǔ)音相似性有關(guān),46%是由于視覺(jué)相似性,29%涉及兩個(gè)因素。這表明漢字與該漢字對(duì)應(yīng)的易混淆集的易混淆性,往往與字音和字形的相似度有關(guān)。
近年來(lái),已經(jīng)有很多學(xué)者基于這點(diǎn),提出了生成易混淆集的一些方式,包括:
Liuetal.2011用倉(cāng)頡碼進(jìn)判斷漢字之間的視覺(jué)相似性,用經(jīng)驗(yàn)規(guī)則來(lái)確定漢語(yǔ)音素之間的相似度。接著混合字形和字音相似度,并取相似度達(dá)到閾值的項(xiàng)選為易混淆集。
Shietal.2014利用筆順相似度和字音的點(diǎn)陣相似度構(gòu)建初始易混淆集。然后在原有易混淆集的基礎(chǔ)上,根據(jù)易混淆關(guān)系構(gòu)建一張圖,在圖上設(shè)計(jì)了一些基于規(guī)則的自擴(kuò)展算法和開(kāi)源外部補(bǔ)充算法,來(lái)擴(kuò)展易混淆集。
Leeetal.2019使用Jaccard系數(shù)計(jì)算字形相似度;為韻母、音調(diào)分別制定規(guī)則,計(jì)算字音相似度,然后綜合音形相似度生成易混淆集。
目前為止,中文易混淆集的生成,基本都使用了字音形相似的思路。不過(guò)目前這些文章的思路都有一個(gè)明顯的共性,就是對(duì)官方給出的漢字的字音和字形的編碼來(lái)設(shè)定特定的規(guī)則求字音和字形的相似度;而不是從模擬人本身的視覺(jué)和聽(tīng)覺(jué)感官來(lái)評(píng)估字音和字形對(duì)于人的易混淆程度。這種直接的方式會(huì)帶來(lái)以下兩個(gè)問(wèn)題:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中南大學(xué),未經(jīng)中南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110402126.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類(lèi)方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門(mén)機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





