[發(fā)明專利]一種輸入過程中的中文術(shù)語自動糾錯(cuò)方法無效
| 申請?zhí)枺?/td> | 200910023816.5 | 申請日: | 2009-09-08 |
| 公開(公告)號: | CN101639830A | 公開(公告)日: | 2010-02-03 |
| 發(fā)明(設(shè)計(jì))人: | 劉均;鄭慶華;沙莎;鄭成;周正 | 申請(專利權(quán))人: | 西安交通大學(xué) |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30;G06F3/023 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司 | 代理人: | 陸萬壽 |
| 地址: | 710049陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 輸入 過程 中的 中文 術(shù)語 自動 糾錯(cuò) 方法 | ||
所屬領(lǐng)域?
本發(fā)明涉及計(jì)算機(jī)文本自動糾錯(cuò)的技術(shù)領(lǐng)域,特別是涉及一種用戶輸入過程中,中文術(shù)語的自動糾錯(cuò)技術(shù)。?
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)應(yīng)用的日趨廣泛,網(wǎng)絡(luò)學(xué)習(xí)已成為人們獲得和學(xué)習(xí)知識的主要手段之一,這一過程的完成需要用戶通過計(jì)算機(jī)輸入信息。對于中文用戶,一般來說,用戶輸入的是一字符串,該字符串經(jīng)過某種中文輸入法軟件的處理后轉(zhuǎn)換為一串漢字串。無論是用戶輸入還是中文輸入法軟件的處理都可能產(chǎn)生錯(cuò)誤,于是需要自動糾錯(cuò)的技術(shù)處理這些錯(cuò)誤。申請人經(jīng)過查新,檢索到三篇與本發(fā)明相關(guān)的屬于中文文本自動糾錯(cuò)領(lǐng)域的專利,它們分別是:?
1.用于對表意字符的輸入字符串進(jìn)行自動糾錯(cuò)的方法;?
2.一種生成糾錯(cuò)數(shù)據(jù)庫的方法、自動糾錯(cuò)的方法和系統(tǒng);?
3.形成個(gè)性化糾錯(cuò)模型的方法及個(gè)性化糾錯(cuò)的輸入法系統(tǒng)。?
在上述專利1中,發(fā)明人提出了用于對表意字符的輸入字符串進(jìn)行自動糾錯(cuò)的方法,該套方法有以下特點(diǎn):?
1)使用主題詞典對輸入字符串分段,確定不匹配的主題詞典子字符串即錯(cuò)誤子字符串;?
2)使用一般詞典對不匹配的主題詞典子字符串進(jìn)行分段,對每一段分別糾錯(cuò)。統(tǒng)計(jì)每種分段情況下糾錯(cuò)結(jié)果中漢字的個(gè)數(shù),并以此計(jì)算總的編輯距離;?
3)定義實(shí)用成本概念,并以該指標(biāo)判斷優(yōu)選糾錯(cuò)結(jié)果。?
在專利2中,發(fā)明人提出了一種生成糾錯(cuò)數(shù)據(jù)庫的方法和裝置以及一種自動糾錯(cuò)的方法和系統(tǒng),并實(shí)現(xiàn)了該系統(tǒng)。該發(fā)明通過記錄和收集包括有用戶輸入過程信息的日志,從中將用戶手動糾錯(cuò)的信息挖掘出來,生成糾錯(cuò)數(shù)據(jù)庫,以用于實(shí)現(xiàn)對更多用戶更準(zhǔn)確的自動糾錯(cuò),還可以用于實(shí)現(xiàn)對該用戶的個(gè)性化自動糾錯(cuò)。?
在專利3中,發(fā)明人公開了一種形成個(gè)性化糾錯(cuò)模型的方法,此套方法過對當(dāng)前糾錯(cuò)模型進(jìn)行調(diào)整來得到符合用戶輸入習(xí)慣的個(gè)性化糾錯(cuò)模型,以用于實(shí)現(xiàn)對用戶的輸入序?列進(jìn)行更準(zhǔn)確的個(gè)性化自動糾錯(cuò)。另外,收集了多方面的信息,糾錯(cuò)范圍包括類似南方模糊音的認(rèn)知錯(cuò)誤,還包括非認(rèn)知錯(cuò)誤。由于綜合考慮了輸入設(shè)備布局、輸入設(shè)備質(zhì)量等因素,使得本發(fā)明可以適用于PC鍵盤、迷你鍵盤等不同的輸入設(shè)備。?
根據(jù)上述查新,現(xiàn)有技術(shù)與輸入過程中的中文術(shù)語糾錯(cuò)方法主要有以下幾方面的不同:?
1.現(xiàn)有專利研究面向?qū)ο鬄樽匀徽Z言構(gòu)成的文本輸入,而本方法針對中文術(shù)語的相關(guān)研究;?
2.現(xiàn)有專利對于判斷為正確的輸入不會做進(jìn)一步處理,而本方法則對正確的輸入進(jìn)行進(jìn)一步地補(bǔ)全處理,協(xié)助認(rèn)知水平有限的用戶對系統(tǒng)的使用;?
3.現(xiàn)有專利在對錯(cuò)誤進(jìn)行處理時(shí),沒有利用用戶所使用輸入法軟件的工作特點(diǎn),而是進(jìn)行以漢字為單位的糾錯(cuò);本方法中結(jié)合了輸入法軟件的特點(diǎn)進(jìn)行糾錯(cuò)。?
發(fā)明內(nèi)容
根據(jù)上述現(xiàn)有技術(shù)存在的缺陷或不足,本發(fā)明提供了一種基于網(wǎng)絡(luò)學(xué)習(xí)環(huán)境的中文術(shù)語自動糾錯(cuò)的方法。包括以下幾方面內(nèi)容:
1.補(bǔ)全與糾錯(cuò)相結(jié)合的機(jī)制;?
研究目的:根據(jù)用戶的輸入,對用戶進(jìn)行補(bǔ)全或糾錯(cuò)提示。?
研究背景:根據(jù)用戶輸入是否正確,對用戶的輸入進(jìn)行補(bǔ)全處理或糾錯(cuò)處理,以便對用戶進(jìn)行合理的提示,幫助用戶構(gòu)造正確的中文術(shù)語的輸入。?
本發(fā)明的解決策略:?
I.將用戶的輸入看作是一個(gè)“詞袋”,詞袋中的每一個(gè)元素稱為一個(gè)“詞”,也就是圖1中的“term”。這個(gè)term可能的形式有三種:漢字串、字母串或者字母漢字混合串。它是糾錯(cuò)的基本單位;?
I.采用Bloom濾波器的結(jié)構(gòu)快速判斷該Term是否是一個(gè)合法的術(shù)語,如果是,將該Term進(jìn)行術(shù)語補(bǔ)全;否則對其進(jìn)行術(shù)語糾錯(cuò);?
II.術(shù)語補(bǔ)全:其主要作用是對正確的短術(shù)語進(jìn)行補(bǔ)全提示:光纖→單模光纖|多模光纖?
1)、應(yīng)用工具Pinyin4j得到Term中各個(gè)漢字的全拼及音調(diào),并分別將全拼、音調(diào)依照Term中漢字的排列順序進(jìn)行排列組合,得到該Term的拼音串和音調(diào)串;?
2)、對轉(zhuǎn)換為的拼音串進(jìn)行匹配及查找,已得到術(shù)語補(bǔ)全的術(shù)語提示結(jié)果。?
III.術(shù)語糾錯(cuò):其主要作用是對錯(cuò)誤的輸入進(jìn)行糾正已得到最接近用戶本意的合法術(shù)語提示項(xiàng)?
1)、還原出用戶原本的輸入,也就是還原出term進(jìn)入計(jì)算機(jī)時(shí)未經(jīng)輸入軟件處理前的可能字符組合;?
2)、對每一種可能的原始輸入組合進(jìn)行編輯,編輯的過程即為改正錯(cuò)誤的過程,編輯結(jié)果所構(gòu)成的集合應(yīng)包含用戶的本意輸入,或者說包含正確的輸入;?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910023816.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





