[發(fā)明專利]疊字錯(cuò)誤檢測(cè)方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010842426.7 | 申請(qǐng)日: | 2020-08-20 |
| 公開(公告)號(hào): | CN111783458A | 公開(公告)日: | 2020-10-16 |
| 發(fā)明(設(shè)計(jì))人: | 余紅 | 申請(qǐng)(專利權(quán))人: | 支付寶(杭州)信息技術(shù)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/279;G06F40/211;G06F40/242;G06F40/30;G06F16/35 |
| 代理公司: | 北京永新同創(chuàng)知識(shí)產(chǎn)權(quán)代理有限公司 11376 | 代理人: | 林錦輝;劉景峰 |
| 地址: | 310000 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 疊字 錯(cuò)誤 檢測(cè) 方法 裝置 | ||
本說明書的實(shí)施例提供用于檢測(cè)語(yǔ)句中的疊字錯(cuò)誤的方法及裝置。在該方法中,對(duì)包含疊字的語(yǔ)句進(jìn)行分詞處理。此外,針對(duì)疊字分別位于相鄰分詞的語(yǔ)句,獲取疊字所在分詞的分詞信息,所述分詞信息包括分詞詞性和分詞拼音。然后,使用所獲取的分詞信息來(lái)檢測(cè)語(yǔ)句中的疊字錯(cuò)誤。
技術(shù)領(lǐng)域
本說明書實(shí)施例通常涉及語(yǔ)言處理領(lǐng)域,尤其涉及用于檢測(cè)語(yǔ)句中的疊字錯(cuò)誤的方法及裝置。
背景技術(shù)
在進(jìn)行語(yǔ)句分析時(shí),會(huì)發(fā)現(xiàn)所分析的語(yǔ)句中存在疊字現(xiàn)象。所述疊字現(xiàn)象是指同一語(yǔ)句中相鄰位置上的字完全相同。語(yǔ)句中的這些疊字可能是錯(cuò)誤的重復(fù)輸入而導(dǎo)致,例如:“按照有效核查數(shù)量量計(jì)費(fèi)”中的“量量”這個(gè)疊字是錯(cuò)誤的,但有些疊字也可能是正確的,例如,“阿里巴巴網(wǎng)絡(luò)技術(shù)有限公司”中的“巴巴”。在一些正式的文件之中,疊字的錯(cuò)誤輸入會(huì)給合作方留下不好印象,甚至還可能會(huì)產(chǎn)生法律風(fēng)險(xiǎn)或法律糾紛,比如,在合同簽署時(shí),“甲方支付肆萬(wàn)萬(wàn)元整(含稅價(jià))給乙方”中的疊字“萬(wàn)萬(wàn)”會(huì)導(dǎo)致合同條款錯(cuò)誤,造成后續(xù)產(chǎn)生法律糾紛的風(fēng)險(xiǎn)。
發(fā)明內(nèi)容
鑒于上述,本說明書實(shí)施例提供用于檢測(cè)語(yǔ)句中的疊字錯(cuò)誤的方法及裝置。利用該方法和裝置,通過使用疊字所在不同分詞的分詞詞性和分詞拼音來(lái)進(jìn)行疊字錯(cuò)誤檢測(cè),可以提升疊字錯(cuò)誤檢測(cè)的效率和準(zhǔn)確率。
根據(jù)本說明書實(shí)施例的一個(gè)方面,提供一種用于檢測(cè)語(yǔ)句中的疊字錯(cuò)誤的方法,包括:對(duì)包含疊字的語(yǔ)句進(jìn)行分詞處理;在疊字分別位于相鄰分詞時(shí),獲取疊字所在分詞的分詞信息,所述分詞信息包括分詞詞性和分詞拼音;以及使用所述分詞信息來(lái)檢測(cè)所述語(yǔ)句中的疊字錯(cuò)誤。
可選地,在上述方面的一個(gè)示例中,所述分詞信息還包括分詞的組成字?jǐn)?shù)。
可選地,在上述方面的一個(gè)示例中,使用所述分詞信息來(lái)檢測(cè)所述語(yǔ)句中的疊字錯(cuò)誤包括:根據(jù)所述分詞信息確定疊字判別模型的模型特征向量;以及將所述模型特征向量提供給所述疊字判別模型來(lái)檢測(cè)所述語(yǔ)句中的疊字錯(cuò)誤。
可選地,在上述方面的一個(gè)示例中,根據(jù)所述分詞信息確定疊字判別模型的模型特征向量包括:根據(jù)所述分詞信息確定疊字在所述相鄰分詞中的詞性一致性、拼音一致性和/或組成字?jǐn)?shù);以及根據(jù)疊字在所述相鄰分詞中的詞性一致性、拼音一致性和/或組成字?jǐn)?shù),生成所述疊字判別模型的模型特征向量。
可選地,在上述方面的一個(gè)示例中,對(duì)包含疊字的語(yǔ)句進(jìn)行分詞處理包括:使用文本分詞算法來(lái)對(duì)包含疊字的語(yǔ)句進(jìn)行分詞處理。
可選地,在上述方面的一個(gè)示例中,所述文本分詞算法包括:基于分詞詞典的文本分詞算法;基于統(tǒng)計(jì)的文本分詞算法;基于規(guī)則的文本分詞算法;基于模型的文本分詞算法;或者基于字標(biāo)注的文本分詞算法。
可選地,在上述方面的一個(gè)示例中,所述方法還包括:確定所述語(yǔ)句在去除所述疊字前后的困惑度得分變化值,使用所述分詞信息來(lái)檢測(cè)所述語(yǔ)句中的疊字錯(cuò)誤包括:使用所述分詞信息和所述困惑度得分變化值來(lái)檢測(cè)所述語(yǔ)句中的疊字錯(cuò)誤。
可選地,在上述方面的一個(gè)示例中,所述疊字判別模型包括下述模型中的一種:隨機(jī)森林模型;決策樹模型;梯度提升樹模型;神經(jīng)網(wǎng)絡(luò)模型;支持向量機(jī);感知機(jī)。
可選地,在上述方面的一個(gè)示例中,所述方法還包括:對(duì)輸入語(yǔ)句進(jìn)行語(yǔ)句劃分;以及從劃分出的語(yǔ)句中確定出包含疊字的語(yǔ)句。
根據(jù)本說明書的實(shí)施例的另一方面,提供一種用于檢測(cè)語(yǔ)句中的疊字錯(cuò)誤的裝置,包括:分詞處理單元,對(duì)包含疊字的語(yǔ)句進(jìn)行分詞處理;分詞信息獲取單元,在疊字分別位于相鄰分詞時(shí),獲取疊字所在分詞的分詞信息,所述分詞信息包括分詞詞性和分詞拼音;以及疊字錯(cuò)誤檢測(cè)單元,使用所述分詞信息來(lái)檢測(cè)所述語(yǔ)句中的疊字錯(cuò)誤。
可選地,在上述方面的一個(gè)示例中,所述疊字錯(cuò)誤檢測(cè)單元包括:模型輸入確定模塊,根據(jù)所述分詞信息確定疊字判別模型的模型特征向量;以及疊字錯(cuò)誤檢測(cè)模塊,將所述模型特征向量提供給所述疊字判別模型來(lái)檢測(cè)所述語(yǔ)句中的疊字錯(cuò)誤。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于支付寶(杭州)信息技術(shù)有限公司,未經(jīng)支付寶(杭州)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010842426.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種單鍵操作實(shí)現(xiàn)手機(jī)疊字符輸入的方法
- 手寫文本行字符切分方法、識(shí)別方法
- 疊字類問題處理方法、處理裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 自動(dòng)問答方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種基于深度學(xué)習(xí)的含堆疊字符的車牌識(shí)別方法
- 字符識(shí)別方法和字符識(shí)別裝置
- 一種有利于提高英語(yǔ)教學(xué)效率的英語(yǔ)教學(xué)用具
- 一種疊字語(yǔ)音識(shí)別方法及系統(tǒng)
- 疊字錯(cuò)誤檢測(cè)方法及裝置
- 半導(dǎo)體存儲(chǔ)器裝置
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





