[發(fā)明專利]多音字處理方法、裝置、電子設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202110254598.7	申請日：	2021-03-09
公開（公告）號：	CN113052179A	公開（公告）日：	2021-06-29
發(fā)明（設(shè)計）人：	王田;王曉斐;高群	申請（專利權(quán)）人：	安徽淘云科技股份有限公司
主分類號：	G06K9/34	分類號：	G06K9/34
代理公司：	廣州三環(huán)專利商標(biāo)代理有限公司 44202	代理人：	熊永強(qiáng)
地址：	230031 安徽省合肥市高新區(qū)習(xí)友***	國省代碼：	安徽;34
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	多音字處理方法裝置電子設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種多音字處理方法，其特征在于，所述方法包括：

獲取掃描圖像；

對所述掃描圖像進(jìn)行切行，得到目標(biāo)圖像；

對所述目標(biāo)圖像進(jìn)行識別，得到所述至少一個注音和所述多個文字；

基于所述至少一個注音，從所述多個文字中確定所述每個注音對應(yīng)的多音字。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述至少一個注音與所述多個文字分別位于相鄰行時；

所述對所述掃描圖像進(jìn)行切行，得到目標(biāo)圖像，包括：

對所述掃描圖像進(jìn)行切行，得到至少一個中間圖像，每個中間圖像包括文字行和注音行；

對每個所述中間圖像進(jìn)行切行，得到至少一個目標(biāo)圖像，所述目標(biāo)圖像包括文字圖像和注音圖像。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述基于所述至少一個注音，從所述多個文字中確定所述每個注音對應(yīng)的多音字，包括：

基于所述每個注音的起止坐標(biāo)和所述每個文字的起止坐標(biāo)，從所述多個文字中確定每個注音對應(yīng)的至少一個候選文字；

從所述每個注音對應(yīng)的至少一個候選文字中確定每個注音對應(yīng)的多音字。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述對所述目標(biāo)圖像進(jìn)行識別，得到所述至少一個注音和所述多個文字，包括：

使用拼音識別模型對所述注音圖像進(jìn)行識別，得到所述注音圖像中的多個拼音字母；

將所述拼音字母之間的距離小于或等于閾值的連續(xù)相鄰的至少一個拼音字母劃分為一個注音，得到所述至少一個注音，并記錄每個注音的所述起止坐標(biāo)；

使用文字識別模型對所述文字圖像進(jìn)行識別，得到所述多個文字，并記錄每個所述文字的所述起止坐標(biāo)。

5.根據(jù)權(quán)利要求3或4所述的方法，其特征在于，所述注音的起止坐標(biāo)與所述候選文字的起止坐標(biāo)全部或部分重疊。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述至少一個注音與所述多個文字位于同一行時；

所述對所述目標(biāo)圖像進(jìn)行識別，得到所述至少一個注音和所述多個文字，包括：

使用文字識別模型對所述目標(biāo)圖像從左到右進(jìn)行識別，當(dāng)在文字識別模型下識別出第一符號時，使用拼音識別模型進(jìn)行識別，當(dāng)在拼音識別模型下識別出第二符號時，使用文字識別模型進(jìn)行識別，得到所述多個文字和多個拼音字母；

將所述多個拼音字母中的拼音字母距離小于或等于預(yù)設(shè)閾值，且連續(xù)相鄰的至少一個拼音字母劃分為一個注音，得到所述至少一個注音，并記錄每個注音和每個文字的所述起止坐標(biāo)。

7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述注音的起止坐標(biāo)與所述候選文字的起止坐標(biāo)相鄰或間隔N，所述N為起止坐標(biāo)連續(xù)相鄰的注音數(shù)量。

8.根據(jù)權(quán)利要求5或7所述的方法，其特征在于，所述從所述每個注音對應(yīng)的至少一個候選文字中確定每個注音對應(yīng)的多音字，包括：

獲取每個候選文字的所有拼音，將所述每個候選文字的所有拼音分別與對應(yīng)的注音進(jìn)行匹配；

將與每個注音匹配上的候選文字確定為所述多音字。

9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述方法還包括：

將所述每個注音標(biāo)注為對應(yīng)的所述多音字的拼音；

將所述多個文字和所述多音字的拼音輸入翻譯模塊和/或發(fā)音模塊。

10.一種多音字處理裝置，其特征在于，所述裝置包括：

獲取單元，用于獲取掃描圖像；

切行單元，用于對所述掃描圖像進(jìn)行切行，得到目標(biāo)圖像，所述目標(biāo)圖像中包括至少一個注音和多個文字；

識別單元，用于對所述目標(biāo)圖像進(jìn)行識別，得到所述至少一個注音和所述多個文字；

確定單元，用于基于所述至少一個注音，從所述多個文字中確定所述每個注音對應(yīng)的多音字。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽淘云科技股份有限公司，未經(jīng)安徽淘云科技股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110254598.7/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。