[發(fā)明專(zhuān)利]一種文字處理方法、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110078268.7 | 申請(qǐng)日: | 2021-01-20 |
| 公開(kāi)(公告)號(hào): | CN113569851A | 公開(kāi)(公告)日: | 2021-10-29 |
| 發(fā)明(設(shè)計(jì))人: | 王帥;鄧強(qiáng);鐘濱;徐進(jìn) | 申請(qǐng)(專(zhuān)利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類(lèi)號(hào): | G06K9/34 | 分類(lèi)號(hào): | G06K9/34;G06F40/103 |
| 代理公司: | 廣州三環(huán)專(zhuān)利商標(biāo)代理有限公司 44202 | 代理人: | 熊永強(qiáng);杜維 |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文字處理 方法 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種文字處理方法,其特征在于,所述方法包括:
獲取至少兩個(gè)參考文字,對(duì)所述至少兩個(gè)參考文字進(jìn)行拆分,得到所述至少兩個(gè)參考文字的拆分字形;所述至少兩個(gè)參考文字的拆分字形包括拆分文字;
基于所述至少兩個(gè)參考文字和所述至少兩個(gè)參考文字的拆分字形,構(gòu)建文字字形圖;所述文字字形圖包括每個(gè)參考文字與所屬的拆分字形之間的關(guān)聯(lián)關(guān)系;
將所述每個(gè)參考文字和所述拆分文字確定為待識(shí)別文字,基于所述文字字形圖生成每個(gè)待識(shí)別文字的文字特征向量;
根據(jù)所述每個(gè)待識(shí)別文字的文字特征向量,確定所述每個(gè)待識(shí)別文字之間的文字相似度。
2.如權(quán)利要求1所述的方法,其特征在于,所述至少兩個(gè)參考文字包括參考文字i,i為小于或等于所述至少兩個(gè)參考文字的總數(shù)量的正整數(shù);
所述基于所述至少兩個(gè)參考文字和所述至少兩個(gè)參考文字的拆分字形,構(gòu)建文字字形圖,包括:
建立所述參考文字i與所述參考文字i的拆分字形之間的連邊;
根據(jù)所述參考文字i的文字屬性信息與所述參考文字i的拆分字形的字形屬性信息,確定所述參考文字i與所屬的拆分字形之間的連邊的連邊權(quán)重;
根據(jù)所述參考文字i與所屬的拆分字形之間的連邊的連邊權(quán)重,生成所述文字字形圖。
3.如權(quán)利要求2所述的方法,其特征在于,所述基于所述文字字形圖生成每個(gè)待識(shí)別文字的文字特征向量,包括:
將所述每個(gè)參考文字與所述每個(gè)參考文字的拆分字形確定為所述文字字形圖中的連接節(jié)點(diǎn);
根據(jù)所述文字字形圖確定所述參考文字i的關(guān)聯(lián)文本序列;所述關(guān)聯(lián)文本序列包括與所述參考文字i依次進(jìn)行連接的M個(gè)連接節(jié)點(diǎn),M為小于或等于所述文字字形圖中的連接節(jié)點(diǎn)的總數(shù)量的正整數(shù);
基于所述關(guān)聯(lián)文本序列訓(xùn)練初始模型,得到文字字形模型;
基于所述文字字形模型生成所述每個(gè)待識(shí)別文字的文字特征向量。
4.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述文字字形圖確定所述參考文字i的關(guān)聯(lián)文本序列,包括:
從所述文字字形圖中獲取所述參考文字i的至少兩個(gè)待選關(guān)聯(lián)文本序列;
根據(jù)與每個(gè)待選關(guān)聯(lián)文本序列相關(guān)聯(lián)的連邊的連邊權(quán)重,分別獲取所述每個(gè)待選文本關(guān)聯(lián)序列對(duì)應(yīng)的連邊權(quán)重和;
將所述至少兩個(gè)待選文本關(guān)聯(lián)序列中所屬的連邊權(quán)重和最大的待選文本關(guān)聯(lián)序列,確定為所述參考文字i的所述關(guān)聯(lián)文本序列。
5.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述參考文字i的文字屬性信息與所述參考文字i的拆分字形的字形屬性信息,確定所述參考文字i與所屬的拆分字形之間的連邊的連邊權(quán)重,包括:
根據(jù)所述文字屬性信息和所述字形屬性信息,獲取所述參考文字i針對(duì)所屬的拆分字形的第一連邊權(quán)重,獲取所述參考文字i的拆分字形針對(duì)所述參考文字i的第二連邊權(quán)重;
將所述第一連邊權(quán)重和所述第二連邊權(quán)重,確定為所述參考文字i與所屬的拆分字形之間的連邊的連邊權(quán)重。
6.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述文字屬性信息和所述字形屬性信息,獲取所述參考文字i針對(duì)所屬的拆分字形的第一連邊權(quán)重,獲取所述參考文字i的拆分字形針對(duì)所述參考文字i的第二連邊權(quán)重,包括:
將所述每個(gè)參考文字與所述每個(gè)參考文字的拆分字形確定為所述文字字形圖中的連接節(jié)點(diǎn);
獲取所述參考文字i的第一筆畫(huà)信息以及所述文字字形圖中所述參考文字i的相鄰連接節(jié)點(diǎn)的第一節(jié)點(diǎn)數(shù)量,將所述第一筆畫(huà)信息和所述第一節(jié)點(diǎn)數(shù)量確定為所述文字屬性信息;
獲取所述參考文字i的拆分字形的第二筆畫(huà)信息以及所述文字字形圖中所述參考文字i的拆分字形的相鄰連接節(jié)點(diǎn)的第二節(jié)點(diǎn)數(shù)量,將所述第二筆畫(huà)信息和所述第二節(jié)點(diǎn)數(shù)量確定為所述字形屬性信息;
根據(jù)所述文字屬性信息中的所述第一筆畫(huà)信息和所述字形屬性信息,確定所述第一連邊權(quán)重,并根據(jù)所述字形屬性信息中的所述第二筆畫(huà)信息和所述文字屬性信息,確定所述第二連邊權(quán)重。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110078268.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:終端定位方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 下一篇:視頻數(shù)據(jù)處理方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 存儲(chǔ)在單個(gè)XML文件中的可被理解XML的應(yīng)用程序處理的文字處理器文檔
- 文字處理應(yīng)用程序中的數(shù)據(jù)綁定
- 一種具有文字處理功能的存儲(chǔ)裝置
- 實(shí)現(xiàn)文字處理軟件版式兼容的方法
- 文字處理方法、裝置及系統(tǒng)
- 一種文字特征參數(shù)處理的方法及設(shè)備
- 人機(jī)對(duì)話平臺(tái)的文字處理軟件填入文字錄入軟件
- 人機(jī)對(duì)話平臺(tái)的文字處理軟件具備集成其它軟件的架構(gòu)
- 人機(jī)對(duì)話平臺(tái)增加文字處理軟件
- 一種基于語(yǔ)義上下文場(chǎng)景的中文小說(shuō)語(yǔ)音合成系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗(yàn)設(shè)備、驗(yàn)證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動(dòng)設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點(diǎn)設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)
- 動(dòng)態(tài)存儲(chǔ)管理裝置及方法
- 一種存儲(chǔ)方法、服務(wù)器及存儲(chǔ)控制器
- 一種基于存儲(chǔ)系統(tǒng)的控制方法及裝置
- 一種信息的存儲(chǔ)控制方法
- 一種數(shù)據(jù)存儲(chǔ)方法及裝置
- 數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)存儲(chǔ)控制方法及裝置
- 存儲(chǔ)設(shè)備、存儲(chǔ)系統(tǒng)及存儲(chǔ)方法
- 物料存儲(chǔ)方法及系統(tǒng)
- 基于雙芯智能電表的數(shù)據(jù)分類(lèi)存儲(chǔ)方法和裝置





