[發(fā)明專利]一種文本識(shí)別方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201910913133.0 | 申請(qǐng)日: | 2019-09-25 |
| 公開(公告)號(hào): | CN110688411A | 公開(公告)日: | 2020-01-14 |
| 發(fā)明(設(shè)計(jì))人: | 汪越宇 | 申請(qǐng)(專利權(quán))人: | 北京地平線機(jī)器人技術(shù)研發(fā)有限公司 |
| 主分類號(hào): | G06F16/2458 | 分類號(hào): | G06F16/2458 |
| 代理公司: | 11687 北京嘉科知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人: | 楊波 |
| 地址: | 100086 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo)文本 獲取目標(biāo) 文本 標(biāo)識(shí)確定 文本識(shí)別 向量化 向量 預(yù)設(shè) 提煉 輸出 | ||
公開了一種文本識(shí)別方法及裝置,包括:獲取目標(biāo)文本中多個(gè)字符各自對(duì)應(yīng)的編碼值;獲取所述目標(biāo)文本中各個(gè)字符的標(biāo)識(shí);基于所述各個(gè)字符對(duì)應(yīng)的編碼值及所述各個(gè)字符的標(biāo)識(shí),確定所述目標(biāo)文本對(duì)應(yīng)的編碼值序列;根據(jù)預(yù)設(shè)的識(shí)別模型對(duì)所述目標(biāo)文本對(duì)應(yīng)的編碼值序列進(jìn)行識(shí)別,并輸出第一識(shí)別結(jié)果。通過獲取目標(biāo)文本中各字符對(duì)應(yīng)的編碼值和標(biāo)識(shí),進(jìn)而通過各個(gè)字符對(duì)應(yīng)的編碼值及標(biāo)識(shí)確定目標(biāo)文本的編碼值序列,實(shí)現(xiàn)了對(duì)于目標(biāo)文本高效簡便的向量化,且無需人工提煉特征,向量的準(zhǔn)確性得以保障。
技術(shù)領(lǐng)域
本公開涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種文本識(shí)別方法及裝置。
背景技術(shù)
在文字或計(jì)算機(jī)代碼等各種文本的創(chuàng)作過程中,不同的作者、不同的文本類型都具有明顯的風(fēng)格和特點(diǎn)。以至于這種“風(fēng)格和特點(diǎn)”已經(jīng)具有統(tǒng)計(jì)學(xué)意義上的特征。換言之,通過對(duì)文本的特征進(jìn)行分析,能夠鑒定文本的作者身份或者文本類型。
在現(xiàn)有技術(shù)中,可以基于抽象語法樹(Abstract Syntax Tree,簡稱AST)對(duì)文本進(jìn)行向量化,進(jìn)而輸入神經(jīng)網(wǎng)絡(luò)以識(shí)別其作者。但是這種對(duì)文本進(jìn)行向量化的方式相對(duì)復(fù)雜,效率低下。而且本質(zhì)上依然接近于人工提煉特征,對(duì)于特征的提煉存在誤差。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,提出了本公開。本公開的實(shí)施例提供了一種文本識(shí)別方法及裝置,通過將文本轉(zhuǎn)換成編碼值序列,并利用識(shí)別模型進(jìn)行識(shí)別和分析,獲得相應(yīng)的識(shí)別結(jié)果。
根據(jù)本公開的第一個(gè)方面,提供了一種文本識(shí)別方法,包括:
獲取目標(biāo)文本中多個(gè)字符各自對(duì)應(yīng)的編碼值;
獲取所述目標(biāo)文本中各個(gè)字符的標(biāo)識(shí);
基于所述各個(gè)字符對(duì)應(yīng)的編碼值及所述各個(gè)字符的標(biāo)識(shí),確定所述目標(biāo)文本對(duì)應(yīng)的編碼值序列;
根據(jù)預(yù)設(shè)的識(shí)別模型對(duì)所述目標(biāo)文本對(duì)應(yīng)的編碼值序列進(jìn)行識(shí)別,并輸出第一識(shí)別結(jié)果。
根據(jù)本公開的第二個(gè)方面,提供了一種識(shí)別模型的訓(xùn)練方法,包括:
獲取所述樣本文本的標(biāo)注信息;
確定所述樣本文本對(duì)應(yīng)的編碼值序列;
根據(jù)預(yù)設(shè)的識(shí)別模型對(duì)所述樣本文本對(duì)應(yīng)的編碼值序列進(jìn)行識(shí)別,并輸出第二識(shí)別結(jié)果;
確定所述樣本文本的標(biāo)注信息與所述第二識(shí)別結(jié)果之間的損失值;
當(dāng)所述損失值符合預(yù)設(shè)條件,調(diào)整所述識(shí)別模型的權(quán)重參數(shù)。
根據(jù)本公開的第三個(gè)方面,提供了一種文本識(shí)別裝置,包括:
編碼值獲取模塊,用于獲取目標(biāo)文本中多個(gè)字符各自對(duì)應(yīng)的編碼值;
標(biāo)識(shí)獲取模塊,用于獲取所述目標(biāo)文本中各個(gè)字符的標(biāo)識(shí);
編碼值序列確定模塊,用于基于所述各個(gè)字符對(duì)應(yīng)的編碼值及所述各個(gè)字符的標(biāo)識(shí),確定所述目標(biāo)文本對(duì)應(yīng)的編碼值序列;
識(shí)別模塊,用于根據(jù)預(yù)設(shè)的識(shí)別模型對(duì)所述目標(biāo)文本對(duì)應(yīng)的編碼值序列進(jìn)行識(shí)別,并輸出第一識(shí)別結(jié)果。
根據(jù)本公開的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于執(zhí)行上述第一方面中所述的文本識(shí)別方法。
根據(jù)本公開的第五方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:處理器;用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;
所述處理器,用于從所述存儲(chǔ)器中讀取所述可執(zhí)行指令,并執(zhí)行所述可執(zhí)行指令以實(shí)現(xiàn)上述第一方面中所述的文本識(shí)別方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京地平線機(jī)器人技術(shù)研發(fā)有限公司,未經(jīng)北京地平線機(jī)器人技術(shù)研發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910913133.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本動(dòng)畫控制方法和裝置、存儲(chǔ)介質(zhì)和處理器
- 確定文本類別的方法及裝置
- 文本匹配度檢測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和可讀存儲(chǔ)介質(zhì)
- 一種文本輸出方法、裝置及可讀存儲(chǔ)介質(zhì)
- 文本內(nèi)容處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 文本處理方法和裝置、存儲(chǔ)介質(zhì)和電子裝置
- 一種文本處理方法、設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 面向本質(zhì)計(jì)算與推理的跨DIKW模態(tài)文本歧義處理方法
- 文本匹配方法、裝置、終端和存儲(chǔ)介質(zhì)
- 一種程序文本的編碼處理方法、裝置以及存儲(chǔ)介質(zhì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 信息傳播方法及其傳播系統(tǒng)
- 基于聲紋識(shí)別的身份認(rèn)證方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)脫敏方法和相關(guān)裝置
- 對(duì)像素標(biāo)識(shí)進(jìn)行處理的方法和裝置
- 對(duì)像素標(biāo)識(shí)進(jìn)行處理的方法和裝置
- 目標(biāo)對(duì)象標(biāo)識(shí)的確定方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種目標(biāo)對(duì)象確定方法、裝置及存儲(chǔ)介質(zhì)
- 一種異常流量的確定方法及裝置
- 一種渲染參數(shù)確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種渲染參數(shù)確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





