[發(fā)明專利]基于人工智能的文本處理方法、裝置、設(shè)備、介質(zhì)在審

申請?zhí)枺?/td>	202010070649.6	申請日：	2020-01-21
公開（公告）號：	CN111242083A	公開（公告）日：	2020-06-05
發(fā)明（設(shè)計(jì)）人：	蘇晨;李斌;洪科元	申請（專利權(quán)）人：	騰訊云計(jì)算（北京）有限責(zé)任公司
主分類號：	G06K9/00	分類號：	G06K9/00;G06K9/34;G06F40/169;G06F40/279;G06N3/04
代理公司：	北京市柳沈律師事務(wù)所 11105	代理人：	王娟;孫宛晨
地址：	100086 北京市***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于人工智能文本處理方法裝置設(shè)備介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

公開了一種基于人工智能的文本處理方法、裝置、設(shè)備、介質(zhì)。所述文本處理方法包括：對待處理圖像進(jìn)行字符識別以確定包括至少兩行文本的待處理文本；針對所述至少兩行文本中的每行文本，確定該行文本所屬的文本類別；根據(jù)所述至少兩行文本中每行文本所屬的文本類別，從所述待處理文本中獲取對應(yīng)于所述文本類別的文本。

技術(shù)領(lǐng)域

本申請涉及文本處理領(lǐng)域，更具體地涉及一種基于人工智能的文本處理方法、裝置、設(shè)備、介質(zhì)。

背景技術(shù)

在一些應(yīng)用場景中，可能無法直接得到數(shù)字化的文本內(nèi)容，而需要從影像化的信息中提取文本信息的場景。例如，可以從醫(yī)學(xué)檢查報告這樣的影像化信息中提取其中的有效信息，如檢查結(jié)果。又例如，可以從宣傳海報中提取其中的宣傳對象和宣傳內(nèi)容等。由于從影像化的信息中識別的字符形成的文本可能包括無用的信息，因此，需要一種高效并準(zhǔn)確地從根據(jù)影像化信息識別的字符中抽取有效信息的方法。

發(fā)明內(nèi)容

根據(jù)本申請的一方面，提出了一種基于人工智能的文本處理方法，包括：對待處理圖像進(jìn)行字符識別以確定包括至少兩行文本的待處理文本；針對所述至少兩行文本中的每行文本，確定該行文本所屬的文本類別；根據(jù)所述至少兩行文本中每行文本所屬的文本類別，從所述待處理文本中獲取對應(yīng)于所述文本類別的文本。

在一些實(shí)施例中，針對所述至少兩行文本中的每行文本，確定該行文本所屬的文本類別包括：針對所述至少兩行文本中每行文本，基于所述至少兩行文本的上下文對該行文本中的每個字符進(jìn)行標(biāo)注，以得到該行文本的標(biāo)注序列；以及基于該行文本的標(biāo)注序列確定該行文本所屬的文本類別。

在一些實(shí)施例中，針對所述至少兩行文本中的每行文本，確定該行文本所屬的文本類別包括：針對所述至少兩行文本中的每行文本，對該行文本進(jìn)行文本分類，以確定該行文本所屬的文本類別。

在一些實(shí)施例中，針對所述至少兩行文本中的每行文本，確定該行文本所屬的文本類別還包括：對所述至少兩行文本中相鄰兩行文本進(jìn)行文本分類，以得到指示所述相鄰兩行文本是否屬于同一文本段的檢測結(jié)果；基于檢測結(jié)果確定所述至少兩行文本中的待調(diào)整文本行；以及基于所述待調(diào)整文本行的相鄰文本行所屬的文本類別，調(diào)整所述待調(diào)整文本行所屬的文本類別。

在一些實(shí)施例中，基于檢測結(jié)果確定所述至少兩行文本中的待調(diào)整文本行包括：當(dāng)所述檢測結(jié)果指示被檢測的文本行與前一行文本和后一行文本中屬于同一文本段，并且所述被檢測的文本行所屬的文本類別與所述前一行文本所屬的文本類別和所述后一行文本所屬的文本類別不同時，將所述被檢測的文本行確定為待調(diào)整文本行。

在一些實(shí)施例中，根據(jù)所述文本類別從所述待處理文本中獲取對應(yīng)于所述文本類別的文本包括：根據(jù)所述文本類別對所述待處理文本中的至少兩行文本進(jìn)行組合，以確定對應(yīng)于所述文本類別的文本段；輸出對應(yīng)于所述文本類別的文本段。

在一些實(shí)施例中，根據(jù)所述文本類別從所述待處理文本中獲取對應(yīng)于所述文本類別的文本還包括：對對應(yīng)于所述文本類別的文本進(jìn)行分句；在分句后的文本中查找包含預(yù)設(shè)關(guān)鍵詞的文本句；基于所述預(yù)設(shè)關(guān)鍵詞輸出對應(yīng)于所述文本類別的所述文本句。

在一些實(shí)施例中，所述待處理圖像是醫(yī)學(xué)檢查報告，所述待處理文本包括針對醫(yī)學(xué)圖像的醫(yī)學(xué)描述文本和醫(yī)學(xué)結(jié)論文本，所述文本類別包括描述類別和結(jié)論類別，基于所述預(yù)設(shè)關(guān)鍵詞輸出對應(yīng)于所述文本類別的所述文本句包括：針對預(yù)設(shè)的多個關(guān)鍵詞中的每個關(guān)鍵詞，分別輸出基于包含該關(guān)鍵詞的對應(yīng)于描述類別的文本句和對應(yīng)于所述結(jié)論類別的文本句。

在一些實(shí)施例中，對待處理圖像進(jìn)行字符識別以確定包括至少兩行文本的待處理文本包括：對待處理圖像進(jìn)行光學(xué)字符識別，以確定所述待處理圖像中的至少兩個文本框；基于所述文本框的坐標(biāo)和高度確定位于同一行的至少一個文本框；組合位于同一行的至少一個文本框中的字符，作為待處理文本中的一行文本。

在一些實(shí)施例中，所述文本類別包括描述類別和結(jié)論類別。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊云計(jì)算（北京）有限責(zé)任公司，未經(jīng)騰訊云計(jì)算（北京）有限責(zé)任公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010070649.6/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06K 數(shù)據(jù)識別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】