[發(fā)明專利]一種基于自然語言語義分析的文本識別方法在審
| 申請?zhí)枺?/td> | 202110635441.9 | 申請日: | 2021-06-07 |
| 公開(公告)號: | CN113569577A | 公開(公告)日: | 2021-10-29 |
| 發(fā)明(設計)人: | 劉如君;劉志杰;陳喬;尚雪松 | 申請(專利權)人: | 北京微智信業(yè)科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279;G06F40/151;G06F40/216 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 趙銀萍 |
| 地址: | 100000 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 語義 分析 文本 識別 方法 | ||
1.一種基于自然語言語義分析的文本識別方法,其特征在于,包括:
建立自然語言語義和標準語言語義的對應關系映射集;
獲取文本信息,提取文本中的語言信息,通過對應關系映射集識別語言信息中的標準語言語義和非標準語言語義;
將非標準語言語義信息輸入非標準語言語義分析系統(tǒng)分析判定,完成文本識別。
2.根據權利要求1所述的一種基于自然語言語義分析的文本識別方法,其特征在于,所述建立自然語言語義和標準語言語義的對應關系映射集包括:
步驟1:獲取自然語言信息;
步驟2:提取自然語言信息的語義特征,識別自然語言信息語義信息所處的對應關系映射集區(qū)域范圍;
步驟3:根據識別出的文本區(qū)域,將所述區(qū)域中的文本與詞庫中的文本對比,得到初始的文本信息;
步驟4:基于所述的初始文本信息的特征,對文本信息進行分析;
步驟6:根據分析結果判斷所述文本信息特征的準確性及完整性;
步驟5:按照自然語言語序對所述文本信息進行矯正;
步驟7:將文本字符進行分割,識別文本字符;
步驟8:將所述的識別出的文本字符輸入系統(tǒng)映射集中,得到完整準確的對應關系映射集。
3.根據權利要求2所述的一種基于自然語言語義分析的文本識別方法,其特征在于,所述步驟4:基于所述的初始文本信息的特征,對文本信息進行分析,包括:
識別文本在自然語言中的分布紋理;將分布紋理與背景紋理進行紋理對比度分析;當紋理對比度大于設定的限值,則識別為文本特征,進行提取;當紋理對比度不大于設定的限值,則識別為非文本。
4.根據權利要求2所述的一種基于自然語言語義分析的文本識別方法,其特征在于,所述自然語言信息的特征包括:自然環(huán)境中有干擾噪聲場景的文本檢測與定位;對文本區(qū)域中低質量、干擾嚴重的文本進行識別、根據文本區(qū)域的識別結果對自然語言或視頻數據中所包含的信息作進一步的解釋。
5.根據權利要求1所述的一種基于自然語言語義分析的文本識別方法,其特征在于,所述:獲取文本信息,提取文本中的語言信息,通過對應關系映射集識別語言信息中的標準語言語義和非標準語言語義;其中,通過對應關系映射集識別語言信息中的標準語言語義和非標準語言語義;包括:
步驟S1,實時采集自然語言信息;
步驟S2,將采集到的所述自然語言信息進行信息類型判斷;
步驟S3,判斷所述文本信息屬于專有信息或通用信息;包括:根據所述文本信息中是否存在包含在所述關鍵詞庫中的關鍵詞,判斷所述文本信息屬于專有信息或通用信息;存在包含在所述關鍵詞庫中的關鍵詞則屬于所述專有信息;不存在包含在所述關鍵詞庫中的關鍵詞則屬于所述通用信息;若屬于所述通用信息,則轉向步驟S4;若屬于所述專有信息,則轉向步驟S5;
步驟S4,對判斷為屬于所述通用信息的所述文本信息進行語言語義識別,形成第一語言語義識別并轉向步驟S6;
步驟S5,將判斷為屬于所述專有信息的所述文本信息轉換為標準拼音信息,并對所述標準拼音信息進行語言語義識別,形成第二語言語義識別并轉向步驟S6;
步驟S6,執(zhí)行所述第一語言語義識別和/或所述第二語言語義識別后結束,并生成語義識別字詞庫。
6.根據權利要求5所述的一種基于自然語言語義分析的文本識別方法,其特征在于,所述步驟S5中包括:步驟S51,將所述文本信息轉換為初始拼音信息;步驟S52,對所述初始拼音信息進行模糊匹配,得到所述標準拼音信息;步驟S53,對所述標準拼音信息進行語言語義識別,形成所述第二語言語義識別并轉向步驟S6。
7.根據權利要求6所述一種基于自然語言語義分析的文本識別方法,其特征在于,所述步驟S52,對所述初始拼音信息進行模糊匹配,得到所述標準拼音信息,包括:所述模糊匹配采用同音聲母校正和/或前后元音進行校正,校正后將矯正后的信息輸入標準自然語言語義分析,如仍包含無法識別內容,則進行循環(huán)矯正,直至全部識別為標準自然語言語義分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京微智信業(yè)科技有限公司,未經北京微智信業(yè)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110635441.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種氣動碼釘槍
- 下一篇:伯克霍爾德氏菌酯合成酶、編碼基因及其應用





