[發明專利]一種文本對象識別方法、裝置、電子設備及存儲介質在審
| 申請號: | 202111596384.4 | 申請日: | 2021-12-24 |
| 公開(公告)號: | CN114495143A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 黃昉;史亞冰;蔣燁;柴春光;朱勇 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06V30/414 | 分類號: | G06V30/414;G06V30/416;G06F40/14;G06F40/205;G06F40/247;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京易光知識產權代理有限公司 11596 | 代理人: | 徐升升 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 對象 識別 方法 裝置 電子設備 存儲 介質 | ||
本公開提供了一種文本對象識別方法、裝置、電子設備及存儲介質,涉及人工智能技術領域,尤其涉及自然語言處理、知識圖譜等領域。具體實現方案為:對文檔數據進行文檔結構解析,得到文檔樹;根據所述文檔樹,得到文本對象在所述文檔數據中的章節范圍;從所述文檔數據中的章節范圍,識別出所述文本對象。采用本公開,可以從大量的文檔數據中識別出不同行業的行業術語。
技術領域
本公開涉及人工智能技術領域,尤其涉及自然語言處理、知識圖譜等領域。
背景技術
各行各業中存在不同的行業術語(如專有名詞),要想實現行業中大規模知識圖譜的構建,需要從大量的文檔數據中識別出不同行業的行業術語。
發明內容
本公開提供了一種文本對象識別方法、裝置、電子設備以及存儲介質。
根據本公開的一方面,提供了一種文本對象識別方法,包括:
對文檔數據進行文檔結構解析,得到文檔樹;
根據所述文檔樹,得到文本對象在所述文檔數據中的章節范圍;
從所述文檔數據中的章節范圍,識別出所述文本對象。
根據本公開的另一方面,提供了一種文本對象識別裝置,包括:
解析單元,用于對文檔數據進行文檔結構解析,得到文檔樹;
章節范圍確定單元,用于根據所述文檔樹,得到文本對象在所述文檔數據中的章節范圍;
文本識別單元,用于從所述文檔數據中的章節范圍,識別出所述文本對象。
根據本公開的另一方面,提供了一種電子設備,包括:
至少一個處理器;以及
與該至少一個處理器通信連接的存儲器;其中,
該存儲器存儲有可被該至少一個處理器執行的指令,該指令被該至少一個處理器執行,以使該至少一個處理器能夠執行本公開任意一實施例所提供的方法。
根據本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,該計算機指令用于使該計算機執行本公開任意一項實施例所提供的方法。
根據本公開的另一方面,提供了一種計算機程序產品,包括計算機指令,該計算機指令被處理器執行時實現本公開任意一項實施例所提供的方法。
采用本公開,可以對文檔數據進行文檔結構解析,得到文檔樹,根據該文檔樹可以得到文本對象在該文檔數據中的章節范圍,從該文檔數據中的章節范圍可以識別出該文本對象,從而可以從大量的文檔數據中識別出不同行業的行業術語。
應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構成對本公開的限定。其中:
圖1是根據本公開實施例的包括行業術語一文檔數據的示意圖;
圖2是根據本公開實施例的行業術語一分布式集群處理場景的示意圖;
圖3是根據本公開實施例的文本對象為專有名詞情況下的識別場景圖;
圖4是根據本公開實施例的文本對象識別方法的流程示意圖;
圖5是根據本公開實施例的文本對象識別裝置的組成結構示意圖;
圖6是用來實現本公開實施例的文本對象識別方法的電子設備的框圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111596384.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電商客服平臺售后服務系統
- 下一篇:基于公網與專網疊加的IMS通信方法





