[發明專利]文本識別方法、裝置及計算機存儲介質在審
| 申請號: | 202110437696.4 | 申請日: | 2021-04-22 |
| 公開(公告)號: | CN113111644A | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 趙亮;楊杰 | 申請(專利權)人: | 上海云從企業發展有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/205;G06F40/126 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 李興迪 |
| 地址: | 200000 上海市浦東新區中國(上海)自*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 識別 方法 裝置 計算機 存儲 介質 | ||
本申請提供一種文本識別方法、裝置及計算機存儲介質,主要包括根據目標文本和關系特征,獲得關系特征的第一特征向量;根據目標文本,獲得目標文本的第二特征向量;根據第一特征向量、第二特征向量,從目標文本中獲取對應于關系特征的主實體和客實體;以及根據關系特征、對應于關系特征的主實體和客實體,獲得目標文本的識別結果,借此,本申請可以有效提高文本識別結果的準確率。
技術領域
本申請實施例涉及文本識別技術領域,特別涉及一種文本識別方法、裝置及計算機存儲介質。
背景技術
關系三元組的抽取處理過程主要包括,輸入一段文本,通過規則或者模型的方法抽取句子中包含的實體以及關系,以此來構成一個關系三元組(s,p,o),其中s(subject)表示主實體,o(object)表示客實體,p(predicate)表示兩實體間的關系特征。
比如,針對“姚明,1980年9月12日出生于上海市徐匯區”的文本,其中可包含有關系三元組(姚明,出生地,上海市徐匯區)。提取文本中的三元組是建立知識圖譜重要的一個步驟,在大數據時代的今天,從大量非結構化的數據當中自動提取關系三元組建立結構化數據的知識圖譜是非常有價值的,可以應用于信息抽取、搜索、問答系統和推薦系統等多個領域。
目前主流的關系三元組提取處理方法大都是通過模型的方式進行抽取,比較有代表性的兩個方向是管道方式(pipeline)和聯合方式(end-to-end)。
其中,管道方式主要是先進行文本的實體抽取,是一個序列化標注問題,然后將抽取的實體進行兩兩組合以構建關系矩陣或者進行關系識別,然而,這種方式在第二階段會產生大量無意義的實體對,由于誤差的累計,導致了關系三元組整體抽取的準確率有限。
再者,聯合方式則是通常將實體抽取和關系識別放在同一個任務當中,其中共享embedding主干網絡,然而,這種方式由于將兩個任務結合在一起,導致模型的訓練難度較大,同時對于一個包含多個相同關系的文本,三元組抽取準確率往往不及管道方式。
發明內容
鑒于上述問題,本申請提供一種本文識別方法、裝置及計算機存儲介質,可提高文本識別結果的準確率,并提高文本識別的處理效率。
本申請第一方面提供一種文本識別方法,其包括:根據目標文本和至少一個關系特征,獲得所述關系特征的第一特征向量;根據所述目標文本,獲得所述目標文本的第二特征向量;根據所述第一特征向量、所述第二特征向量,從所述目標文本中獲取對應于所述關系特征的主實體和客實體;以及根據所述關系特征、對應于所述關系特征的所述主實體和所述客實體,獲得所述目標文本的識別結果。
本申請第二方面提供一種計算機存儲介質,所述計算機存儲介質中儲存有用于執行上述第一方面所述的文本識別方法的各所述步驟的指令。
本申請第三方面提供一種文本識別裝置,其包括:特征獲取模塊,用于根據目標文本和至少一個關系特征,獲得所述關系特征的第一特征向量,并根據所述目標文本,獲得所述目標文本的第二特征向量;以及文本識別模塊,用于根據所述第一特征向量、所述第二特征向量,從所述目標文本中獲取對應于所述關系特征的主實體和客實體,并根據所述關系特征、對應于所述關系特征的所述主實體和所述客實體,獲得所述目標文本的識別結果。
綜上所述,本申請實施例提出了一種從關系識別到實體抽取的關系三元組管道抽取方法,不僅可識別出目標文本中所包含的多種關系,且通過將關系特征對應的編碼特征向量與目標文本對應的編碼特征進行融合,可以提高關系對應實體的抽取準確率。
再者,本申請實施例提供的文本識別技術不僅可減少現有管道抽取方式中需處理大量無意義實體對的問題,以適用于當目標文本中包含有多個關系特征的情況下的關系三元組的抽取處理,可以提高文本識別處理效率。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海云從企業發展有限公司,未經上海云從企業發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110437696.4/2.html,轉載請聲明來源鉆瓜專利網。





