[發明專利]文本實體的識別方法及相關裝置在審
申請號: | 202110361172.1 | 申請日: | 2021-04-02 |
公開(公告)號: | CN113065346A | 公開(公告)日: | 2021-07-02 |
發明(設計)人: | 何東;陳華智;王紅凱;黃宇騰;徐海青;毛冬;張辰;饒涵宇;陳是同;梁翀;浦正國;余江斌 | 申請(專利權)人: | 國網浙江省電力有限公司信息通信分公司;國網浙江省電力有限公司;安徽繼遠軟件有限公司;國網信息通信產業集團有限公司 |
主分類號: | G06F40/279 | 分類號: | G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 尹秀 |
地址: | 310007 浙*** | 國省代碼: | 浙江;33 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 文本 實體 識別 方法 相關 裝置 | ||
本申請公開了文本實體的識別方法及相關裝置,其中,方法包括:從待處理文本序列中獲取指代同一概念的實體表述;實體表述用于實體歸一化;將實體表述轉換為預設長度的表述向量;對待處理文本序列進行詞嵌入處理,得到向量;對向量中用于實體識別的上下文特征進行編碼,得到編碼向量;對表述向量與編碼向量進行拼接,得到拼接向量;將拼接向量解碼為待處理文本序列的預測序列。本申請以向量為紐帶將實體歸一化和實體識別在向量空間上的聯結起來。拼接向量既包含了實體歸一化的信息,也包含了實體識別的信息,并且,實體歸一化信息作用于實體識別。由于實體識別利用了實體歸一化的信息,從而,使得實體識別結果更全面,提高實體識別的準確性。
技術領域
本申請涉及數據處理領域,尤其涉及文本實體的識別方法及相關裝置。
背景技術
文本實體識別是信息抽取的關鍵技術,是眾多復雜的自然語言處理應用的基石。然而,由于自然語言豐富的表達形式,導致識別到的文本實體中可能存在指代同一個實體概念的多種不同的表述形式,使得識別到的文本實體難以被直接應用。已有研究表明,實體表述的歸一化有助于文本實體的識別。
目前,采用實體表述的歸一化提升實體識別的過程,包括:先識別出待處理文本中的文本實體表述,得到候選文本實體,再基于現有的詞典和知識庫,對識別出的候選文本實體進行實體表述的歸一化。
但是,實體歸一化后得到的文本實體的準確性低,即實體歸一化后得到的文本實體是不全面的,即可能漏掉了待處理文本中的部分文本實體。
發明內容
本申請提供了文本實體的識別方法及相關裝置,目的在于解決實體歸一化后得到的文本實體的準確性低的問題。
為了實現上述目的,本申請提供了以下技術方案:
本申請提供了一種文本實體的識別方法,包括:
從待處理文本序列中獲取指代同一概念的實體表述;所述實體表述用于實體歸一化;
將所述實體表述轉換為預設長度的表述向量;
對所述待處理文本序列進行詞嵌入處理,得到向量;
對所述向量中用于實體識別的上下文特征進行編碼,得到編碼向量;
對所述表述向量與所述編碼向量進行拼接,得到拼接向量;
將所述拼接向量解碼為所述待處理文本序列的預測序列。
可選的,所述實體表述至少包括:所述待處理文本序列中非標準實體表述的定義指示的實體表述對;
所述從待處理文本序列中獲取指代同一概念的實體表述,包括:
基于句法結構和詞法結構的規則,識別所述待處理文本序列中用于定義實體的非標準表述;
從所述非標準表述中抽取指代同一個概念的實體表述對。
可選的,所述對所述向量中用于實體識別的上下文特征進行編碼,得到編碼向量,包括:
將所述向量輸入預設的雙向LSTM模型;所述雙向LSTM模型輸出所述編碼向量。
可選的,在所述將所述實體表述對轉換為預設長度的表述向量之后,還包括:
通過線性層對所述表述向量進行處理。
可選的,在所述對所述表述向量與所述編碼向量進行拼接,得到拼接向量之后,且,在所述將所述拼接向量解碼為所述待處理文本序列的預測序列之前,還包括:
通過全連接層對所述拼接向量進行轉換,得到轉換后的拼接向量。
可選的,在所述對所述待處理文本序列進行詞嵌入處理,得到向量之后,且,在所述對所述向量中用于實體識別的上下文特征進行編碼,得到編碼向量之前,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網浙江省電力有限公司信息通信分公司;國網浙江省電力有限公司;安徽繼遠軟件有限公司;國網信息通信產業集團有限公司,未經國網浙江省電力有限公司信息通信分公司;國網浙江省電力有限公司;安徽繼遠軟件有限公司;國網信息通信產業集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110361172.1/2.html,轉載請聲明來源鉆瓜專利網。